保姆级教程：用PyTorch+Keras搞定AG_NEWS新闻分类（附完整可运行代码）

张

张建站

2026/4/17 20:53:32

10分钟阅读

保姆级教程：用PyTorch+Keras搞定AG_NEWS新闻分类（附完整可运行代码）

从零实现AG_NEWS新闻分类PyTorchKeras避坑实战指南你是否曾在网上搜索新闻分类代码时发现要么环境配置不全要么预处理步骤缺失甚至模型根本无法运行本文将带你完整复现AG_NEWS新闻分类任务从数据集下载到模型测试每个环节都包含可执行的代码片段和关键避坑点。不同于零散的教程这里提供的是一套开箱即用的解决方案。1. 环境准备与数据获取首先确保已安装Python 3.8环境建议使用conda创建虚拟环境conda create -n news_classify python3.8 conda activate news_classify安装必要的依赖库pip install torch keras pandas numpy scikit-learnAG_NEWS数据集包含四个文件classes.txt4个新闻类别标签train.csv120,000条训练数据test.csv7,600条测试数据常见问题原始数据集中的标签从1开始编号1-4而PyTorch的交叉熵损失期望从0开始0-3。我们会在预处理阶段进行修正。2. 数据预处理全流程2.1 数据加载与清洗使用pandas读取CSV文件时需要注意原始数据没有表头import pandas as pd def load_agnews(filepath): df pd.read_csv(filepath, headerNone) texts [] labels [] for _, row in df.iterrows(): # 合并标题和内容 text f{row[1]} {row[2]}.lower() # 统一转为小写 label row[0] - 1 # 关键步骤标签减1 texts.append(text) labels.append(label) return texts, labels2.2 文本向量化处理结合Keras的Tokenizer和PyTorch的数据加载from keras.preprocessing.text import Tokenizer from keras.utils import pad_sequences from torch.utils.data import Dataset, DataLoader import torch class AGNewsDataset(Dataset): def __init__(self, texts, labels, tokenizer, max_len64): self.sequences tokenizer.texts_to_sequences(texts) self.padded pad_sequences(self.sequences, maxlenmax_len) self.labels labels def __len__(self): return len(self.labels) def __getitem__(self, idx): return torch.LongTensor(self.padded[idx]), torch.tensor(self.labels[idx])创建词汇表的技巧tokenizer Tokenizer(oov_tokenUNK) tokenizer.fit_on_texts(train_texts test_texts) # 合并训练测试集构建词汇表 vocab_size len(tokenizer.word_index) 1 # 加1保留0给padding3. 模型架构设计3.1 自定义文本分类模型使用PyTorch实现带Embedding层的文本分类器import torch.nn as nn import torch.nn.functional as F class NewsClassifier(nn.Module): def __init__(self, vocab_size, embed_dim, num_classes): super().__init__() self.embedding nn.Embedding(vocab_size, embed_dim) self.fc nn.Linear(embed_dim, num_classes) self.init_weights() def init_weights(self): initrange 0.5 self.embedding.weight.data.uniform_(-initrange, initrange) self.fc.weight.data.uniform_(-initrange, initrange) self.fc.bias.data.zero_() def forward(self, x): embedded self.embedding(x) # [batch, seq_len, embed_dim] pooled F.avg_pool1d(embedded.transpose(1, 2), kernel_sizeembedded.size(1)) return self.fc(pooled.squeeze(2))3.2 批处理函数实现自定义collate_fn处理变长序列def collate_batch(batch): texts, labels zip(*batch) texts torch.stack(texts) labels torch.tensor(labels) return texts, labels4. 训练与评估实战4.1 训练循环配置设置优化器和学习率调度from torch.optim import SGD from torch.optim.lr_scheduler import StepLR model NewsClassifier(vocab_size, 128, 4).to(device) criterion nn.CrossEntropyLoss() optimizer SGD(model.parameters(), lr4.0) scheduler StepLR(optimizer, 1, gamma0.9)4.2 训练与验证函数完整训练流程实现def train_epoch(model, train_loader, optimizer, criterion, device): model.train() total_loss, total_acc 0, 0 for texts, labels in train_loader: texts, labels texts.to(device), labels.to(device) optimizer.zero_grad() outputs model(texts) loss criterion(outputs, labels) loss.backward() optimizer.step() total_loss loss.item() total_acc (outputs.argmax(1) labels).sum().item() return total_loss / len(train_loader.dataset), total_acc / len(train_loader.dataset)验证函数需要注意关闭梯度计算def evaluate(model, data_loader, criterion, device): model.eval() total_loss, total_acc 0, 0 with torch.no_grad(): for texts, labels in data_loader: texts, labels texts.to(device), labels.to(device) outputs model(texts) loss criterion(outputs, labels) total_loss loss.item() total_acc (outputs.argmax(1) labels).sum().item() return total_loss / len(data_loader.dataset), total_acc / len(data_loader.dataset)5. 模型优化与部署5.1 超参数调优建议经过多次实验验证的有效参数组合参数推荐值说明学习率4.0初始学习率batch_size32平衡内存和性能embed_dim128词向量维度max_len64文本截断长度epochs20训练轮数5.2 模型保存与加载训练完成后保存最佳模型torch.save({ model_state_dict: model.state_dict(), tokenizer: tokenizer, vocab_size: vocab_size }, ag_news_classifier.pth)加载模型进行预测def predict(text, model, tokenizer, max_len64): sequence tokenizer.texts_to_sequences([text]) padded pad_sequences(sequence, maxlenmax_len) tensor torch.LongTensor(padded).to(device) with torch.no_grad(): output model(tensor) pred output.argmax(1).item() return pred在实际项目中这个模型可以达到约90%的测试准确率。值得注意的是当遇到OOV未登录词时由于我们在Tokenizer中设置了oov_token模型仍能进行合理预测。

百度AI语音合成API调用实战：解决Open api characters limit reached错误指南

1. 遇到Open api characters limit reached错误怎么办？ 最近在调用百度AI语音合成API时，突然弹出了"Open api characters limit reached"的错误提示，相信不少开发者都遇到过这个问题。这个错误其实很好理解，就是字符数超…...

2026/4/6 18:37:31 阅读更多 →

避坑指南：Qwen3 + vLLM部署时，关于chat_template、max_model_len和GPU内存的那些事儿

Qwen3与vLLM部署实战：关键参数调优与性能陷阱解析当我们将Qwen3这样的先进大语言模型与vLLM这样的高性能推理框架结合时，理论上应该获得丝滑的推理体验。但现实往往充满意外——显存突然爆满、响应时间莫名延长、输出格式出现诡异错误。这些问题的根源通…...

2026/4/8 6:12:50 阅读更多 →

从零到一：在GD32单片机上实战FreeRTOS任务调度与内存管理

1. 为什么要在GD32上跑FreeRTOS？ 第一次接触GD32单片机时，我和很多人一样都是从裸机编程开始的。点亮LED、读取按键、驱动串口，这些基础操作确实能完成简单项目。但当我尝试做一个需要同时处理串口通信、按键响应和屏幕刷新的项目时&#xff…...

2026/4/11 23:48:33 阅读更多 →

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

1. 从地图到导航的关键跨越当你完成地图构建的那一刻，就像拿到了一张藏宝图，但要让小车真正动起来寻宝，还需要一套完整的导航系统。ROS中的amcl和move_base就是实现这一目标的核心组件。amcl负责定位，让小车知道"我在哪&quo…...

2026/4/17 11:10:51 阅读更多 →

如何构建高性能的消息队列系统

如何构建高性能的消息队列系统在当今高并发的互联网应用中，消息队列系统扮演着关键角色，它能够解耦服务、削峰填谷，并提升系统的整体吞吐量。随着业务规模的扩大，如何构建一个高性能、高可用的消息队列系统成为开发者面临的挑战…...

2026/4/17 10:12:00 阅读更多 →

Java Iterator

Java Iterator 在Java编程语言中，Iterator接口是Java集合框架的一部分，主要用于遍历集合中的元素。本文将详细介绍Java的Iterator接口，包括其定义、使用方法以及与ListIterator的区别。定义 Iterator是一个用于遍历集合中元素的接口。它提供了迭代器的基本操作，例如：检…...

2026/4/17 10:12:00 阅读更多 →