Python推荐系统实战：从协同过滤到深度学习

张

张建站

2026/7/28 22:59:21

10分钟阅读

Python推荐系统实战从协同过滤到深度学习前言大家好我是第一程序员名字大人很菜。作为一个非科班转码、正在学习Rust和Python的萌新最近我开始学习推荐系统。今天我想分享一下Python推荐系统的实战经验从协同过滤到深度学习。一、推荐系统基础1.1 推荐系统的基本概念推荐系统根据用户的历史行为和偏好向用户推荐可能感兴趣的物品协同过滤基于用户或物品的相似性进行推荐内容过滤基于物品的特征进行推荐混合推荐结合多种推荐方法1.2 推荐系统的应用场景电商平台推荐商品视频网站推荐视频音乐平台推荐音乐新闻网站推荐新闻社交平台推荐好友或内容二、环境搭建2.1 安装必要的库# 安装NumPy pip install numpy # 安装Pandas pip install pandas # 安装Scikit-learn pip install scikit-learn # 安装TensorFlow或PyTorch pip install tensorflow # 或 pip install torch torchvision # 安装其他库 pip install matplotlib seaborn三、协同过滤3.1 基于用户的协同过滤使用Python实现基于用户的协同过滤import numpy as np import pandas as pd from sklearn.metrics.pairwise import cosine_similarity # 示例用户-物品矩阵 user_item_matrix np.array([ [5, 4, 0, 0, 1], [0, 5, 5, 0, 0], [1, 0, 0, 4, 5], [0, 0, 5, 0, 4], [0, 0, 0, 5, 0] ]) # 计算用户之间的相似度 user_similarity cosine_similarity(user_item_matrix) print(用户相似度矩阵:) print(user_similarity) # 为用户0推荐物品 target_user 0 user_scores user_similarity[target_user] # 计算加权评分 weighted_scores np.dot(user_scores, user_item_matrix) # 归一化 user_score_sum np.sum(user_scores) if user_score_sum 0: weighted_scores weighted_scores / user_score_sum # 找出未评分的物品 unrated_items np.where(user_item_matrix[target_user] 0)[0] # 按评分排序 recommendations sorted(zip(unrated_items, weighted_scores[unrated_items]), keylambda x: x[1], reverseTrue) print(为用户0推荐的物品:) for item, score in recommendations: print(f物品{item}评分: {score:.2f})3.2 基于物品的协同过滤使用Python实现基于物品的协同过滤import numpy as np import pandas as pd from sklearn.metrics.pairwise import cosine_similarity # 示例用户-物品矩阵 user_item_matrix np.array([ [5, 4, 0, 0, 1], [0, 5, 5, 0, 0], [1, 0, 0, 4, 5], [0, 0, 5, 0, 4], [0, 0, 0, 5, 0] ]) # 计算物品之间的相似度 item_similarity cosine_similarity(user_item_matrix.T) print(物品相似度矩阵:) print(item_similarity) # 为用户0推荐物品 target_user 0 user_ratings user_item_matrix[target_user] # 计算加权评分 weighted_scores np.dot(user_ratings, item_similarity) # 归一化 item_score_sum np.sum(item_similarity, axis0) weighted_scores weighted_scores / item_score_sum # 找出未评分的物品 unrated_items np.where(user_ratings 0)[0] # 按评分排序 recommendations sorted(zip(unrated_items, weighted_scores[unrated_items]), keylambda x: x[1], reverseTrue) print(为用户0推荐的物品:) for item, score in recommendations: print(f物品{item}评分: {score:.2f})四、矩阵分解4.1 奇异值分解SVD使用Python实现SVDimport numpy as np import pandas as pd from scipy.sparse.linalg import svds # 示例用户-物品矩阵 user_item_matrix np.array([ [5, 4, 0, 0, 1], [0, 5, 5, 0, 0], [1, 0, 0, 4, 5], [0, 0, 5, 0, 4], [0, 0, 0, 5, 0] ]) # 进行SVD分解 U, sigma, Vt svds(user_item_matrix, k2) sigma np.diag(sigma) # 重建矩阵 reconstructed_matrix np.dot(np.dot(U, sigma), Vt) print(重建的用户-物品矩阵:) print(reconstructed_matrix) # 为用户0推荐物品 target_user 0 user_ratings user_item_matrix[target_user] recommended_scores reconstructed_matrix[target_user] # 找出未评分的物品 unrated_items np.where(user_ratings 0)[0] # 按评分排序 recommendations sorted(zip(unrated_items, recommended_scores[unrated_items]), keylambda x: x[1], reverseTrue) print(为用户0推荐的物品:) for item, score in recommendations: print(f物品{item}评分: {score:.2f})五、深度学习推荐系统5.1 神经网络推荐模型使用PyTorch实现神经网络推荐模型import torch import torch.nn as nn import torch.optim as optim import numpy as np # 示例数据 users np.array([0, 0, 1, 1, 2, 2, 3, 3, 4, 4]) items np.array([0, 1, 1, 2, 0, 3, 2, 4, 3, 4]) ratings np.array([5, 4, 5, 5, 1, 4, 5, 4, 5, 0]) # 构建数据集 class RecommendationDataset(torch.utils.data.Dataset): def __init__(self, users, items, ratings): self.users users self.items items self.ratings ratings def __len__(self): return len(self.users) def __getitem__(self, idx): return self.users[idx], self.items[idx], self.ratings[idx] # 创建数据集和数据加载器 dataset RecommendationDataset(users, items, ratings) dataloader torch.utils.data.DataLoader(dataset, batch_size2, shuffleTrue) # 定义模型 class RecommendationModel(nn.Module): def __init__(self, num_users, num_items, embedding_dim): super().__init__() self.user_embedding nn.Embedding(num_users, embedding_dim) self.item_embedding nn.Embedding(num_items, embedding_dim) self.fc nn.Linear(embedding_dim * 2, 1) def forward(self, user, item): user_emb self.user_embedding(user) item_emb self.item_embedding(item) combined torch.cat([user_emb, item_emb], dim1) return self.fc(combined) # 模型参数 num_users 5 num_items 5 embedding_dim 10 # 创建模型实例 model RecommendationModel(num_users, num_items, embedding_dim) # 定义损失函数和优化器 criterion nn.MSELoss() optimizer optim.Adam(model.parameters(), lr0.01) # 训练模型 epochs 100 for epoch in range(epochs): running_loss 0.0 for user, item, rating in dataloader: user user.long() item item.long() rating rating.float().unsqueeze(1) optimizer.zero_grad() prediction model(user, item) loss criterion(prediction, rating) loss.backward() optimizer.step() running_loss loss.item() if (epoch 1) % 10 0: print(fEpoch {epoch1}, Loss: {running_loss/len(dataloader):.3f}) # 预测所有用户-物品对 all_users torch.arange(num_users).long() all_items torch.arange(num_items).long() for user in all_users: print(f用户{user}的推荐:) user_tensor torch.tensor([user]).long() item_tensors torch.arange(num_items).long() predictions [] for item in item_tensors: item_tensor torch.tensor([item]).long() prediction model(user_tensor, item_tensor) predictions.append((item.item(), prediction.item())) # 按预测评分排序 predictions.sort(keylambda x: x[1], reverseTrue) for item, score in predictions: print(f 物品{item}预测评分: {score:.2f})六、推荐系统评估6.1 评估指标准确率Precision推荐列表中相关物品的比例召回率Recall相关物品被推荐的比例F1分数准确率和召回率的调和平均均方根误差RMSE预测评分与实际评分的误差平均绝对误差MAE预测评分与实际评分的绝对误差6.2 评估代码from sklearn.metrics import mean_squared_error, mean_absolute_error # 示例预测评分和实际评分 predictions [4.5, 3.0, 5.0, 2.5, 4.0] actual [5.0, 3.0, 4.5, 3.0, 4.0] # 计算RMSE rmse np.sqrt(mean_squared_error(actual, predictions)) print(fRMSE: {rmse:.2f}) # 计算MAE mae mean_absolute_error(actual, predictions) print(fMAE: {mae:.2f}) # 计算准确率和召回率 top_k 3 top_predictions sorted(enumerate(predictions), keylambda x: x[1], reverseTrue)[:top_k] top_items [item for item, score in top_predictions] # 假设相关物品是[0, 2, 4] relevant_items [0, 2, 4] # 计算准确率 precision len(set(top_items) set(relevant_items)) / len(top_items) print(fPrecision{top_k}: {precision:.2f}) # 计算召回率 recall len(set(top_items) set(relevant_items)) / len(relevant_items) print(fRecall{top_k}: {recall:.2f}) # 计算F1分数 f1 2 * precision * recall / (precision recall) if (precision recall) 0 else 0 print(fF1{top_k}: {f1:.2f})七、推荐系统的挑战与解决方案7.1 常见挑战冷启动新用户或新物品没有足够的历史数据数据稀疏用户-物品矩阵通常非常稀疏实时性需要实时更新推荐结果可扩展性处理大规模数据多样性推荐结果可能过于单一7.2 解决方案冷启动使用内容过滤、流行度推荐等方法数据稀疏使用矩阵分解、深度学习等方法实时性使用在线学习、增量学习等方法可扩展性使用分布式计算、缓存等方法多样性引入多样性指标调整推荐算法八、从Rust开发者角度的思考8.1 性能优化数据处理使用Rust实现高性能的数据处理模型推理使用Rust优化模型推理过程内存管理Rust的内存管理可以减少内存泄漏8.2 跨语言集成使用PyO3将Rust代码集成到Python中使用WebAssembly将Rust实现的推荐系统功能编译为WebAssembly使用gRPC在Rust和Python之间建立通信九、总结Python推荐系统实战是一个从基础到应用的过程需要掌握协同过滤、矩阵分解、深度学习等技术。作为一个非科班转码者我认为通过系统学习和实践完全可以掌握推荐系统技术。虽然推荐系统的学习曲线比较陡峭但通过项目实践和不断积累经验你会逐渐掌握其精髓。同时结合Rust的性能优势可以进一步优化推荐系统的性能。保持学习保持输出。虽然现在我还是个菜鸡但我相信只要坚持总有一天能成为真正的「第一程序员」

OZON选品公司口碑榜：新手快速上手指南与实战技巧

对于许多渴望在俄罗斯电商蓝海OZON平台掘金的新手卖家而言，“选品”无疑是横亘在成功之路上的第一座大山。选品不对，努力白费。面对海量商品和复杂的平台数据，如何高效、精准地找到能带来利润的潜力商品，是决定店铺能否快速起航的…...

2026/4/30 3:27:35 阅读更多 →

彻底告别OpenClaw：一行代码引出的“完全卸载”终极指南

删了，但又没完全删？那个烦人的提示到底什么意思……大家好，我是你们的老朋友，一位在代码与咖啡之间反复横跳的资深博主。今天聊一件看似很小、但几乎每个折腾过OpenClaw的朋友都会碰到的事：卸载。前两天有位读者私信我…...

2026/7/26 23:43:43 阅读更多 →

StructBERT中文语义相似度工具：5分钟快速部署，本地一键启动

StructBERT中文语义相似度工具：5分钟快速部署，本地一键启动 1. 工具简介与核心价值 StructBERT中文语义相似度工具是基于阿里达摩院开源的StructBERT-Large模型开发的本地化解决方案。这个工具专门针对中文文本相似度计算场景，能够快速判断…...

2026/5/5 11:00:16 阅读更多 →

大模型 Agent 三面被问：怎么解决 Skill 的依赖关系？我是这么答的

前段时间有个读者去面某大厂的 Agent 岗位，三面被甩出来一道题当场卡壳。题目听着挺朴素：“如果你的 Agent 里面有很多 Skill，Skill 之间还存在依赖关系的话，你打算怎么去设计来解决这个问题？” 他跟我复盘的时候说&a…...

2026/7/28 17:22:23 阅读更多 →

抱怨应试教育的苦，却不知道：那已经是人生里最轻松、最公平的一段路了

能靠考试得到的东西，都是天上掉馅饼上学的时候，总觉得考试是天底下最熬人的苦。背不完的知识点，刷不完的题，熬不完的夜，一张卷子定输赢的应试制度，曾被无数人吐槽是束缚、是枷锁。那时候总天真地以为，等走出校园、踏入社会，就能摆脱考试的桎梏，凭真本事自由闯荡。 …...

2026/7/28 21:12:22 阅读更多 →

华硕笔记本终极控制工具：如何用G-Helper取代臃肿的Armoury Crate

华硕笔记本终极控制工具：如何用G-Helper取代臃肿的Armoury Crate 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Z…...

2026/7/28 19:39:15 阅读更多 →