用PyTorch和DQN训练一个会玩Flappy Bird的AI（附完整代码和300万次训练模型）

张

张建站

2026/5/19 10:40:51

10分钟阅读

用PyTorch和DQN训练一个会玩Flappy Bird的AI附完整代码和300万次训练模型1. 项目概述与核心挑战Flappy Bird作为一款经典的休闲游戏其简单的规则背后隐藏着复杂的动态环境。要让AI掌握这个游戏我们需要解决几个关键问题状态表示如何从原始像素中提取有效特征动作决策在仅有两个动作跳跃/不跳的情况下做出最优选择长期规划平衡即时奖励与长期收益深度Q网络(DQN)通过结合卷积神经网络和Q-learning算法能够直接从屏幕像素学习游戏策略。我们的实现包含以下技术要点# 网络结构示例 class DQN(nn.Module): def __init__(self): super().__init__() self.conv1 nn.Conv2d(4, 32, kernel_size8, stride4) self.conv2 nn.Conv2d(32, 64, kernel_size4, stride2) self.conv3 nn.Conv2d(64, 64, kernel_size3, stride1) self.fc1 nn.Linear(7*7*64, 512) self.fc2 nn.Linear(512, 2)2. 工程实现细节2.1 环境配置与预处理游戏画面经过多步处理才能作为神经网络的输入尺寸压缩从288×512缩小到84×84灰度化转换为单通道图像帧堆叠将连续4帧叠加作为状态输入def pre_process(image): image cv2.cvtColor(cv2.resize(image, (84, 84)), cv2.COLOR_BGR2GRAY) _, image cv2.threshold(image, 1, 255, cv2.THRESH_BINARY) return image[None, :, :].astype(np.float32)2.2 关键参数设置参数名称取值作用说明γ (折扣因子)0.99控制未来奖励的重要性初始ε0.1探索概率起始值最终ε1e-4探索概率最终值回放内存30000存储经验样本的数量批大小32每次训练的样本数2.3 训练流程优化训练过程中采用了多项改进措施经验回放打破样本相关性提高数据效率目标网络稳定学习过程ε-贪心策略平衡探索与利用提示训练初期应保持较高探索率随着网络成熟逐渐降低3. 代码架构解析项目包含以下核心文件flappy_bird.py- 游戏环境实现deep_q_network.py- 神经网络定义utils.py- 预处理工具train.py- 主训练循环test.py- 模型评估训练循环的关键片段# 从回放内存采样 batch sample(replay_memory, min(len(replay_memory), batch_size)) states, actions, rewards, next_states, dones zip(*batch) # 计算目标Q值 with torch.no_grad(): next_q_values target_net(next_states) max_next_q next_q_values.max(1)[0] targets rewards (1 - dones) * gamma * max_next_q # 计算当前Q值并更新 current_q net(states).gather(1, actions) loss F.mse_loss(current_q, targets) optimizer.zero_grad() loss.backward() optimizer.step()4. 训练结果分析经过300万次迭代训练模型表现呈现明显阶段性进步5万次基本无法通过任何管道50万次偶尔通过1-2个管道100万次稳定通过4-5个管道250万次极少失误可长期存活300万次近乎完美表现训练过程中的关键指标变化Loss曲线初期快速下降后期趋于平稳Q值随着训练持续上升奖励后期稳定在较高水平ε值线性下降探索率降低5. 实战技巧与常见问题5.1 性能优化建议使用CUDA加速训练过程调整回放内存大小平衡性能与效果定期保存模型检查点5.2 调试技巧当训练出现问题时可以检查预处理后的图像是否正常奖励设计是否合理网络梯度更新是否正常# 监控GPU使用情况 nvidia-smi -l 15.3 扩展思路本项目可以进一步优化引入Double DQN解决过估计问题尝试Dueling Network结构添加优先级经验回放完整项目代码已包含300万次训练后的模型参数可直接用于测试或继续训练。在实际使用中建议从较小的迭代次数开始逐步验证模型效果。

保姆级教程：用Docker+Fast_LIO搞定室内三维建模，从数据采集到PCD可视化全流程

从零构建室内三维地图：DockerFast_LIO全流程实战指南在数字化建模领域，激光雷达SLAM技术正在重塑传统测绘的作业方式。本文将带您完整走通Livox雷达与IMU设备协同工作的三维重建全流程——从设备选型、数据采集规范，到Docker环境下的Fast_LI…...

2026/5/19 10:40:07 阅读更多 →

IL-4诱导的M2INF巨噬细胞在二型免疫疾病及感染防御中的机制研究

摘要郑世进课题组通过深入研究IL-4诱导的M2INF巨噬细胞，揭示了其产生机制主要涉及糖代谢途径的重编程和组蛋白H3K4位点甲基化修饰的改变。这一发现为理解二型免疫疾病的发生发展提供了新的视角，并为相关疾病的治疗策略提供了理论依据。通过在小鼠模型&am…...

2026/5/19 10:31:20 阅读更多 →

别再手动画图了！用Graphviz + Python自动生成流程图，效率提升10倍

用PythonGraphviz实现自动化图表生成：告别低效手绘时代你是否曾在PPT中反复调整箭头位置，只为让一张流程图看起来更专业？或是花半小时拖拽图形，却发现某个节点的颜色需要全局修改？在技术文档、系统架构设计或算法可视…...

2026/5/19 10:31:19 阅读更多 →

Windows隐藏COM端口清理指南：解决端口号膨胀问题

1. 项目概述：为什么你的COM端口号会“膨胀”到两位数？如果你是一位长期在Windows系统下进行嵌入式开发、单片机调试，或者经常使用USB转串口工具的朋友，大概率遇到过这个令人头疼的现象：设备管理器里的COM端口号&#x…...

2026/5/18 8:51:59 阅读更多 →

Playnite完整指南：高效统一你的跨平台游戏库管理体验

Playnite完整指南：高效统一你的跨平台游戏库管理体验【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地址: http…...

2026/5/18 8:52:11 阅读更多 →