手撕PPO

张

张建站

2026/4/27 19:40:39

10分钟阅读

GAEdef compute_gae(rewards, values, dones, next_values, gamma0.99, lam0.95): 最简 GAE 实现 # TD 误差deltas rewards gamma * next_values * (1 - dones) - values# 反向计算 GAEadvantages []gae 0for t in range(len(deltas) - 1, -1, -1):gae deltas[t] gamma * lam * gae * (1 - dones[t])advantages.insert(0, gae)advantages torch.tensor(advantages)returns advantages valuesreturn advantages, returns策略损失def compute_policy_loss(log_probs, old_log_probs, advantages, action_maskNone, clip_eps0.2):ratio (log_probs - old_log_probs).exp()surr1 ratio * advantagessurr2 ratio.clamp(1.0 - clip_eps, 1.0 clip_eps) * advantagesloss -torch.min(surr1, surr2)if action_mask is None:return loss.mean(-1).mean()return ((loss * action_mask).sum(-1) / action_mask.sum(-1)).mean()价值损失def compute_value_loss(values, old_values, returns, action_maskNone, clip_eps: float None):if clip_eps is not None:values_clipped old_values (values - old_values).clamp(-clip_eps, clip_eps)surr1 (values_clipped - returns) ** 2surr2 (values - returns) ** 2loss torch.max(surr1, surr2)else:loss (values - returns) ** 2if action_mask is None:return loss.mean(-1).mean()return ((loss * action_mask).sum(-1) / action_mask.sum(-1)).mean()

Phi-4-Reasoning-Vision效果展示：化学分子结构图反应路径预测与副产物推理

Phi-4-Reasoning-Vision效果展示：化学分子结构图反应路径预测与副产物推理 1. 专业级多模态推理工具 Phi-4-Reasoning-Vision是基于微软最新Phi-4-reasoning-vision-15B多模态大模型开发的高性能推理工具。这个专业级解决方案专为双卡RTX 4090环境优化&#xff0c…...

2026/4/25 15:22:32 阅读更多 →

6个维度带你掌握HashCheck工具：从入门到精通

6个维度带你掌握HashCheck工具：从入门到精通【免费下载链接】HashCheck HashCheck Shell Extension for Windows with added SHA2, SHA3, and multithreading; originally from code.kliu.org 项目地址: https://gitcode.com/gh_mirrors/ha/HashCheck 1. 识…...

2026/4/25 15:16:33 阅读更多 →

前端拖拽交互全解析：从基础API到复杂场景的封装与实战（附源码）

1. HTML5拖拽API基础入门 HTML5原生拖拽API（Drag & Drop）是现代前端开发中实现交互功能的重要工具。我第一次接触这个API是在2014年，当时为了做一个文件上传功能，花了两天时间才搞明白它的基本用法。现在回头看，其…...

2026/4/16 3:54:28 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/27 7:22:16 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/27 7:22:16 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/27 7:22:16 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/27 7:22:17 阅读更多 →