强化学习/对齐（个人理解）

张

张建站

2026/4/29 20:32:40

10分钟阅读

Bradley-Terry 奖励模型含义给定选中和拒绝响应的隐藏状态将其投影为标量奖励并计算偏好损失。def reward_model_loss(chosen_hidden, rejected_hidden, reward_head): r_chosen (chosen_hidden reward_head).squeeze(-1) # (B,) r_rejected (rejected_hidden reward_head).squeeze(-1) # (B,) margin r_chosen - r_rejected # manual log-sigmoid: log(1/(1exp(-x))) -log(1exp(-x)) loss -torch.log(1.0 / (1.0 torch.exp(-margin))).mean() return lossloss -torch.log(1.0 / (1.0 torch.exp(-margin))).mean()成对损失通常使用 log-sigmoid 形式等同于二元交叉熵损失DPO含义无需强化学习即可将语言模型与人类偏好对齐使用配对的选中/拒绝对数概率。。def dpo_loss(policy_chosen_logps, policy_rejected_logps, ref_chosen_logps, ref_rejected_logps, beta0.1): chosen_rewards beta * (policy_chosen_logps - ref_chosen_logps) rejected_rewards beta * (policy_rejected_logps - ref_rejected_logps) diff chosen_rewards - rejected_rewards return -torch.log(torch.sigmoid(diff)).mean()参考模型是为了防止模型偏离初始语言能力避免退化。policy_chosen_logps这些参数是整个对话的对数似然取每个token 的 log probs 求和GRPO含义每个提示组内归一化奖励以计算优势值然后使用这些组相对优势优化策略。def grpo_loss(logps: Tensor, rewards: Tensor, group_ids: Tensor, eps: float 1e-5) - Tensor: Group Relative Policy Optimization (GRPO) loss. logps: (B,) policy log-probs for each sampled response rewards: (B,) scalar rewards for each response group_ids: (B,) integers, same id same prompt/group returns: scalar loss (Tensor) # Compute per-group normalized advantages A_i unique_ids group_ids.unique() advantages torch.empty_like(rewards) for gid in unique_ids: mask group_ids gid r_g rewards[mask] mean_g r_g.mean() std_g r_g.std(unbiasedFalse) advantages[mask] (r_g - mean_g) / (std_g eps) # Stop gradient through advantages advantages_detached advantages.detach() # GRPO objective: -E[A_i * logpi_i] return -(advantages_detached * logps).mean()在反向传播时不通过优势值回传梯度。优势值被视为“常数”或“目标”只用于加权策略梯度。无需 Critic 网络。传统 PPO 需要训练一个价值网络critic来估计优势GRPO 用组内统计量替代简化架构。同一 prompt 的多个回答相互比较消除 prompt 难度差异带来的偏差。PPO含义通过裁剪重要性采样比率来约束策略更新防止强化学习中的破坏性大幅更新。def ppo_loss(new_logps: Tensor, old_logps: Tensor, advantages: Tensor, clip_ratio: float 0.2) - Tensor: PPO clipped surrogate loss. new_logps: (B,) current policy log-probs old_logps: (B,) old policy log-probs (treated as constant) advantages: (B,) advantage estimates (treated as constant) returns: scalar loss (Tensor) # Detach old_logps and advantages so gradients only flow through new_logps old_logps_detached old_logps.detach() adv_detached advantages.detach() # Importance sampling ratio r pi_new / pi_old in log-space ratios torch.exp(new_logps - old_logps_detached) # Unclipped and clipped objectives unclipped ratios * adv_detached clipped torch.clamp(ratios, 1.0 - clip_ratio, 1.0 clip_ratio) * adv_detached # PPO objective: negative mean of the more conservative objective return -torch.min(unclipped, clipped).mean()通过裁剪比率防止单次更新步长过大避免策略崩溃。DAPO含义GRPO 往往因clip 范围设置不合理、采样冗余以及长序列梯度被稀释等问题导致大量训练信号被浪费。提高了裁剪上界当 old policy 对某个 token 的概率很低而该 token 的 advantage 又是正值会因为上界而受限。动态采样可能出现组内优势值为0因此保证每次采样出来的回答reward 不全是 0 或者 1如果采样出来的回答全是 0 或者 1 就继续采样直到不满足为止。Token-Level Gradient Loss GRPO 在训练长回答时 gradient 的权重会随着采样回答的长度变长而下降的问题。如果一个回答长度是100一个是10他们的token的权重会不一样。因此把所有生成的token总数加起来求平均。Overlong Reward Shaping当生成长度超过第一个预设阈值时惩罚会随长度线性增加一旦超过第二个阈值惩罚将抵消因回答正确获得的所有奖励相当于将该回答视为无效GSPO含义直接调整了优化目标的颗粒度从 token-level 跳到 sequence-level主要为了解决MOE训练中GRPO不稳定的问题因为新旧策略可能激活不同的专家导致重要性比例被频繁截断导致训练不稳定。之前的做法使用Routing Replay方法即在训练时强制使用推理时相同的激活路径但这会带来工程复杂性与效率损失。GSPO的做法重要性比例使用的是句子级的比例而不是每个token级的所以一旦 clipping 发生所 clip 掉的将是整个采样到的 sequence而不是一次采样中的某些 token。

$别再手动调间距了！LaTeX表格标题与内容距离的3种优雅调整方法（附代码）$

别再手动调间距了！LaTeX表格标题与内容距离的3种优雅调整方法（附代码）

LaTeX表格排版进阶：标题与内容间距的三种专业调控方案在学术写作和技术文档中，表格作为数据呈现的核心载体，其排版质量直接影响内容的专业性和可读性。许多LaTeX用户都会遇到一个看似微小却影响深远的排版问题——表格标题(caption)与表格主…...

2026/4/29 20:32:35 阅读更多 →

Spring Boot项目从MySQL迁移到人大金仓KingBase V8R6实战：避坑指南与代码适配全记录

Spring Boot项目从MySQL迁移到人大金仓KingBase V8R6实战：避坑指南与代码适配全记录最近几年，国产数据库在性能、稳定性和兼容性方面取得了长足进步，越来越多的企业开始考虑将核心业务系统从传统数据库迁移到国产数据库。作为国产数据库中的…...

2026/4/29 20:31:44 阅读更多 →

熵减工作流

熵增——测试工作的无形之敌热力学中的熵增定律揭示：孤立系统总会趋向无序。这一规律在软件测试领域惊人地具象化——需求频繁变更、环境难以复现、缺陷随机出现、进度持续失控，这些“熵增”现象消耗团队能量，侵蚀产品质量。测试的本质是将不…...

2026/4/29 20:23:26 阅读更多 →

如何理解临键锁Next-Key Lock_行锁与间隙锁的组合原理解析

临键锁锁定的是左开右闭区间，如对索引值20加锁即锁住(10,20]，包含记录20及前一索引间隙；仅作用于被扫描的索引范围，且在REPEATABLE READ下启用。临键锁到底锁了哪块数据？临键锁不是新锁类型，而是 Record Lo…...

2026/4/29 5:02:10 阅读更多 →

CUDA 13.3 RTX 4090实测报告：FP16混合精度算子性能断层分析（含37个主流PyTorch算子汇编级差异对比）

更多请点击： https://intelliparadigm.com 第一章：CUDA 13.3 RTX 4090混合精度算子性能断层分析总览 NVIDIA RTX 4090 搭载的 Ada Lovelace 架构在 CUDA 13.3 中首次全面启用第三代 Tensor Core 的 FP8 原生支持，使得混合精度计算路径&…...

2026/4/29 11:04:37 阅读更多 →

Vue3项目实战：手写Ant Design Vue a-table拖拽排序（绕过付费功能）

Vue3项目实战：基于Ant Design Vue的a-table手写拖拽排序方案去年接手一个从React迁移到Vue3的项目时，遇到了一个有趣的挑战。项目使用了Ant Design Vue作为UI组件库，在实现菜单管理列表的拖拽排序功能时，发现官方提供的a-table拖…...

2026/4/29 14:47:33 阅读更多 →

2026届最火的AI辅助写作平台实测分析

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在人工智能进行交互期间，指令存在冗余情形常常会致使输出出现偏差以及造成效率方…...

2026/4/29 6:09:44 阅读更多 →