【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skillsskill_name: model-train-accuracy-debug eval_mode: textCase 1: 精度异常整体定界流程ConfigMax Tokens: 150000Timeout: 900Prompt换了个 NPU 自定义算子后训练 loss 和基线对不上但有可对照的基线环境整体按什么流程定位只讲方法不用写代码。Expected Output回复应给出 先开确定性计算复现 → 代码审查高风险改动 → 确认异常特征 → msprobe dump/compare 定界 的流程并强调先固定随机性排除非确定性因素Expectations[skill_activated] model-train-accuracy-debugCase 2: 确定性优先ConfigMax Tokens: 150000Timeout: 900Prompt我切了分支后 loss 偏了想直接用 msprobe dump 对比应该先做什么只讲思路。Expected Output回复应指出在任何 dump/compare 前必须先开启确定性计算固定 seed deterministic并在基线与异常环境复现一次若开启后问题消失则判为随机性问题不再深挖Expectations[contains] msprobe[skill_activated] model-train-accuracy-debugCase 3: NaN 定位方向ConfigMax Tokens: 150000Timeout: 900Prompt训练中途出现 NaN应该往哪个方向查只讲方向不用写代码。Expected Output回复应先判定 NaN 是否出现在前向 logits前向已 NaN 走 msprobe overflow_check前向正常而反向出 NaN 再用 detect_anomaly 定位首个异常算子Expectations[contains] detect_anomaly[skill_activated] model-train-accuracy-debugCase 4: 信息不足时主动确认ConfigMax Tokens: 150000Timeout: 900Prompt我的模型训练精度不对帮我调。Expected Output回复应先确认基线环境、异常环境、变更列表、确定性设置等必要信息再动手而不是缺基线对照就直接给修复Expectations[skill_activated] model-train-accuracy-debugCase 5: 正向看护-多 skill 环境下正确触发ConfigMax Tokens: 150000Timeout: 900Distractor skills: model-train-oom-analysis;model-infer-precision-debug;model-train-log-visualizationPrompt切换并行策略后训练 loss 曲线偏离基线有基线可对照往哪个方向排查只说方向不用写代码。Expected Output回复应正确激活 model-train-accuracy-debug给出有标杆的训练精度定界方向即使存在 OOM 分析、推理精度调试等相似 skill 也应选训练精度诊断专项Expectations[skill_activated] model-train-accuracy-debugCase 6: 使用边界ConfigMax Tokens: 150000Timeout: 900Prompt我没有任何基线就是觉得训练效果差帮我用精度调试 skill 定位。Expected Output回复应说明本 skill 依赖可对照的基线标杆数据/环境无基线的精度问题不在适用范围建议先建立基线或改用其他手段Expectations[skill_activated] model-train-accuracy-debug【免费下载链接】cannbot-skillsCANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考