核心结论模型收敛不是“训练损失下降”这么简单。一个训练任务是否健康,至少要同时看训练损失、验证损失、任务指标、梯度范数、参数更新比例、学习率、精度模式、AMP loss scale、非有限值数量、分布式状态、数据吞吐和样本质量。更实用的判断方式是:先建立一条小规模、可复现、能过拟合小批次的基线,再用相对变化诊断异常。不要把“梯度标准差在 0.1 到 1.0”“梯度范数大于 10 就爆炸”“收敛速度等于条件数倒数”这类口号当成通用规则。深度网络是非凸、分层、带归一化和自适应优化器的系统,固定阈值很容易误导排障。本文把收敛性分析整理成一套工程闭环:用损失曲线判断问题类型,而不是只看最后一个 loss。用梯度、参数更新比例和非有限值监控训练数值状态。用小批次过拟合、数据体检和学习率范围测试排除低级错误。用 AMP 安全训练步骤把稳定性写进训练循环。把低精度训练、分布式同步、checkpoint 和可复现性纳入同一套排障框架。对 Hessian、sharpness、gradient noise scale 等高级分析保持克制:它们适合离线诊断,不适合替代日常监控。第 0 层:30 秒判断训练是否健康一次训练是否值得继续跑,先看 11 个信号:/