一、深夜调参时的一个诡异现象昨晚在实验室跑RT-DETR-R50的蒸馏训练,验证集mAP卡在43.7%死活上不去。明明论文里基线是44.5%,我的数据增强策略还更激进些。盯着TensorBoard的loss曲线看了半小时,突然发现query的匹配权重在epoch 30后开始震荡——这个细节在原始论文的消融实验里根本没提。于是翻出DETR系列最近三个月的arxiv预印本,在Google Scholar上顺着引用链往下挖,终于在一篇韩国团队的技术报告里找到线索:他们发现RT-DETR的跨尺度特征融合模块在训练后期会出现梯度竞争,导致query优化陷入局部最优。解决方法简单到让人想笑:把FFN层的初始化标准差从0.02改成0.01。# 原始实现(有隐患)self.ffn=nn.Linear(d_model,d_ff)nn.init