YOLO系列算法改进 | 主干改进篇 | 替换vHeat物理传热视觉Transformer网络 | 现全局感受野与线性级计算复杂度,增强高分辨率与密集小目标检测 | CVPR 2025
0. 前言本文介绍vHeat物理传热视觉网络,并将其集成到ultralytics最新发布的YOLO26目标检测算法中,替换原有Backbone网络。vHeat将图像特征块类比为热源,通过求解热传导方程模拟视觉语义的空间传播,在保持全局感受野的同时实现O(N^1.5)的计算复杂度。将vHeat作为YOLOv26的新主干网络,能够显著增强模型对高频细节的捕捉能力和复杂背景下的目标判别能力,其独特的频域滤波机制尤其适用于遥感航拍、无人机巡检、安防监控等需要处理高分辨率图像和密集小目标的场景,在保持实时检测速度的同时,大幅提升对边缘纹理和遮挡重叠目标的检测精度。专栏链接:YOLO系列算法改进专栏链接专栏文章:YOLO26改进系列 | 卷积篇、轻量化、注意力、损失函数、Backbone、SPPF、C2PSA、Neck、检测头全方面保姆级优化合集 | 同样适配YOLOv11改进!!!目录0. 前言1.vHeat网络简介2.vHeat网络原理与创新点🧠vHeat网络基本原理🎯vHeat网络创新点3.具体改进步骤🍀🍀步骤1:创建vHeat.py文件🍀🍀步骤2:tasks.py文件修改⚡1.vHeat网络导入⚡2.vHeat网络注册⚡3. 其他修改1(Ctrl+F搜索定位一下)⚡4. 其他修改2(Ctrl+F搜索定位一下)⚡5. 其他修改3(_predict_once函数修改)🍀🍀步骤3:创建YAML配置文件🍀🍀步骤4:新建train.py文件训练模型🍀🍀步骤5:模型结构打印结果1.vHeat网络简介利用注意力机制的视觉表征模型面临着显著的计算开销挑战,尤其是在追求大感受野时。本研究旨在通过引入基于物理热传导原理构建的热传导算子来缓解这一挑战。HCO将图像块概念化为热源,并通过自适应热能量扩散来建模它们的相关性,从而实现鲁棒的视觉表征。HCO具有O(N^1.5)的计算复杂度,因为它可以使用离散余弦变换操作来实现。HCO是即插即用的,与深度学习主干网络结合可产生具有全局感受野的视觉表征模型(称为vHeat)。跨视觉任务的实验证明,除了更强的性能之外,与Swin-Transformer相比,vHeat实现了高达3倍的吞吐量、80%更少的GPU内存分配和35%更少的计算FLOPs。原始论文: