基于深度学习的Transformer图像识别 rtdetr算法的进行端到端的目标检测超越yolo的模型DETR算法

张

张建站

2026/4/16 9:28:13

10分钟阅读

基于深度学习的Transformer图像识别 rtdetr算法的进行端到端的目标检测超越yolo的模型DETR算法

文章目录DETR: 使用Transformer进行端到端的目标检测DETR是什么关于代码模型库笔记本使用 - 目标检测数据准备训练评估使用 - 分割DETR: 使用Transformer进行端到端的目标检测DETRDetection Transformer是一种创新的目标检测方法它通过使用Transformer架构来替换传统复杂的手工设计目标检测流程并在COCO数据集上与Faster R-CNN结合ResNet-50骨干网络相比在仅使用一半的计算能力FLOPs和相同数量参数的情况下达到了42 AP的成绩。DETR不仅简化了目标检测的实现过程还提供了一种高效、快速的方法来进行推理整个推理过程可以在PyTorch中用不到50行代码完成。DETR是什么不同于传统的计算机视觉技术DETR将目标检测视为一个直接的集合预测问题。它包含了一个基于集合的全局损失函数该函数通过二分匹配强制生成独特的预测结果并采用了一个Transformer编码器-解码器架构。给定一组固定的少量学习得到的对象查询DETR通过分析对象之间的关系以及全局图像上下文来直接并行输出最终的预测集合。由于这种并行特性DETR非常快速且高效。关于代码我们认为目标检测不应该比分类更难也不应该需要复杂的库来进行训练和推理。DETR易于实现和实验我们提供了一个独立的Colab笔记本展示了如何仅用几行PyTorch代码进行推理。训练代码遵循这一理念——它不是一个库而是一个简单的main.py文件导入了模型和标准训练循环的定义。此外我们在d2/文件夹中提供了一个Detectron2封装请参阅该文件夹中的README以获取更多信息。详情请见由Nicolas Carion等人撰写的《End-to-End Object Detection with Transformers》论文及我们的博客文章了解更多关于使用Transformer进行端到端目标检测的信息。模型库我们提供了基础的DETR和DETR-DC5模型并计划在未来加入更多模型。AP是在COCO 2017 val5k上计算的推断时间是基于前100张val5k COCO图像使用torchscript transformer。名称骨干网络训练轮次推理时间(s)box AP下载链接大小DETRR505000.03642.0下载159MbDETR-DC5R505000.08343.3下载159MbDETRR1015000.05043.5下载232MbDETR-DC5R1015000.09744.9下载232MbCOCO val5k评估结果可以在这个gist中找到。这些模型也可以通过torch hub获取modeltorch.hub.load(facebookresearch/detr:main,detr_resnet50,pretrainedTrue)对于全景分割的COCO panoptic val5k模型我们也提供了相应的支持。笔记本我们提供了几个在colab上的笔记本帮助您更好地理解DETRDETR动手实践笔记本展示如何从hub加载模型生成预测然后可视化模型的关注度。独立笔记本演示如何用Python实现简化版的DETR并可视化预测结果。这是深入了解架构的好起点。全景分割笔记本展示如何使用DETR进行全景分割并绘制预测结果。使用 - 目标检测DETR没有额外的编译组件依赖包也极少因此代码非常简单易用。我们提供了通过conda安装依赖的说明condainstall-cpytorch pytorch torchvision condainstallcython scipy pipinstall-Ugithttps://github.com/cocodataset/cocoapi.git#subdirectoryPythonAPI这之后就可以开始训练和评估检测模型了。为了进行全景分割工作还需要安装panopticapi。数据准备从http://cocodataset.org下载并解压COCO 2017训练和验证图像及其注释。期望的目录结构如下所示path/to/coco/ annotations/ # 注释json文件 train2017/ # 训练图像 val2017/ # 验证图像训练要在单节点上使用8个GPU为300个epoch训练基础DETR模型运行以下命令python-mtorch.distributed.launch--nproc_per_node8--use_envmain.py--coco_path/path/to/coco一个epoch大约需要28分钟所以300 epoch的训练大约需要6天的时间在一个拥有8个V100显卡的机器上。评估要使用单个GPU在COCO val5k上评估DETR R50模型运行python main.py--batch_size2--no_aux_loss--eval--resumehttps://dl.fbaipublicfiles.com/detr/detr-r50-e632da11.pth--coco_path/path/to/coco对于多节点训练分布式训练可通过Slurm和submitit获得。使用 - 分割我们展示了扩展DETR来预测分割掩膜相对简单的过程主要展示了强大的全景分割结果。数据准备方面除了COCO数据集外还需要下载和提取全景注释。训练时推荐分为两个阶段首先训练DETR来检测所有边界框然后单独训练分割头。对于实例分割可以直接训练一个正常的边界框模型或使用我们提供的预训练模型。一旦有了边界框模型检查点就需要冻结它并单独训练分割头。

反向传播算法实战：用Python手写一个简易神经网络（含完整代码）

反向传播算法实战：用Python手写一个简易神经网络（含完整代码） 神经网络的核心在于通过反向传播算法不断调整权重参数，让模型逐渐学会从输入数据中提取有用特征。本文将抛开复杂的数学推导，直接带您用NumPy实现一个完整…...

2026/4/16 9:25:30 阅读更多 →

深入解析WebRTC协议在FFmpeg中的推流与拉流实现

1. WebRTC与FFmpeg的完美结合第一次接触WebRTC和FFmpeg的组合时，我就像发现新大陆一样兴奋。这两个看似独立的工具，结合起来竟然能实现如此强大的实时流媒体功能。WebRTC作为现代实时通信的基石，提供了点对点传输、低延迟等核心能力&#xf…...

2026/4/16 9:24:34 阅读更多 →

手把手用Python实现Lyapunov指数计算：从理论到代码实战

手把手用Python实现Lyapunov指数计算：从理论到代码实战混沌系统最迷人的特性之一是对初始条件的极端敏感性——也就是著名的"蝴蝶效应"。这种敏感性可以通过Lyapunov指数进行量化，它描述了相空间中相邻轨迹的发散速率。想象一下，如…...

2026/4/16 9:22:41 阅读更多 →

⑩【从0制作自己的ros导航小车：上位机篇】05、导航！

1. 从地图到导航的关键跨越当你完成地图构建的那一刻，就像拿到了一张藏宝图，但要让小车真正动起来寻宝，还需要一套完整的导航系统。ROS中的amcl和move_base就是实现这一目标的核心组件。amcl负责定位，让小车知道"我在哪&quo…...

2026/4/16 1:14:11 阅读更多 →

如何构建高性能的消息队列系统

如何构建高性能的消息队列系统在当今高并发的互联网应用中，消息队列系统扮演着关键角色，它能够解耦服务、削峰填谷，并提升系统的整体吞吐量。随着业务规模的扩大，如何构建一个高性能、高可用的消息队列系统成为开发者面临的挑战…...

2026/4/16 1:14:10 阅读更多 →

Java Iterator

Java Iterator 在Java编程语言中，Iterator接口是Java集合框架的一部分，主要用于遍历集合中的元素。本文将详细介绍Java的Iterator接口，包括其定义、使用方法以及与ListIterator的区别。定义 Iterator是一个用于遍历集合中元素的接口。它提供了迭代器的基本操作，例如：检…...

2026/4/16 1:14:08 阅读更多 →