概述
实时检测转换器 (RT-DETR) 由百度开发,是一种尖端的端到端物体检测器,可在保持高精度的同时提供实时性能。它利用视觉转换器(ViT)的强大功能,通过解耦尺度内交互和跨尺度融合,高效处理多尺度特征。RT-DETR 具有很强的适应性,支持使用不同的解码器层灵活调整推理速度,无需重新训练。该模型在加速后端(如使用TensorRT 的 CUDA)上表现出色,优于许多其他实时物体检测器。
RT-DETR 模型架构图显示了作为编码器输入的主干{S3、S4、S5}的最后三个阶段。高效混合编码器通过级内特征交互(AIFI)和跨尺度特征融合模块(CCFM)将多尺度特征转换为图像特征序列。采用 IoU 感知查询选择,选择固定数量的图像特征作为解码器的初始对象查询。最后,带有辅助预测头的解码器会对对象查询进行迭代优化,以生成方框和置信度分数 (消息来源).
主要功能
- 高效混合编码器:百度的RT-DETR 采用高效混合编码器,通过解耦尺度内交互和跨尺度融合来处理多尺度特征。这种基于视觉转换器的独特设计降低了计算成本,并可实现实时物体检测。
- IoU 感知查询选择:百度的RT-DETR 利用 IoU 感知查询选择功能改进了对象查询初始化。这使得模型能够关注场景中最相关的物体,从而提高检测精度。
- 可调整的推理速度:百度RT-DETR 支持通过使用不同的解码器层灵活调整推理速度,无需重新训练。这种适应性有助于在各种实时物体检测场景中的实际应用。
预训练模型
Ultralytics Python API 提供不同规模的预训练PaddlePaddle RT-DETR 模型:
- RT-DETR-L:COCO val2017 的 AP 为 53.0%,T4 GPU 为 114 FPS
- RT-DETR-X:COCO val2017 的 AP 为 54.8%,T4 GPU 为 74 FPS
使用示例
本示例提供了简单的 RT-DETRR 训练和推理示例。有关这些模式和其他模式的完整文档,请参阅预测、训练、验证和导出文档页面。
支持的任务和模式
本表介绍了模型类型、特定的预训练权重、每个模型支持的任务以及支持的各种模式(训练、验证、预测、导出),并用✅表情符号表示。