针对实时自主感知优化的BEV模型：BEVDet 与 BEVFormer

2026年05月14

鸟瞰视图（BEV）感知技术将多摄像头和传感器的输入转换为统一的自上而下视图，使自动驾驶系统能够实时检测物体、追踪运动并推断周围环境。然而，由于计算需求高、算子模式复杂，且对图优化和量化非常敏感，像 BEVDet 和 BEVFormer 这样的 BEV 模型在部署上颇具挑战。MulticoreWare 与 Autoware 基金会合作，针对边缘设备、AI 加速器和汽车 SoC 对这些模型进行了优化，从而实现了在各类边缘平台上的高效、可扩展部署。

有关 BEVDet 和 BEVFormer 的详细技术概述，请参阅与 Autoware 基金会联合发布的完整研究报告：

BEVDet 引入了“Lift-Splat-Shoot”方法，将多摄像头图像转换为统一的 BEV 表示，从而实现精确的 3D 检测。经过 MulticoreWare 的优化，该模型实现了实时性能，在 RTX 2080 Ti 上 FP32 模式下达到约 3 FPS，FP16 模式下达到约 5 FPS，为可部署的感知系统建立了强大的基线。

BEVFormer 通过整合空间和时间信息进一步增强了该方法，提升了对移动或被遮挡物体的检测能力，并实现了速度估计。经过 TensorRT 优化的完整 C++ 管道表现出色，实现了 0.478 的 NuScenes 检测分数、0.370 的 mAP 以及FP16 下约 90 毫秒的延迟。

推动鸟瞰视图（BEV）感知技术在实际部署中的应用

经过优化的 BEVDet 和 BEVFormer 能够实现具备时序感知能力的实时多摄像头 3D 感知，从而解决了基于视觉的自动驾驶规模化应用中的关键挑战。

MulticoreWare 能够优化并部署复杂的人工智能模型至边缘计算和汽车平台，帮助团队减少集成工作量、缩短部署周期，并在生产环境中提供稳定且高性能的感知能力。

GET IN TOUCH

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文

中文

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文