2026年05月14
鸟瞰视图(BEV)感知技术将多摄像头和传感器的输入转换为统一的自上而下视图,使自动驾驶系统能够实时检测物体、追踪运动并推断周围环境。然而,由于计算需求高、算子模式复杂,且对图优化和量化非常敏感,像 BEVDet 和 BEVFormer 这样的 BEV 模型在部署上颇具挑战。MulticoreWare 与 Autoware 基金会合作,针对边缘设备、AI 加速器和汽车 SoC 对这些模型进行了优化,从而实现了在各类边缘平台上的高效、可扩展部署。
BEVDet 引入了“Lift-Splat-Shoot”方法,将多摄像头图像转换为统一的 BEV 表示,从而实现精确的 3D 检测。经过 MulticoreWare 的优化,该模型实现了实时性能,在 RTX 2080 Ti 上 FP32 模式下达到约 3 FPS,FP16 模式下达到约 5 FPS,为可部署的感知系统建立了强大的基线。
BEVFormer 通过整合空间和时间信息进一步增强了该方法,提升了对移动或被遮挡物体的检测能力,并实现了速度估计。经过 TensorRT 优化的完整 C++ 管道表现出色,实现了 0.478 的 NuScenes 检测分数、0.370 的 mAP 以及FP16 下约 90 毫秒的延迟。
推动鸟瞰视图(BEV)感知技术在实际部署中的应用
经过优化的 BEVDet 和 BEVFormer 能够实现具备时序感知能力的实时多摄像头 3D 感知,从而解决了基于视觉的自动驾驶规模化应用中的关键挑战。
MulticoreWare 能够优化并部署复杂的人工智能模型至边缘计算和汽车平台,帮助团队减少集成工作量、缩短部署周期,并在生产环境中提供稳定且高性能的感知能力。
