作者简介
Selventhiran Rengaraj 是MulticoreWare移动和运输业务部门的副技术项目经理。他在为地面和水下机器人开发机器人软件方面拥有实践经验,并在领先的汽车半导体平台上从事尖端的人工智能和ADAS感知堆栈优化工作。
介绍
在我们之前的博客 (BEV-A自主机器人范式转变入门), 中,我们深入研究了鸟瞰图(BEV)的迷人世界及其在自主中的非凡应用。现在,我们将更深入地研究BEV变换的迷人领域,并探索用于生成这种神奇观点的各种方法。
透视图到鸟瞰图的转换
将透视图(PV)转换为鸟瞰图(BEV)的能力简直是一个技术奇迹。研究人员和实业家采用以下关键方法进行透视图(PV)到鸟瞰图的转换:
.1.同源法
近几十年来,计算机视觉中基于单应性的方法,特别是逆透视映射(IPM),利用与透视图(PV)的几何投影关系,促进了鸟瞰图(BEV)的解释。IPM有效地连接PV和BEV,能够投影感知任务的关键图像和特征。它的简单性依赖于矩阵乘法,而不是复杂的机器学习,使其成为计算机视觉中的可靠解决方案。
但是,也存在某些限制,例如:
- 基于IPM的方法假设所有点都在平坦的地平面上,简化了PV-BEV变换,但由于缺乏深度信息,限制了它们在3D场景中的使用。
- 单应图形方法取决于相机的内在和外在参数。对相机校准的任何修改都将显著影响PV-BEV转换。
- IPM只有在路面平坦且无障碍的情况下,摄像头相对于道路保持静止时才能正常工作。
2.基于深度/点云的方法
为了解决同源法的局限性,需要深度信息来将2D像素和特征提升到3D空间中。引入了基于深度的PV到BEV方法,并建立在明确的3D表示上,该表示可以根据所使用的表示分为基于点或基于体素的方法。
- 基于点的方法直接利用深度估计将像素转换为分散在连续3D空间中的点云。这些方法更简单,可以很容易地集成单目深度估计和基于激光雷达的3D检测的成熟技术。
- 基于体素的方法使用均匀的深度矢量或明确预测的深度分布来将2D特征提升到3D体素空间并执行基于BEV的感知。该方法由于其计算效率和灵活性,最近受到了极大的关注。
3.基于NN变换的方法
基于NN的方法,主要利用Transformer架构,由于其将透视视图转换为鸟瞰视图的能力而不断提高。它们越来越受欢迎是由于基于Transformer的视图投影仪令人印象深刻的性能和强大的关系建模。这些方法使用基于变换器的编码器-解码器结构来将来自多个相机的图像特征转换为鸟瞰图,利用单个图像内的上下文信息和来自不同视图的图像间关系。
BEV的一个典型的基于神经网络的模型:
- 首先,它使用骨干网络对输入数据进行编码,并使用转换器执行BEV投影。
- 然后,BEV特征将在时间和空间上进行融合。
- 最后,BEV特征将根据应用使用不同的头部进行解码,如分割和对象检测。
在自然语言处理(NLP)中创建大型变换器模型的流行趋势中,自动驾驶的研究人员正在探索变换器在使用BEV感知为跟踪和预测等任务生成鲁棒表示方面的有效性。
总体而言,基于Transformers和Depth的方法在计算机视觉社区中越来越突出。
4.语义占用网格——BEV
在我们之前关于纯电动汽车的博客中,我们强调了占用网格和BEV之间的相似性。这两种技术都涉及将环境划分为网格内的单元,每个单元对应于环境内的占用或特定位置。
在语义占用网格的上下文中,网格中的每个单元都被分配了特定的类,例如道路、地形、人行道和交通信号,尤其是在感知应用中。与二进制占用表示不同,语义占用网格包含了语义信息,可以通过使用高级深度神经网络进行训练来进一步细化。这样可以进行对象检测并生成鸟瞰图。
尽管已有几十年的历史,但占用率网格仍然是一个高度相关和有力的代表。它们与BEV等现代方法无缝集成,在增强自动驾驶汽车的导航方面具有巨大潜力。
BEV 感知的局限性
尽管基于BEV的感知在自主和机器人领域有许多应用,但几乎没有局限性,例如:
- 遮挡: 俯视图可能被高大的物体或悬垂物遮挡,这可能会遮挡地面上发生的重要细节和事件。
- 垂直感知: BEV感知通常缺乏关键的垂直信息,如建筑和车辆高度,限制了其对3D环境的理解。
- 有限的环境条件: 在大雨、雾或雪等不利天气条件下,基于摄像头的BEV感知可能不太可靠,导致能见度和感知准确性降低。
McW在BEV和SOAT视觉技术方面的专业知识
- 我们为各种汽车级AI加速器优化了基于SOAT(最先进)BEV的视觉转换器,即BEV Former、BEV SegFormer、Lift Splat Shoot(LSS)。
- McW在量化相机和基于激光雷达融合的神经网络模型方面拥有专业知识,如从FP32到INT8的DeepFusion、BEV Det、DeepInteraction,而不影响精度
- 我们的专业知识扩展到为微型移动、两轮和四轮车辆量身定制的BEV投影构建算法。
- 我们对80多种人工智能模型有着深入的理解和熟练掌握,我们专门为低功耗边缘设备、DSP、NSP等进行优化。
结论
在MulticoreWare,我们有能力通过开发为您的独特用例设计的自定义基于Transformer的传感器融合模型来增强和加速您的感知解决方案。
欲了解更多信息,请联系我们info@multicorewareinc.com
