空中透视的力量——聚焦鸟瞰法

2023年11月8

作者简介

Selventhiran Rengaraj 是MulticoreWare移动和运输业务部门的副技术项目经理。他在为地面和水下机器人开发机器人软件方面拥有实践经验，并在领先的汽车半导体平台上从事尖端的人工智能和ADAS感知堆栈优化工作。

介绍

在我们之前的博客 (BEV-A自主机器人范式转变入门), 中，我们深入研究了鸟瞰图（BEV）的迷人世界及其在自主中的非凡应用。现在，我们将更深入地研究BEV变换的迷人领域，并探索用于生成这种神奇观点的各种方法。

透视图到鸟瞰图的转换

将透视图（PV）转换为鸟瞰图（BEV）的能力简直是一个技术奇迹。研究人员和实业家采用以下关键方法进行透视图（PV）到鸟瞰图的转换：

1.同源法

近几十年来，计算机视觉中基于单应性的方法，特别是逆透视映射（IPM），利用与透视图（PV）的几何投影关系，促进了鸟瞰图（BEV）的解释。IPM有效地连接PV和BEV，能够投影感知任务的关键图像和特征。它的简单性依赖于矩阵乘法，而不是复杂的机器学习，使其成为计算机视觉中的可靠解决方案。

但是，也存在某些限制，例如：

基于IPM的方法假设所有点都在平坦的地平面上，简化了PV-BEV变换，但由于缺乏深度信息，限制了它们在3D场景中的使用。
单应图形方法取决于相机的内在和外在参数。对相机校准的任何修改都将显著影响PV-BEV转换。
IPM只有在路面平坦且无障碍的情况下，摄像头相对于道路保持静止时才能正常工作。

2.基于深度/点云的方法

为了解决同源法的局限性，需要深度信息来将2D像素和特征提升到3D空间中。引入了基于深度的PV到BEV方法，并建立在明确的3D表示上，该表示可以根据所使用的表示分为基于点或基于体素的方法。

Ref: https://www.mdpi.com/1424-8220/21/12/3964

基于点的方法直接利用深度估计将像素转换为分散在连续3D空间中的点云。这些方法更简单，可以很容易地集成单目深度估计和基于激光雷达的3D检测的成熟技术。
基于体素的方法使用均匀的深度矢量或明确预测的深度分布来将2D特征提升到3D体素空间并执行基于BEV的感知。该方法由于其计算效率和灵活性，最近受到了极大的关注。

3.基于NN变换的方法

基于NN的方法，主要利用Transformer架构，由于其将透视视图转换为鸟瞰视图的能力而不断提高。它们越来越受欢迎是由于基于Transformer的视图投影仪令人印象深刻的性能和强大的关系建模。这些方法使用基于变换器的编码器-解码器结构来将来自多个相机的图像特征转换为鸟瞰图，利用单个图像内的上下文信息和来自不同视图的图像间关系。

BEV的一个典型的基于神经网络的模型：

首先，它使用骨干网络对输入数据进行编码，并使用转换器执行BEV投影。
然后，BEV特征将在时间和空间上进行融合。
最后，BEV特征将根据应用使用不同的头部进行解码，如分割和对象检测。

在自然语言处理（NLP）中创建大型变换器模型的流行趋势中，自动驾驶的研究人员正在探索变换器在使用BEV感知为跟踪和预测等任务生成鲁棒表示方面的有效性。

总体而言，基于Transformers和Depth的方法在计算机视觉社区中越来越突出。

4.语义占用网格——BEV

在我们之前关于纯电动汽车的博客中，我们强调了占用网格和BEV之间的相似性。这两种技术都涉及将环境划分为网格内的单元，每个单元对应于环境内的占用或特定位置。

在语义占用网格的上下文中，网格中的每个单元都被分配了特定的类，例如道路、地形、人行道和交通信号，尤其是在感知应用中。与二进制占用表示不同，语义占用网格包含了语义信息，可以通过使用高级深度神经网络进行训练来进一步细化。这样可以进行对象检测并生成鸟瞰图。

尽管已有几十年的历史，但占用率网格仍然是一个高度相关和有力的代表。它们与BEV等现代方法无缝集成，在增强自动驾驶汽车的导航方面具有巨大潜力。

BEV 感知的局限性

尽管基于BEV的感知在自主和机器人领域有许多应用，但几乎没有局限性，例如：

遮挡： 俯视图可能被高大的物体或悬垂物遮挡，这可能会遮挡地面上发生的重要细节和事件。
垂直感知： BEV感知通常缺乏关键的垂直信息，如建筑和车辆高度，限制了其对3D环境的理解。
有限的环境条件： 在大雨、雾或雪等不利天气条件下，基于摄像头的BEV感知可能不太可靠，导致能见度和感知准确性降低。

McW在BEV和SOAT视觉技术方面的专业知识

我们为各种汽车级AI加速器优化了基于SOAT（最先进）BEV的视觉转换器，即BEV Former、BEV SegFormer、Lift Splat Shoot（LSS）。
McW在量化相机和基于激光雷达融合的神经网络模型方面拥有专业知识，如从FP32到INT8的DeepFusion、BEV Det、DeepInteraction，而不影响精度
我们的专业知识扩展到为微型移动、两轮和四轮车辆量身定制的BEV投影构建算法。
我们对80多种人工智能模型有着深入的理解和熟练掌握，我们专门为低功耗边缘设备、DSP、NSP等进行优化。

结论

在MulticoreWare，我们有能力通过开发为您的独特用例设计的自定义基于Transformer的传感器融合模型来增强和加速您的感知解决方案。

欲了解更多信息，请联系我们info@multicorewareinc.com

GET IN TOUCH

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文

中文

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

关于我们

领导团队

新闻和活动

合作伙伴

我们的企业社会责任

计算

媒体与娱乐

移动和交通

智慧城市

智能医疗

工业自动化

博客

实例探究

中文