MulticoreWare

AI 和机器人

在机器人技术中部署基于视觉-语言-动作(VLA) 的 AI 模型:实时边缘推理的优化

2025年07月1

 

作者 Selventhiran Rengaraj 是 MulticoreWare 移动出行与运输业务部门的助理技术项目经理。他拥有开发地面及水下机器人的机器人技术栈的实践经验,并致力于在领先的汽车半导体平台上进行尖端 AI 和 ADAS 感知堆栈优化。

引言:机器人技术中的 VLA 模型——向多模态的转变

机器人行业正处于一场重大的范式转变之中,其驱动力是基础模型的出现:大规模、多模态 AI 系统,经过训练,能够在统一的框架内理解视觉、语言和动作。谷歌的 RT-2 模型能够将网络规模的视觉语言知识转化为机器人动作,而 PaLM-E 则是一种能够跨多种传感器输入和任务进行推理的具身语言模型,它们正在为(模型的)泛化能力和任务多样性树立新标杆。

然而,这些模型也存在一个显著的缺点:它们的大小和计算需求使得它们不适合在资源受限的边缘平台和成本受限的机器人上实时部署。这为 CogACT 这样的模型带来了机遇,它们在多模态推理和模型架构效率之间取得了平衡。在本篇博文中,我们将深入探讨 CogACT 架构以及此类 VLA 式机器人模型的边缘优化。

CogAct:通用机器人智能堆栈

CogAct 是新一代大规模多模态模型,旨在赋能通用机器人自主能力。它基于三个核心模块构建:视觉、语言和动作,这些模块协同工作,在现实环境中感知、推理和行动。CogAct 总共拥有约 76 亿个参数,将基础模型的规模化和泛化能力引入机器人技术,同时不折损其任务执行层面的性能。

它是如何运作的

视觉模块

该模块基于 DINOv2 和 SigLIP 等高容量转换器构建,将原始图像处理成感知标记。该模块基于大规模数据集进行训练,能够高保真地捕捉空间布局和对象级语义。

语言模块

该模块基于大型语言模型 (LLM) LLaMA-2,将视觉上下文与语言指令相结合,以理解目标、通过意图进行推理,并在环境中执行动作。它还能适应各种自然语言提示,实现灵活的任务执行,从简单的对象操作到更复杂的顺序任务。

动作模块

为了生成流畅的多步骤动作,CogAct 使用扩散转换器 (Diffusion Transformer)。它将认知特征转化为时间一致的运动命令,从而能够执行抓取、放置或导航等复杂的实际任务。

真实案例

  • 给 CogAct 一张杂乱桌面的图像,并输入指令:“将百事可乐罐子移到橙子附近”。
  • 它会识别物体,推理指令,规划一条无碰撞路径,并输出一系列动作,让机械臂将罐子物理移动到橙子附近。
An overview of CogAct Model

CogAct 已应用于机器人领域,例如移动操控、室内导航、仓库自动化以及需要高级理解和细粒度动作控制的多智能体协作任务。其架构使机器人能够根据情境、意图和时间一致性进行操作。

然而,这种智能水平会带来巨大的计算开销,使边缘部署成为一项真正的挑战。这正是 MulticoreWare 的用武之地:将像 CogAct 这样强大但笨重的模型转换为边缘就绪系统,同时不损害其核心功能。

我们的方法:

CogAct 拥有 7.6 亿个参数和多流架构,这带来了独特的挑战。我们结合使用量化、剪枝和模型图调整等多种优化技术,显著缩短了其推理时间。最终,我们实现了 1.3 倍的性能提升,相当于延迟降低了约 26%,同时保持了模型的原始精度和行为表现

Results of the Original CogAct Model
Results of the MulticoreWare Optimized
CogAct Model (1.3x faster)
我们成功地将优化后的模型部署到真实的边缘平台上,证明了即使是像 CogAct 这样的基础规模的机器人模型,也能高效且实用地在设备上执行。

VLA 模型的应用:优化为何重要

像 CogAct 这样的 VLA 模型,通过使机器能够理解并执行复杂的高级指令,正在开启机器人智能的新时代。它们的潜在应用涵盖了现实世界的众多领域:

仓库自动化

机器人可以理解诸如“将所有红色箱子堆放在装卸区附近”之类的灵活命令,并动态地识别物体类型、空间关系和任务序列。

医疗机器人

在医院或养老院,搭载 VLA 模型的机器人可以安全地遵循语音指令,在拥挤的空间中导航,并协助完成简单的取物和搬运任务。

家政服务

无论是整理房间,还是执行诸如“将碗碟放入水槽并擦拭台面”之类的多步骤指令,基于 VLA 的机器人都能让人类更轻松地以自然的方式与机器人交互。

多智能体协作

在多个机器人需要协同工作的环境中,例如协调无人机编队或仓库机器人,对语言和视觉的共享理解有助于提升协调性、效率和安全性。

虽然这些模型有望实现通用自主性,但将其部署到现场,尤其是在低功耗、移动或实时系统上,需要克服严峻的计算挑战。因此,优化不仅有益,而且至关重要。边缘优化可确保:

  • 快速实时地响应动态环境。
  • 移动或电池供电机器人的能源效率。
  • 遵守嵌入式平台严格的内存和计算限制。
  • 为安全关键型任务提供可靠的性能。

通过优化 CogAct 等 VLA 模型,我们弥合了基础智能与可部署自主性之间的差距,将复杂的推理能力引入到从仓库到轮子再到水下探索等实际的机器人应用中。

我们在 AI 边缘解决方案方面的专业知识

  • 精通 150 多种 SOTA AI 模型:针对各种模式的 CPU、GPU、DSP、NPU 和低功耗边缘 AI SoC 进行定制优化。
  • 适用于各种移动系统的边缘优先 BEV(鸟瞰图)算法:: 为微型移动出行、两轮、四轮以及基于 AMR/AGV 的移动机器人平台量身定制的 BEV 流程。
  • 端到端机器人感知堆栈开发: 拥有构建模块化感知系统的经验,包括针对机器人用例定制的目标检测、深度估计、语义分割和传感器融合。
  • 精通 BEV 和视觉转换器:针对汽车 AI 加速器优化的模型,例如 BEVFormer、BEV-SegFormer 和 Lift-Splat-Shoot (LSS) 等。
  • 融合模型的高级量化: 对 DeepFusion、BEV-Det 和 DeepInteraction 等摄像头+激光雷达模型进行 INT8 量化,且不牺牲精度。
  •  SLAM、地图构建和导航算法 : 公司在视觉惯性 SLAM、3D 地图构建和实时导航方面拥有丰富的内部专业知识,适用于 GPS 受限和动态环境中的自主机器人系统。

结论:从智能到设备自主

我们的方法针对硬件效率进行了优化,优先考虑低延迟,并强调高精度,旨在实现自动驾驶汽车、仓库机器人、最后一英里配送、智能基础设施等行业的实际部署。在 MulticoreWare,我们利用专业知识来增强和加速 AI 解决方案,并针对您独特用例的具体需求进行量身定制。 如需了解更多关于我们如何构建高效 AI 解决方案的信息, 请发送电子邮件至  info@multicorewareinc.com

Mobility & Transportation Industry | Automotive Compute

Share Via

Explore More

Sep 16 2024

利用人工智能和机器学习彻底改变搜救行动

搜救(SAR)任务是实现定位和协助遇险人员的关 键行动。搜救行动传统上依赖于人力资源和传统方 法,导致延误和效果有限,特别是在困难的地形 中。

Read more
Apr 24 2024

可解释性人工智能(Explainable AI):构建值得信赖的AI系统的基石

仅仅几十年前,机器能够思考的想法还属于科幻领域。但是,如今的机器已经不再仅仅是工具,它们在我们的思考、创造和决策中发挥着作用。

Read more
Dec 8 2023 Future of Gen-AI powered Drone

第二代人工智能无人机的未来发展

介绍 无人机已经成为一股变革力量,革命性地改变了行业,塑造了运输、交付和监控的未来。

Read more

GET IN TOUCH