MulticoreWare

实例探究

优化神经网络操作,为人工智能加速器硬件缝合推理管道

October 6, 2022

客户是人工智能工作负载的内存效率计算的领导者。该客户提供超高效、高性能的人工智能芯片,以实现人工智能应用的新领域。通过将内存高效计算的功率效率与数字处理的稳健性相结合,客户为神经网推理开发了一个突破性的新芯片架构。客户正在寻找一个技术合作伙伴,为其推理芯片的神经网络推理层创建一个软件加速。

该项目

客户的推理芯片是市场上的新产品。为了增加对各种流行的神经网络架构的支持并获得最佳的推理性能,必须在他们的SDK中提供对这些模型的支持,并且必须为推理芯片优化神经网络架构的不同层。客户的要求是手工优化每个神经网络推理运算器,利用客户独特的内存效率架构,在ALU上使用SIMD指令,在整个芯片上使用MIMD。

挑战

客户的架构在市场上是独一无二的,同时也是一个相当复杂的架构。客户的开发生态系统,包括编译器、调试器等,正在开发中,他们的SDK也有望在项目执行期间持续更新。

客户希望建立一个由10多名工程师组成的团队,每个人都具有从事微架构感知内核优化的知识和经验,并能在短期内开始为该项目做出贡献。

MulticoreWare 的优势和方法

MCW在很短的时间内组建了一个由10多名工程师组成的团队。该团队拥有多年来从类似项目中获得的大量相关经验,在这些项目中,MCW开发团队致力于为各种DSP、GPU和NPU平台优化计算机视觉和机器学习训练及推理算法。

客户给了一套为物体检测和分割问题创建的神经网络架构,这些架构的层需要为客户的推理芯片进行优化,同时还需要为每一个目标每秒帧数进行优化。因此,MCW必须对这些架构的各个层进行手工优化,将管道连接起来,并确保整个网络在硬件上以目标的每秒帧数运行。

从项目开始到结束的执行流程: –

  • MCW提出了详细的设计方案,说明如何在设备上构建端到端的神经网络模型,包括各层之间的通信、数据放置等,并得到客户的认可。
  • 网络中的操作/层被分配给不同的团队成员,每个人都单独优化网络的不同层,专注于功能和性能。网络中的每一层都经过精心设计和优化,以充分利用设备的计算元素和数据存储器。每个模型层的功能正确性是根据TensorFlow层的输出进行测试的。
  • 在优化了各个层之后,端到端的模型被放在一起,用随机和实时数据进行测试,以验证其在模拟器平台上的功能正确性。
  • 一旦模型通过了模拟器环境中的所有测试,MCW就在实际推理设备上测试了神经网络模型,并对性能进行了测量。
  • MCW团队对网络的不同层次进行了优化,使给定网络的性能始终满足/超过客户设定的目标每秒帧数。

成果

MCW在客户最小的帮助下提出了一个端到端的神经网络模型推理设计,并达到了目标FPS。结果,网络在模拟器平台和设备上成功运行,功能正确,性能理想。此外,客户对该结果和执行模式感到满意,因为MCW可以独立实现这一目标,最大限度地减少其关键工程师的开销。

Share Via

Explore More

May 29 2026

优化 Android 应用在远程 GPU 渲染平台上的性能

客户 该客户是一家专注于GPU虚拟化中间件的技术公司,其产品能够将独立计算单元聚合到共享资源池中,并通过标准网络基础设施进行远程访问。他们的平台旨在帮助企业和汽车开发团队将图形密集型计算工作负载卸载到集中式或分布式GPU基础设施。 问题陈述 随着图形密集型Android应用程序越来越多地利用远程GPU基础设施,在分布式环境中保持接近原生体验的 UI 响应性和渲染性能成为一项重大挑战。通过该平台在基于远程服务器-客户端的架构上运行Android Automotive应用程序引入了性能瓶颈,对渲染效率和最终用户体验产生了负面影响。 客户观察到,与原生Android执行相比,通过该平台执行Android模拟器工作负载时,帧速率降低,渲染延迟增加。远程渲染管线在帧生成、同步和呈现过程中引入了延迟,导致UI响应速度下降,交互体验下降。 该平台面临以下几个关键挑战: 在远程渲染环境下,Android Automotive 模拟器执行时帧率低 由于渲染管线和同步瓶颈,导致每帧延迟增加 在非原生 Vulkan 路径中,由 Mesa 转译引入的额外开销导致渲染效率低下 Vulkan 的阻塞式等待机制影响帧调度和渲染吞吐量 远程执行期间,对 GPU 及渲染管线层级性能瓶颈的可观测性有限 为了应对这些挑战,客户需要一个结构化的优化框架来对性能进行基准测试,识别渲染瓶颈,并提升整个平台的帧传输与交付效率。 解决方案概述 MulticoreWare 开展了一项全面的性能优化计划,旨在提升客户平台上 Android 模拟器的运行性能。该计划首先对 Android 应用的性能与原生 Android 应用的性能进行基准测试,以建立帧率(FPS)和延迟的性能基线。 MulticoreWare 利用先进的性能分析工具,对渲染管线进行了端到端的分析,以识别帧生成、同步与显示过程中的瓶颈。基于这些发现,团队对渲染栈实施了针对性的优化,从而降低帧延迟并提高吞吐量。 该解决方案的主要功能包括: 基于队列的帧呈现机制 实现了将帧接收与渲染解耦的带缓存的解耦帧呈现机制,从而减少等待时间和延迟瓶颈。 工作负载感知超时优化 在 Mesa 中用基于计算公式的超时机制替换了无限 Vulkan 等待,提高了同步效率并减少了渲染停顿。 启用原生 Vulkan 渲染能力 启用了 Android 模拟器 Vulkan 模式所需的缺失 Vulkan 功能,绕过了 Mesa  … Read more

Read more
May 14 2026

面向无线接入网(RAN)可观测性、可解释性和编排的智能体人工智能

客户
一家全球性的电信和网络基础设施公司,致力于为构建、管理和优化大型电信及企业网络提供先进的软件、硬件和服务。

Read more
May 13 2026

先进无人机系统的嵌入式平台优化:激光雷达与电机控制的集成

客户 一家领先的无人机与机器人公司,致力于开发高性 能无人机平台,用于复杂或受限环境中的自主作业、工业检测及测绘。

Read more

GET IN TOUCH