MulticoreWare

实例探究

面向下一代多加速器平台的AI框架统一

November 25, 2025

客户

一家领先的消费和企业计算OEM厂商,以其创新驱动的产品路线图而闻名,产品涵盖笔记本电脑、工作站和数据中心服务器。该公司正在迅速将先进的人工智能功能整合到其产品组合中,以提供差异化的用户体验。

问题陈述

作为其进军 生成式人工智能(GenAI) 战略的一部分,客户旨在探索一个统一的框架,以便在异构硬件加速器(包括计划用于其未来产品线的独立 NPU 和 GPU)上部署 GenAI 模型。

挑战在于,如何协调跨不同 SoC 和硬件后端的 AI 工作负载,而每个后端都需要各自的运行时堆栈、驱动程序配置和优化策略。客户需要一种可扩展的、与硬件无关的方法,该方法能够:

  1. 抽象底层加速器的多样性
  2. 支持多个 GenAI 用例(编码助手、基于 SDXL Turbo 的图像生成和图像标注)的早期部署
  3. 在保证开发人员效率和平台稳定性的同时,提供近乎实时的性能

解决方案概述

MulticoreWare 与客户合作,设计了一个先进的统一 GenAI 赋能框架原型,该框架能够协调跨不同加速器的 AI 模型执行。该框架为客户评估其硬件组合的性能潜力奠定了基础,同时保持了一致的开发人员工作流程。原型的关键方面包括:

  1. 环境设置: 在 SoC 特定运行时上为 NPU 和 GPU 配置 AI 软件栈。统一的安装脚本简化了不同客户平台上的早期启动,减少了设置工作量。
  2. 模型集成: 集成了包括 Qwen2.5-Coder、SDXL Turbo、CodeLlama 和 Codestral 在内的前沿 GenAI 模型。启用了实时流和聊天模板功能,以支持对话式和多模态 AI 实验。
  3. API 开发: 提供了与OpenAI兼容的API,并支持基于IPC的运行时切换,允许在评估阶段动态选择加速器(GPU 或 NPU),以便更好地了解性能权衡。
  4. 性能优化: 实施了 KV 缓存处理、多设备并行和混合精度格式(W4A16、FP16)等优化措施,以加速推理并实现基准测试,而不会影响模型质量。

技术栈

解决方案亮点

业务影响

该原型展示了客户将前沿的 GenAI 功能应用于节能平台的能力,突显了性能、可扩展性和能效之间的平衡。通过在笔记本电脑和服务器上实现 AI 部署的无缝实验,客户已进一步巩固了其迈向下一代计算体验的步伐。业务影响(重复,需要删除)

该原型展示了客户将前沿的 GenAI 功能应用于节能平台的能力,突显了性能、可扩展性和能效之间的平衡。通过在笔记本电脑和服务器上实现 AI 部署的无缝实验,客户已进一步巩固了其迈向下一代计算体验的步伐。

结论

通过交付一个统一的、与加速器无关的 GenAI 框架原型,MulticoreWare 帮助客户在异构硬件配置上评估和协调 AI 工作负载。此举加速了先进 GenAI 功能的早期应用,同时为客户产品组合中未来可用于生产环境的 AI 创新奠定了基础。

MulticoreWare 在 AI 框架、性能优化和多加速器支持方面的专业知识使这一先进原型成为可能。如需了解我们如何支持贵组织的 AI 项目,欢迎联系 info@multicorewareinc.com

Share Via

Explore More

May 29 2026

优化 Android 应用在远程 GPU 渲染平台上的性能

客户 该客户是一家专注于GPU虚拟化中间件的技术公司,其产品能够将独立计算单元聚合到共享资源池中,并通过标准网络基础设施进行远程访问。他们的平台旨在帮助企业和汽车开发团队将图形密集型计算工作负载卸载到集中式或分布式GPU基础设施。 问题陈述 随着图形密集型Android应用程序越来越多地利用远程GPU基础设施,在分布式环境中保持接近原生体验的 UI 响应性和渲染性能成为一项重大挑战。通过该平台在基于远程服务器-客户端的架构上运行Android Automotive应用程序引入了性能瓶颈,对渲染效率和最终用户体验产生了负面影响。 客户观察到,与原生Android执行相比,通过该平台执行Android模拟器工作负载时,帧速率降低,渲染延迟增加。远程渲染管线在帧生成、同步和呈现过程中引入了延迟,导致UI响应速度下降,交互体验下降。 该平台面临以下几个关键挑战: 在远程渲染环境下,Android Automotive 模拟器执行时帧率低 由于渲染管线和同步瓶颈,导致每帧延迟增加 在非原生 Vulkan 路径中,由 Mesa 转译引入的额外开销导致渲染效率低下 Vulkan 的阻塞式等待机制影响帧调度和渲染吞吐量 远程执行期间,对 GPU 及渲染管线层级性能瓶颈的可观测性有限 为了应对这些挑战,客户需要一个结构化的优化框架来对性能进行基准测试,识别渲染瓶颈,并提升整个平台的帧传输与交付效率。 解决方案概述 MulticoreWare 开展了一项全面的性能优化计划,旨在提升客户平台上 Android 模拟器的运行性能。该计划首先对 Android 应用的性能与原生 Android 应用的性能进行基准测试,以建立帧率(FPS)和延迟的性能基线。 MulticoreWare 利用先进的性能分析工具,对渲染管线进行了端到端的分析,以识别帧生成、同步与显示过程中的瓶颈。基于这些发现,团队对渲染栈实施了针对性的优化,从而降低帧延迟并提高吞吐量。 该解决方案的主要功能包括: 基于队列的帧呈现机制 实现了将帧接收与渲染解耦的带缓存的解耦帧呈现机制,从而减少等待时间和延迟瓶颈。 工作负载感知超时优化 在 Mesa 中用基于计算公式的超时机制替换了无限 Vulkan 等待,提高了同步效率并减少了渲染停顿。 启用原生 Vulkan 渲染能力 启用了 Android 模拟器 Vulkan 模式所需的缺失 Vulkan 功能,绕过了 Mesa  … Read more

Read more
May 14 2026

面向无线接入网(RAN)可观测性、可解释性和编排的智能体人工智能

客户
一家全球性的电信和网络基础设施公司,致力于为构建、管理和优化大型电信及企业网络提供先进的软件、硬件和服务。

Read more
May 13 2026

先进无人机系统的嵌入式平台优化:激光雷达与电机控制的集成

客户 一家领先的无人机与机器人公司,致力于开发高性 能无人机平台,用于复杂或受限环境中的自主作业、工业检测及测绘。

Read more

GET IN TOUCH