MulticoreWare

实例探究

优化和提高图像处理算法的性能

November 30, 2022

本案例研究强调了我们在为一个客户创建色度校正算法的优化管道和未来增强功能方面的作用。

客户

客户是一家全球领先的半导体解决方案开发商。客户正在为智能手机摄像头和互联网服务供应商建立世界上最小的图像传感器,并围绕它建立相应的软件管道。

该项目

客户有一个复杂的基于图像处理的管道,作为其RGB传感器和相机ISP(图像信号处理器)模块的一部分。该项目的目标是将该软件管道的色度校正模块优化10倍,以实现更高的性能(在速度上)。

挑战

  • 一个非常幼稚的算法版本作为一个基础开始。
  • 对第三方库(如OpenCV)有很大的依赖性
  • 与数据带宽有关的问题必须在各个模块之间进行优化管理

典型的软件优化工作流程

一个典型的软件优化工作流程可以分为以下几个阶段:

第一阶段:这个阶段需要在目标平台上修改、编译和构建应用程序,最好是禁用所有编译器的优化。其目的是确定软件的正确性。

第二阶段:这一阶段被称为剖析,以找到应用程序花费大部分运行时间的代码区域。

第三阶段: 这个阶段是实际优化发生的地方

  • 启用相关的编译器优化
  • 缓存友好算法
  • 优化使用可用的寄存器和内存传输
  • 硬件特定的优化

所有的阶段及其相互依存关系可以用图示表示如下

Phases of a typical Software Optimization workflow

建议的解决方案

  • 创建控制流图
  • 手工优化模块以取代OpenCV的API调用
  • 设计缓存感知算法以减少缓存垃圾
  • 循环优化
    • 代码运动/循环不变性
    • 迭代重新排序
    • 循环解卷

MulticoreWare 的优势和方法

MulticoreWare 的基因库包括在性能优化方面根深蒂固的专业知识,特别是针对图像和视频处理管道。我们在为多核和异构计算环境创建软件解决方案和工具开发方面拥有深厚的经验。该项目将优化和视频/图像处理完美地结合在一起,这是MulticoreWare被认为是市场领导者的另一个领域。

重新定义技术架构–凭借我们在开发作为开源 SDK(x265/rpp/rocAL)的裸机图像/视频API方面的经验,MulticoreWare团队很容易就能移除OpenCV等依赖性第三方库。一旦去除外部依赖性,下一步就是设计新的控制流程。

结果

在预计的项目时间内,MulticoreWare团队能够将该算法的性能提高约8倍。

Share Via

Explore More

May 29 2026

优化 Android 应用在远程 GPU 渲染平台上的性能

客户 该客户是一家专注于GPU虚拟化中间件的技术公司,其产品能够将独立计算单元聚合到共享资源池中,并通过标准网络基础设施进行远程访问。他们的平台旨在帮助企业和汽车开发团队将图形密集型计算工作负载卸载到集中式或分布式GPU基础设施。 问题陈述 随着图形密集型Android应用程序越来越多地利用远程GPU基础设施,在分布式环境中保持接近原生体验的 UI 响应性和渲染性能成为一项重大挑战。通过该平台在基于远程服务器-客户端的架构上运行Android Automotive应用程序引入了性能瓶颈,对渲染效率和最终用户体验产生了负面影响。 客户观察到,与原生Android执行相比,通过该平台执行Android模拟器工作负载时,帧速率降低,渲染延迟增加。远程渲染管线在帧生成、同步和呈现过程中引入了延迟,导致UI响应速度下降,交互体验下降。 该平台面临以下几个关键挑战: 在远程渲染环境下,Android Automotive 模拟器执行时帧率低 由于渲染管线和同步瓶颈,导致每帧延迟增加 在非原生 Vulkan 路径中,由 Mesa 转译引入的额外开销导致渲染效率低下 Vulkan 的阻塞式等待机制影响帧调度和渲染吞吐量 远程执行期间,对 GPU 及渲染管线层级性能瓶颈的可观测性有限 为了应对这些挑战,客户需要一个结构化的优化框架来对性能进行基准测试,识别渲染瓶颈,并提升整个平台的帧传输与交付效率。 解决方案概述 MulticoreWare 开展了一项全面的性能优化计划,旨在提升客户平台上 Android 模拟器的运行性能。该计划首先对 Android 应用的性能与原生 Android 应用的性能进行基准测试,以建立帧率(FPS)和延迟的性能基线。 MulticoreWare 利用先进的性能分析工具,对渲染管线进行了端到端的分析,以识别帧生成、同步与显示过程中的瓶颈。基于这些发现,团队对渲染栈实施了针对性的优化,从而降低帧延迟并提高吞吐量。 该解决方案的主要功能包括: 基于队列的帧呈现机制 实现了将帧接收与渲染解耦的带缓存的解耦帧呈现机制,从而减少等待时间和延迟瓶颈。 工作负载感知超时优化 在 Mesa 中用基于计算公式的超时机制替换了无限 Vulkan 等待,提高了同步效率并减少了渲染停顿。 启用原生 Vulkan 渲染能力 启用了 Android 模拟器 Vulkan 模式所需的缺失 Vulkan 功能,绕过了 Mesa  … Read more

Read more
May 14 2026

面向无线接入网(RAN)可观测性、可解释性和编排的智能体人工智能

客户
一家全球性的电信和网络基础设施公司,致力于为构建、管理和优化大型电信及企业网络提供先进的软件、硬件和服务。

Read more
May 13 2026

先进无人机系统的嵌入式平台优化:激光雷达与电机控制的集成

客户 一家领先的无人机与机器人公司,致力于开发高性 能无人机平台,用于复杂或受限环境中的自主作业、工业检测及测绘。

Read more

GET IN TOUCH