人工智能正向微控制器(MCU)领域进军,以下是推动这一趋势的因素
作者: Selventhiran Rengaraj 是 MulticoreWare 的技术与项目架构师,负责领导智慧城市、智慧医疗和工业 4.0 领域的解决方案交付工作。他在机器人技术方面拥有丰富的实践经验,并专精于在嵌入式半导体平台上优化人工智能和感知系统。 引言:超越十亿参数竞赛 当今关于人工智能的讨论往往聚焦于规模。头条新闻关注的是更大的模型、更多的参数,以及日益强大的计算和GPU集群。从万亿词元的训练运行到数十亿美元的基础设施投资,这些进展正在推动人工智能在云端和计算密集型生态系统中所能实现的极限。 与此同时,另一场变革正在悄然发生,它将这些能力从数据中心延伸到了物理世界。 工程师们不再仅依赖集中式智能,而是将人工智能嵌入功耗不足1瓦的设备中。这就是边缘智能的世界,其目标并非通用推理或开放式对话,而是在数据源头实现快速、高效且自主的决策。 硬件:专用芯片与微型NPU的崛起 长期以来,微控制器并非为人工智能工作负载而设计。它们专为控制逻辑、信号处理和确定性任务而打造,虽然可靠且高效,但并不适合神经网络所需的并行计算。如今,这种情况正开始发生改变。 业界正稳步向领域专用架构转型。这类处理器专为AI运算设计,而非通用计算。这场变革的核心是微型NPU:一种直接集成于微控制器中的紧凑型神经处理单元。 Arm Ethos-U85等现代案例展示了NPU如何与嵌入式CPU紧密耦合,从而实现高效的设备端推理。这些NPU针对矩阵乘法和卷积等运算进行了优化,其每瓦性能表现优于在通用CPU上运行相同工作负载。 处理器内核本身也在不断演进。以低功耗和确定性运行著称的 Arm Cortex-M 系列,如今已包含支持 SIMD 风格计算的向量处理扩展。这使得音频分析和轻量级视觉流水线等工作负载在 MCU 上变得更加切实可行。 内存架构同样至关重要。高效的 DMA、优化的缓存使用以及细致的 SRAM 管理,有助于确保模型数据流畅传输,同时避免处理器停滞或增加功耗。在功耗低于1瓦的系统中,每次内存访问都至关重要。 软件:连接模型与芯片 仅靠硬件无法实现这一目标。真正的挑战在于,如何将那些在资源丰富的环境中训练出的模型,转化为能在资源受限的微控制器上高效运行的版本。这一转换层正是工程工作的重中之重。 大多数人工智能开发都始于 PyTorch 或 TensorFlow 等框架。这些模型通常采用浮点精度构建,并针对充足的计算资源进行设计,而微控制器(MCU)却无法提供这两者。弥合这一差距需要一套专门的编译器、运行时和内核库。 像 Arm Vela 这样的编译器工具链将神经网络映射到硬件上,决定哪些层在 NPU 或 CPU 上运行,同时处理调度和内存管理。这直接影响性能和能效。 对于未配备 NPU 的设备,CMSIS-NN 等优化库通过 SIMD 和底层优化技术,帮助从 Cortex-M CPU 中实现最大性能。ExecuTorch 和 TensorFlow … Read more
阅读更多针对实时自主感知优化的BEV模型:BEVDet 与 BEVFormer
鸟瞰视图(BEV)感知技术将多摄像头和传感器的输入转换为统一的自上而下视图,使自动驾驶系统能够实时检测物体、追踪运动并推断周围环境。然而,由于计算需求高、算子模式复杂,且对图优化和量化非常敏感,像 BEVDet 和 BEVFormer 这样的 BEV 模型在部署上颇具挑战。
阅读更多利用胶片颗粒分析与合成技术,以更低的比特率实现电影级画质
引言 电影内容通常依赖胶片颗粒来保留艺术意图、增强纹理并提升主观清晰度。虽然胶片颗粒具有视觉价值,但它对视频压缩构成重大挑战,尤其是在带宽受限的流媒体工作流程中。 传统编解码器难以高效地编码颗粒,导致更高的比特率或出现闪烁、过度平滑化等可见伪影。在 MulticoreWare,我们通过先进的胶片颗粒分析与合成 (FGS) 技术来解决这一挑战,该技术能够在显著提高压缩效率的同时,保留电影的画质。 胶片颗粒压缩的挑战 胶片颗粒本质上是随机且不可预测的。在传统的HEVC编码中: 颗粒直接作为残差数据编码 比特率显著增加 在较低比特率下,颗粒变得不稳定或完全消失 其结果是视觉质量下降,尤其是在暗部或低对比度场景中,颗粒最为明显。对于需要在质量和带宽之间取得平衡的流媒体平台而言,这种权衡越来越难以接受。 MulticoreWare 的胶片颗粒合成方法 胶片颗粒合成将颗粒纹理与从压缩过程分离出来。 该方法并非直接对颗粒进行编码: 编码器分析并建模颗粒特征 视频在去颗粒后进行编码,以实现最高效率 将精简的颗粒参数传输至解码器 播放过程中精确地重新生成颗粒 这种方法在显著降低比特率的同时,呈现出胶片颗粒的质感。 胶片颗粒建模的工作原理是什么? MulticoreWare 的实现遵循 SMPTE RDD5 指南和 MPEG 式频率建模,确保与行业标准编解码器和工作流程的互操作性。 去噪: 利用运动补偿时空滤波去除噪点,同时保留精细纹理。 区域分析: 识别平坦区域,并将边缘排除在建模之外。 频率建模: 估计截止频率和光谱特征。 基于强度的缩放 根据亮度级别调整噪点强度。 最终得到一个紧凑、精确的原始噪点行为表示。 高效信令与解码器合成 颗粒参数通过 HEVC SEI 消息进行信令传输。在 x265 中,可通过以下方式启用: –film-grain <modelled_file.bin> 在支持颗粒合成的解码器中: 正常解码基础视频 使用基于频率特性的合成应用颗粒参数 逐像素调整颗粒强度并将其融合到帧中 最终输出与原始胶片颗粒外观高度匹配,且不编码噪声本身。 可衡量的结果 1. 启用胶片颗粒合成 … Read more
阅读更多基于神经形态硬件的超低功耗视觉流水线设计
引言:突破功耗限制的创新驱动力 随着人工智能以前所未有的速度持续发展,其日益增长的复杂性往往需要强大的硬件和高能耗资源。然而,在将人工智能解决方案部署到边缘时,我们寻求能够以最低能耗运行的超高效硬件,这带来了独特的工程挑战。ARM Cortex-M微控制器(MCU)及同类低功耗处理器存在严苛的计算与内存限制,使得量化、剪枝及轻量化运行时等优化技术对实时性能至关重要。这些挑战反过来也催生了创新的解决方案,从而让人工智能变得更易获取、更高效、更具可持续性。 在MulticoreWare,我们持续探索多种路径,将更多智能推向这些资源受限的设备。这一探索引领我们进入神经形态AI架构领域,并开发出专用的类脑硬件——通过模拟大脑的事件驱动处理机制,实现超低功耗推理。我们洞察到该框架的创新价值,决心将其与深厚的MCU技术积淀相结合,为医疗、智能家居及工业领域开辟持续在线AI的新路径。 面向神经形态硬件的设计 我们所确定的神经形态人工智能框架采用了一种新型神经网络——时序事件神经网络(TENNS)。TENNS采用状态空间架构,能够动态处理事件而非固定间隔处理,通过跳过空闲期来最大限度降低能耗和内存占用。该设计可在毫瓦级功耗下实现实时推理,使其成为边缘部署的理想选择。 开发神经形态AI模型远非简单移植现有架构。我们采用的框架要求实现完整的 int8 量化,并遵守严格的架构约束:仅支持有限的网络层类型,且模型必须遵循固定的层序列以确保兼容性。这些限制往往需要重大重构,包括修改模型架构、替换不支持的激活函数(如LeakyReLU→ReLU)以及简化分支拓扑结构。诸如多输入/输出模型等深度学习特性同样无法实现,开发者需实施替代方案或彻底重构模型。 简而言之,为神经形态硬件进行开发意味着从头开始,在精度、效率与严格的设计规则之间取得平衡,从而兑现其在边缘实现实时、超低功耗人工智能的潜力。 在边缘设备上实现实时老人辅助系统 为展现类脑人工智能的潜力,我们开发了一套基于计算机视觉的老人辅助系统。该系统能在极低功耗硬件上实时运行,可检测坐立、行走、躺卧或跌倒等关键人体活动。 目标简单而雄心勃勃: 构建完全基于设备的低功耗AI流水线,在资源受限环境中持续监测并解析人体动作,同时保障用户隐私与运行效率。 然而受框架架构限制,某些模型(如姿态估计)无法完全支持。为此我们采用混合方案,融合类脑与传统计算资源: 神经形态硬件:通过专用模型执行物体检测与活动分类 CPU(Tensorflow Lite):处理姿态估计与中间特征提取 该设计在保持功能完整的同时,也确保了边缘侧推理的高能效。我们的模块化视觉流水线利用类脑加速技术进行检测和分类,而姿态估计则在主设备上运行。 成果:边缘智能低功耗辅助系统 https://multicorewareinc.com/ch/wp-content/uploads/2025/12/Demo-Video-1.mp4 在上述演示中,我们成功在树莓派上部署了完整的视觉处理流水线,该设备通过PCIe插槽连接神经形态加速器,实现了无缝运行。这充分证明了该系统的可移植性与实际部署能力,验证了在边缘设备上实现实时低功耗人工智能的可行性。该系统可持续实时识别并分类用户活动,可即时检测跌倒或求助手势等事件并触发紧急警报。所有处理均在边缘端完成,确保关键安全场景中的隐私保护与响应能力。 神经形态架构仅消耗传统深度学习流水线的极小功耗,同时保持稳定的推理速度和强健性能。 应用亮点: 超低功耗 便携式树莓派+神经形态硬件配置 端到端应用在边缘硬件上运行 打造真正低功耗边缘AI的实践指南 MulticoreWare在新兴低功耗计算生态系统中运用深厚的技术专长,使AI能在资源受限的平台上高效运行。我们的解决方案融合: 面向低功耗 MCU 的应用就绪型 AI 工作负载:唤醒词/关键词触发语音模型、紧凑型视觉(人物检测、分类)、传感器级异常检测及微型机器学习自然语言处理,均针对Arm Cortex-M及同类低功耗嵌入式芯片优化。 端到端 SDK 赋能:提供定制的 CMSIS-NN 算子、清晰从训练到 TFLite 的转换流程,以及结合内存剖析的定向量化与剪枝技术,确保在 MCU 上的顺利部署。 编译器级与运行时优化:利用TFLite Micro和TVM-Micro调优内核,管理内存紧凑张量空间,构建能在严格RAM、计算和功耗预算内保持稳定的推理路径。 更广泛的 MCU 人工智能应用:工业、智能家居与智慧城市 随着医疗健康领域引领嵌入式优先的人工智能转型,智能家居、工业系统和智慧城市正迅速跟进。质量检测、预测性维护、机器人辅助、家庭安防和在场感知等应用日益需要直接在MCU级低功耗边缘处理器上运行的AI技术。 MulticoreWare为Arm Cortex-M设备打造的实时推理框架,通过高度优化的流水线支持这一转型,包括量化、剪枝、CMSIS-NN内核调优,以及为资源受限MCU定制的内存紧凑执行路径。这使OEM厂商能够部署唤醒词检测、紧凑视觉模型和传感器级异常检测等工作负载,让最微型设备也能运行智能功能,无需依赖外部计算资源。 结论:云端之外的智能新定义 人工智能与嵌入式计算的融合,标志着智能设计、部署与扩展方式的重大变革。通过在边缘端直接实现轻量化、高能效的人工智能,MulticoreWare助力医疗、工业及智慧城市领域的客户实现更快的响应速度、更高的可靠性及更低的能耗足迹。 随着计算与智能的边界日益融合,MulticoreWare … Read more
阅读更多智能体AI将如何重塑网络运营
从可观测性到自主修复 网络世界正迎来自SDN以来最重大的变革之一。多年来,网络运维依赖人工解读仪表盘、关联警报、执行操作手册并手动实施修复。这种模式曾一度有效,直到网络变得过于分布式、过于实时、过于多云化、过于不可预测,以致纯人工运维无法跟上。 当今网络需要的不只是可视化。它们需要能即时感知变化、理解变化含义、并在人类登录前主动采取行动的系统。这正是智能体AI开始重塑网络行为模式的起点——将我们从被动的网络运营中心工作流,带入自我优化、自我纠错的自主网络时代。 这一切都围绕着一个核心运行循环: 感知:从遥测数据到情境理解 网络会产生海量噪声:接口抖动、抖动峰值、微突发、CPU波动、路由频繁切换。传统工具虽能收集这些数据,却鲜少解读其含义。智能感知系统部署感知代理,这些代理紧贴设备(交换机、路由器、网关、无线单元)运行,持续将原始遥测数据转化为有意义的上下文: CPU突发峰值与路由重新收敛同步 带宽骤降关联应用行为变化 抖动模式预示早期拥塞积聚 遥测不再仅仅是“数据”它基于实时网络感知,进化为带有意图的观察。 推理:从警报升级至深层洞察 传统网络运营中心(NOC)仅能响应事件。而智能网络则能理解事件本质。这一推理层融合预测模型、异常分类器、关联引擎及基于大型语言模型的解释器,解答更深层次的问题: 实际发生了什么? 为何会发生? 若不采取行动将如何发展? 你得到的将不再是“检测到高延迟”,而是:东西向流量失衡表明正在形成拥塞循环,预计约3分钟后将违反SLA。这正是从警报到洞察、从噪音到清晰的蜕变。 行动:从洞察到自主执行 在当今大多数网络中,“发现问题”与“解决问题”之间存在巨大鸿沟。工程师需要验证问题、分类处理、规划指令、安排窗口期,并谨慎实施变更。智能体AI正缩小这一差距。 行动代理接收推理层的输出结果,将洞察转化为安全可控的操作。这不是盲目的自动化,而是在深刻理解指导下的自动化。当链路拥塞时,系统不会触发规则响应,而是启动决策机制——因为它理解拥塞的根本原因。 学习:日渐智能的网络 每个代理执行的操作都是反馈信号: 延迟是否改善? 抖动是否稳定? 吞吐量是否平衡? 强化学习将每次干预转化为经验教训。经过数月运行,系统反应更迅速,更早识别细微模式,并适应人类从未手动调优的条件。这正是从自动化任务向自主改进的真正飞跃。 为何这种转变势在必行 三大压力正推动行业向自主化、智能驱动的运营模式转型: 人工智能与东西向流量呈爆炸式增长,传统可观测性已不堪重负。 网络在云端、边缘、5G、远程办公及微服务中呈现超分布式架构。 人力主导的NOC无法随事件复杂性的增长而扩展:专家资源稀缺,而SLA的要求却毫不宽容。 自动化已非未来概念,而是运营必需。 这对网络运营中心意味着什么 智能体AI并非取代工程师,而是替代人类不应从事的重复性、被动响应式实时工作。网络运营中心将从: “盯着屏幕” → 转型为“自主工作流的监督者” 这种变革已在超大规模企业、电信运营商、互联网服务提供商及大型企业中全面展开。 结语 感知-推理-行动-学习循环并非炒作;它是那些需要以机器速度学习、适应和自我纠正的网络的全新运营模式。智能体AI使网络能够理解自身状态、预测未来行为、在恰当时机采取正确行动并持续改进。智能体AI不仅是升级,更是对现代网络运作方式的重塑,标志着真正自主网络时代的开端。 在MulticoreWare,我们拥有AI辅助运维、遥测工程、自动化框架及智能体驱动架构的深厚经验。如果您已准备好现代化您的可观测性技术栈、降低平均修复时间(MTTR),或向自主网络迈出第一步,我们随时准备与您合作。携手MulticoreWare,共筑新一代AI赋能的未来就绪型网络基础设施。欢迎通过info@multicorewareinc.com联系我们。
阅读更多医疗保健行业正在向嵌入式优先架构转型——以下是推动这一转型的因素
引言 过去十年,医疗保健应用经历了显著的数字化转型。最初只是用于预约、访问电子病历 (EMR) 或进行远程会诊的简单数字工具,如今已发展成为能够有效支持临床工作流程的智能平台。 随着人工智能、多模态学习和强大的数据驱动模型的出现,医疗保健应用正从“任务数字化”转向真正的“人工智能辅助的医疗增强”,从而实现更丰富的洞察、更完善的诊断支持以及更个性化的患者就医体验。在 MulticoreWare,我们认为这是数字医疗发展历程中的关键一步,软件不仅可以改善医疗服务的可及性,还能积极促进更好的治疗效果。对于临床边缘智能而言,嵌入式系统及其设计原则是基础,本博客将重点介绍这方面的技术细节。 嵌入式系统在医疗保健领域日益重要的作用 嵌入式系统正迅速成为现代医疗保健的核心推动力,为从可穿戴健康追踪器到先进成像和生命支持设备等各种设备提供动力。它们负责实时信号采集、图像数据处理以及符合严格的医疗标准,从而确保临床应用的准确性和可靠性。 由于医疗设备涵盖各种风险等级和预期用途,其嵌入式系统的复杂程度也相应不同,从可穿戴设备中的轻量级控制器到呼吸机和起搏器中的高可靠性平台,不一而足。这种日益增长的依赖性凸显了嵌入式技术如何直接影响医疗保健应用的安全性、性能和监管合规性。 嵌入式医疗设备面临的挑战 开发用于医疗保健的嵌入式系统所面临的挑战远超传统应用。这些设备必须在硬件限制下实时运行,同时确保高性能、安全性和合规性。 实时性能与可靠性: 设备必须提供确定性、容错性运行,因为即使是毫秒级的延迟也会影响患者的治疗效果 。 功耗与资源效率: 可穿戴设备和便携式监护仪需要优化的固件和通信层,以平衡功耗和性能。 传感器精度与集成: 医疗传感器需要精确校准和抗噪声处理,以保持诊断的可靠性。 互操作性与连接性: 设备、医院系统和云平台之间的无缝数据交换需要强大的协议支持和测试。 嵌入式医疗设备的关键构建模块 硬件基础搭建:电路板调试所有医疗设备都始于可靠的硬件基础。电路板调试确保定制平台能够正常运行,并为软件集成做好准备。 简化的调试流程可降低早期风险,并为操作系统和软件集成奠定稳定的基础。 赋予系统生命:操作系统集成 硬件平台验证完成后,下一步是集成稳定的操作系统。操作系统启动过程确保医疗设备在实际应用环境中可靠运行。 关键步骤包括: 操作系统集成: 在定制的SDK中部署所选的实时操作系统 (RTOS)、嵌入式Linux或Windows。 目标兼容性: 确保在各种MCU、FPGA、ASIC、DSP或SoC的评估模块或定制板上无缝启动。 同步启动: 协调硬件和操作系统初始化,为固件和应用程序开发奠定稳定的基础。 此阶段为构建设备应用程序和临床功能提供了坚实的基础,确保稳定性、合规性和可预测的性能。 建立患者与设备的桥梁:传感器驱动开发传感器是医疗嵌入式设备的核心,负责采集实时生理信号,以指导诊断、监测和治疗。确保这些传感器与计算平台无缝协作,对于设备的可靠性和合规性至关重要。 传感器驱动程序开发流程包括: 这些传感器驱动程序构成嵌入式固件的基础层,确保可靠地采集关键生物数据,并使其可用于更高级别的处理。在医疗应用中,正是这种精度和一致性,使得生命攸关的设备能够高效运行。 软件之外:硬件验证支持 虽然软件是嵌入式医疗系统的核心,但硬件设计也发挥着至关重要的作用。最佳实践包括: 验证给定的硬件设计 提供专家评审与指导,确保硬件设计符合医疗保健领域标准 识别已开发硬件的风险及其缓解措施 软硬件的结合确保医疗设备安全、高效且可投入生产。 MulticoreWare 如何助力下一代嵌入式医疗系统 医疗行业对嵌入式系统的日益依赖,需要能够将复杂的设计需求转化为可靠、合规且智能设备的合作伙伴。MulticoreWare 在电路板调试、操作系统集成和医疗级传感器开发方面拥有深厚的专业知识,这些都是构建安全、高性能医疗系统的核心要素。 我们的工程团队帮助创新者打造更智能、更安全的技术,从低延迟患者监护仪到多模态诊断平台,应有尽有。除了嵌入式开发,我们还致力于推进医学影像人工智能的发展,加速开发面向边缘计算的高性能诊断成像解决方案。(更多信息,请阅读我们的博客文章——《人工智能在医学影像领域的崛起:从研究模型到边缘医疗》)。 凭借强大的软硬件工程实践和对医疗标准的深刻理解,MulticoreWare 助力打造下一代智能化的嵌入式优先的医疗系统。
阅读更多
