MulticoreWare

实例探究

面向自愈网络的AI驱动动态策略管理

January 8, 2026

客户

该客户是网络管理软件领域的全球领导者,为企业、电信、工业和数据中心网络提供端到端的网络和服务管理解决方案。他们的平台可管理企业、云、边缘和混合环境中种类繁多的设备,并提供大规模的配置、监控和故障修复功能。

问题陈述

随着网络日益分布式和动态化,客户现有的策略管理系统在适应实时网络变化方面面临挑战。由于设备种类繁多、流量模式波动、用户群体多样化以及安全需求不断演变,其静态策略规则和手动执行机制被证明效率低下、耗时且容易出错。策略定义的静态特性使得系统难以有效应对性能波动、链路状态变化和安全威胁。

这些局限性导致了配置错误风险、响应延迟、策略冗余以及跨多厂商环境策略一致性的整体低效。客户寻求一种能够最大限度减少人工干预、增强适应性并确保基于实时网络遥测数据实现一致的实时策略管理的下一代解决方案,从而为智能化、自愈和自主运行的网络奠定基础。

解决方案

MulticoreWare 与客户的架构和设计团队合作,将他们现有的平台升级为由人工智能驱动的智能、自适应和自愈解决方案。凭借我们在人工智能和系统优化方面的深厚专业知识,我们提出了一种人工智能驱动的策略管理解决方案,该方案是一个智能动态层,能够持续解读实时网络状况,并自主生成、验证和部署网络策略,从而提升性能、可靠性和安全性。

该解决方案集成了全面的遥测数据(指标、日志)以及事件驱动的告警信息,用于评估实时网络状态、理解现有策略并识别配置缺陷。

利用人工智能代理,系统能够学习网络行为、验证策略的充分性、根据需要重新生成或调整策略,并将其无缝部署到多个设备上。自适应策略涵盖访问控制列表 (ACL)、入侵检测/入侵防御系统 (IDS/IPS)、服务质量/体验质量 (QoS/QoE)、访问控制、授权、速率限制和转发规则,从而在复杂异构网络中实现端到端的智能策略执行。

核心要素

  1. 上下文感知策略生成:
    利用基于 LLM 的模型来解读设备角色、网络状态和意图定义,动态生成或优化策略。
  2. 遥测驱动的自适应与反馈循环:
    持续与客户端监控代理集成,分析健康指标和威胁情报,并根据实时洞察实时优化策略。
  3. 模型上下文协议 (MCP):
    集成确保 AI 代理、网络 API 和控制器(例如 Meraki、OpenStack 和自定义 Fabric 编排器)之间的安全交互。
  4. 验证与回滚框架:
    每个生成的策略在部署前都会经过自动验证和基准测试,并配备回滚机制以维护网络稳定性。
  5. 持续学习引擎:
    AI 代理通过持续观察和反馈不断改进,从成功和失败的策略部署中学习,从而优化未来的响应。

技术栈

层级 工具与框架
人工智能/自动化
Llama 模型、LangChain、MCP
网络集成
OpenStack、RESTful 控制器 API
性能指标
本地集群上约 97 个 token/秒

成功案例

一项 30 分钟的实时基准测试对比了人工管理和自主 AI 代理在持续负载和注入容器故障的场景下进行对比。人工管理系统在故障检测速度慢、修复延迟长且在压力下不稳定。该系统处理了 5420 个请求,成功率为 78.04%,尾延迟较高(p99:890.2 毫秒),需要三次人工干预。恢复耗时 147.5 秒,导致 158 秒的停机时间和 91.23% 的可用性。

相比之下,自主 AI 系统能够自主检测到故障,配置新容器,更新 HAProxy 策略,并在无需人工干预的情况下恢复容量。该系统处理了 5890 个请求,成功率为 98.51%,保持了较低的延迟(p99:145.8 毫秒),并在 12.3 秒内实现了完全恢复。停机时间降至 4.1 秒,可用性达到 99.77%。结果显示,通过自动生成策略和自我修复行为,韧性、响应能力和服务质量都得到了显著提高。

指标 手动系统 自愈网络代理
已处理请求数
5,420
5,890
成功率
OpenStack、RESTful 控制器 API
98.51%
平均延迟
185.3 毫秒
42.7 毫秒
p99 延迟
890.2 毫秒
145.8 毫秒
恢复时间
147.5秒
12.3秒
总停机时间
158秒
4.1秒
可用性
91.23%
99.77%
人工干预
3
0

MulticoreWare 的价值主张

  • 基于可观测性的优化
    将遥测反馈与 AI 推理相结合,实现自适应网络微调。
  • AI 与网络转换映射
    该层将 AI 生成的意图映射到网络配置,并将 SNMP 陷阱或 OAM (运营、管理和维护)事件等运行数据解析回 AI 可读的上下文。t.
  •  编排管道现代化
    将客户端的静态工作流重构为事件驱动架构,从而能够根据网络状态变化按需更新策略。
  • 集成验证框架
    在虚拟化网络环境中运行自动化回归测试和压力测试,以大规模验证性能和可靠性。
  • 协作开发模式
    跨多个工作站的联合团队确保与现有系统的无缝集成以及持续的技术支持。

核心价值主张

该解决方案使管理员——即使是那些不具备深厚脚本编写经验的管理员——也能自动生成优化策略,从而简化网络运维。其人工智能驱动的自愈设计持续监测网络状况并实时调整策略,确保性能始终与运营目标保持一致。此外,该智能解决方案还能加速问题检测和自愈,从而缩短平均故障修复时间 (MTTR)。

通过辅助策略生成和微调,运维人员的工作流程得到进一步优化,使团队能够在不牺牲监督或控制的前提下更快地开展工作。该系统专为企业级规模而构建,可在大型、异构、多厂商环境中安全运行,确保无缝兼容性和强大的端到端策略管理。

结论

通过部署人工智能驱动的自适应策略管理解决方案,客户已将其传统的网络管理系统转型为智能、敏捷且具有自愈能力的平台,可在企业、电信、工业和云环境中实现智能策略控制。这项创新不仅增强了可扩展性、安全性和运营敏捷性,也为行业的智能自主网络管理树立了新标杆。

MulticoreWare 在人工智能解决方案、可观测性驱动的优化和智能网络自动化方面的专业知识促成了这一变革性进展。如需了解我们如何帮助您的组织利用人工智能实现创新和影响力,请联系 info@multicorewareinc.com.

Share Via

Explore More

May 29 2026

优化 Android 应用在远程 GPU 渲染平台上的性能

客户 该客户是一家专注于GPU虚拟化中间件的技术公司,其产品能够将独立计算单元聚合到共享资源池中,并通过标准网络基础设施进行远程访问。他们的平台旨在帮助企业和汽车开发团队将图形密集型计算工作负载卸载到集中式或分布式GPU基础设施。 问题陈述 随着图形密集型Android应用程序越来越多地利用远程GPU基础设施,在分布式环境中保持接近原生体验的 UI 响应性和渲染性能成为一项重大挑战。通过该平台在基于远程服务器-客户端的架构上运行Android Automotive应用程序引入了性能瓶颈,对渲染效率和最终用户体验产生了负面影响。 客户观察到,与原生Android执行相比,通过该平台执行Android模拟器工作负载时,帧速率降低,渲染延迟增加。远程渲染管线在帧生成、同步和呈现过程中引入了延迟,导致UI响应速度下降,交互体验下降。 该平台面临以下几个关键挑战: 在远程渲染环境下,Android Automotive 模拟器执行时帧率低 由于渲染管线和同步瓶颈,导致每帧延迟增加 在非原生 Vulkan 路径中,由 Mesa 转译引入的额外开销导致渲染效率低下 Vulkan 的阻塞式等待机制影响帧调度和渲染吞吐量 远程执行期间,对 GPU 及渲染管线层级性能瓶颈的可观测性有限 为了应对这些挑战,客户需要一个结构化的优化框架来对性能进行基准测试,识别渲染瓶颈,并提升整个平台的帧传输与交付效率。 解决方案概述 MulticoreWare 开展了一项全面的性能优化计划,旨在提升客户平台上 Android 模拟器的运行性能。该计划首先对 Android 应用的性能与原生 Android 应用的性能进行基准测试,以建立帧率(FPS)和延迟的性能基线。 MulticoreWare 利用先进的性能分析工具,对渲染管线进行了端到端的分析,以识别帧生成、同步与显示过程中的瓶颈。基于这些发现,团队对渲染栈实施了针对性的优化,从而降低帧延迟并提高吞吐量。 该解决方案的主要功能包括: 基于队列的帧呈现机制 实现了将帧接收与渲染解耦的带缓存的解耦帧呈现机制,从而减少等待时间和延迟瓶颈。 工作负载感知超时优化 在 Mesa 中用基于计算公式的超时机制替换了无限 Vulkan 等待,提高了同步效率并减少了渲染停顿。 启用原生 Vulkan 渲染能力 启用了 Android 模拟器 Vulkan 模式所需的缺失 Vulkan 功能,绕过了 Mesa  … Read more

Read more
May 14 2026

面向无线接入网(RAN)可观测性、可解释性和编排的智能体人工智能

客户
一家全球性的电信和网络基础设施公司,致力于为构建、管理和优化大型电信及企业网络提供先进的软件、硬件和服务。

Read more
May 13 2026

先进无人机系统的嵌入式平台优化:激光雷达与电机控制的集成

客户 一家领先的无人机与机器人公司,致力于开发高性 能无人机平台,用于复杂或受限环境中的自主作业、工业检测及测绘。

Read more

GET IN TOUCH