嵌入式与网络计算湖南省重点实验室 -

目前的位置: 首页实验室新闻正文

全国产“五合一”智能计算系统方案

在AI算力需求持续增长的背景下，“异构计算”已成为提升计算效率的核心技术方向。其通过多类型处理单元的协同工作，实现计算资源的精准匹配。团队提出全国产“五合一”智能计算系统方案：飞腾CPU + 景嘉微GPU + 昇腾NPU +百度Paddle Lite + 国产OS （openEuler、OpenHarmony、银河麒麟等），为构建自主可控的算力体系、突破技术瓶颈提供解决方案。

2B216

图1：国产“五合一”智能计算系统

1、什么是异构计算

异构计算的核心逻辑是“任务特性与硬件能力的精准匹配”，通过多类型处理单元的协同，最大化计算效率。在单一硬件系统中，集成CPU、GPU、NPU等多种架构不同的处理单元；系统根据任务的运算特性（如并行度、数据类型、逻辑复杂度），将其分配至最适配的处理单元，实现计算资源的高效利用。异构计算单元特点：

CPU（中央处理器）：负责系统整体任务调度、串行数据处理及复杂逻辑运算，是保障系统有序运行的核心。
GPU（图形处理器）：具备大规模并行计算架构，适用于数据密集型、高并行度的运算场景，如大规模数据处理、图像渲染等。
NPU（神经网络处理器）：针对神经网络运算场景进行专项优化，在AI模型训练、推理等任务中，运算效率显著高于CPU与GPU。

图2：CPU、GPU、NPU

2、五合一智能计算系统方案

智能计算系统面临的框架与硬件依赖瓶颈：

1）框架依赖：AI计算长期以英伟达CUDA、谷歌TensorFlow等国外技术为核心，国内自主框架的生态覆盖范围、硬件兼容性及行业应用深度仍需提升；

2）硬件依赖：异构平台的核心加速组件（如英伟达GPU、高通NPU）多为国外产品，硬件层面的自主选择权受限，难以实现全链路国产化。

为突破上述瓶颈，“五合一”经历了从“四合一”到完整方案的技术演进。早期“四合一”构想聚焦于以“CPU+GPU+NPU+OS”搭建基础平台，但实践中发现，各硬件单元与操作系统间缺乏标准化协同机制，且缺少统一的调度框架整合异构计算资源，导致硬件能力无法形成协同效应，计算效率难以最大化。在此基础上，“五合一”方案通过新增国产AI框架，同时补充“低开销性能监控与预测”“模型异构推理”能力，形成了完整技术闭环：

基础层：由国产CPU、GPU、NPU、多类型国产OS构成，通过深度适配实现硬件与系统层面的自主可控；
核心层：引入国产AI框架，解决计算框架的“卡脖子”问题；
优化层：通过eBPF技术实现性能监控，结合模型异构推理能力，提升算力调度精度与计算效率，同时支持可视化运维与低侵入式部署。

图3：“五合一”智能计算系统演进

3、“五合一”智能计算系统技术路线

第一步：搭建国产异构计算平台

选取国内技术成熟的软硬件组件，构建自主可控的异构计算基础平台，核心特性与组件包括：

硬件单元：飞腾CPU、景嘉微GPU、昇腾310PNPU，形成全栈国产化计算核心；
操作系统：深度适配各类国产OS，包括openEuler、OpenHarmony、银河麒麟等主流国产操作系统的兼容验证，可满足不同行业场景下的系统选型需求；
AI框架：搭载Paddle Lite，作为模型推理与任务切分的核心支撑；
系统特性：集成可视化管理模块，支持对异构资源状态、任务调度流程的图形化展示与操作，降低运维门槛；同时采用低侵入式设计，通过用户态技术实现核心功能，无需修改操作系统内核，大幅提升部署便捷性与系统稳定性。

第二步：构建性能监控与预测体系

通过eBPF插桩与模型拟合实现系统运行状态的实时感知与风险预判，为算力调度提供数据支撑：

性能监控：基eBPF技术（低开销、高精度的动态追踪技术），实时采集系统资源指标（CPU利用率、GPU显存占用、NPU算力负载）与运算性能指标（任务响应延迟、数据吞吐量）；
性能峰值预测：基于历史监控数据与实时运行状态，通过算法模型预测未来时段内系统性能峰值，提前识别性能风险，为任务分配提供决策依据。

图4：性能监控与预测架构图

第三步：实现模型异构推理与任务分配

通过任务拆分与精准分配，最大化各硬件单元的运算效能，具体流程包括：

模型推理任务切分：将AI模型转换为计算图结构，根据算子类型（如卷积算子、全连接算子）与计算图拓扑关系，进行算子融合，并拆分出多个子图；同时保障子图间的并行性与子图内的串行逻辑完整性；
子任务分配：结合“子图预分配方案”与“性能监控、峰值预测数据”，将子图分配至适配的硬件单元——并行度高的子图分配至GPU，神经网络相关子图分配至NPU，逻辑控制类任务分配至CPU，实现全硬件协同加速。

图5：“五合一”智能计算系统技术架构图

4、“五合一”智能计算系统实现

“五合一”智能计算系统通过全链路可视化设计与多场景性能测试，形成了从模型导入、优化调度到结果反馈的完整闭环。系统不仅实现了国产化组件的深度协同，更通过直观的可视化界面与量化的性能数据，验证了其在实际场景中的可用性与高效性。

（1）可视化系统演示

为降低运维与调试门槛，系统构建了多维度可视化模块，实现对异构计算全流程的实时监控与操作支持：

资源监控仪表盘：通过图形化界面实时展示飞腾CPU、景嘉微GPU、昇腾310P NPU的资源占用（如CPU利用率、GPU显存使用量、NPU算力负载），以及国产操作系统的核心指标（进程数、IO吞吐量），支持异常指标自动标红预警。

图6：性能控与预测可视化演示

任务调度流程图：以拓扑图形式展示模型推理任务的算子融合结果、计算图切分过程（子图拆分结果）、子任务分配路径（如“卷积子图->GPU”“全连接子图->NPU”），直观呈现“五合一”调度逻辑。
模型推理链路视图：可视化展示模型从导入到输出的全链路（模型解析->算子融合->子图分配->异构执行），支持点击任一环节查看详细日志（如算子融合/子图切分前后的计算图对比等）。

图7：模型异构推理可视化演示

（2）支持模型与性能验证结果

“五合一”智能计算系统针对主流视觉与深度学习模型开展了异构推理性能测试，通过对比不同硬件组合的推理时间（部分结果），验证了系统在任务调度、异常适配及负载均衡层面的核心能力。“五合一”智能计算系统支持Paddle Lite支持的所有模型，以下为ResNet50、SSDMobileNet等模型的具体测试结果与分析：

①ResNet50模型（图像分类）

硬件	平均（ms）	最大（ms）	最小（ms）
CPU	480	497	470
GPU	1765	1768	1760
CPU+GPU	440	452	435

CPU+GPU与单CPU推理相比，推理速度提升1.1倍

②SSDMobileNet模型（目标检测）

硬件	平均（ms）	最大（ms）	最小（ms）
CPU	167	169	164
GPU	不支持（算子维度过大）
CPU + GPU	67	68	66

单一GPU无法运行该模型，因部分算子输入输出Tensor维度超过GPU上限；经系统“异常算子自动替换”功能处理后，将超维度算子调度至CPU执行，CPU+GPU组合可正常推理，平均推理速度较单CPU提升2.5倍，验证了系统的兼容性适配能力；

③MobileNetV1模型

MobileNetV1测试重点验证NPU高负载场景下的异构调度优化效果，结果如下：

硬件	平均（ms）	最大（ms）	最小（ms）
NPU	20	30	15
CPU + NPU	11	15	9

由于昇腾NPU的算力相比其余异构硬件过强（昇腾NPU 140T FLOPS）。为验证算子异构调度功能的有效性，我们选择通过提高NPU的负载，验证NPU负载提高后的调优效果：NPU高负载情况下CPU+NPU与单NPU推理相比，平均推理速度提升1.8倍

（3）核心能力验证与闭环体现

算子融合效果：针对ResNet50、YOLOv5等模型，系统自动识别可融合算子（如卷积+批归一化、激活函数串联），融合后算子数量平均减少32%，数据传输开销降低40%，直接推动推理延迟下降15%-20%。
异常适配能力：对含超维度算子的自定义图像分割模型（部分卷积算子输入Tensor维度超过GPU上限），系统通过自动识别并将异常算子调度至CPU执行，实现GPU+CPU协同推理，较单一硬件（无法运行）实现从“不可用”到“可用”。
闭环完整性：从模型导入（Paddle模型格式）、自动优化（算子融合、子图切分）、资源调度（基于eBPF监控数据动态分配），到结果输出与性能反馈（可视化仪表盘实时更新），形成端到端闭环，无需人工干预即可完成高效推理。

嵌入式与网络计算湖南省重点实验室 -

全国产“五合一”智能计算系统方案

友情链接

实验室成员

实验室公众号