AI算力，双主线来了！国产CPU或迎价值重估

来源：证券时报作者：郭博昊 2026-06-17 20:47

Aa 大号字

AI时代算力格局迎来再平衡。

过去数年，全球AI产业的算力叙事几乎被GPU垄断，高性能GPU成为科技企业与算力中心的核心争抢资源，传统通用式CPU的产业价值一度被低估。

近日，中科曙光发布国内首个“百核级”通用计算平台，将行业目光重新拉回通用计算赛道。在AI大模型快速发展的背景下，CPU与GPU的功能边界、技术路线与产业价值正在迎来产业层面的再平衡。

高精度计算存在架构刚性门槛 GPU难以跨越原生精度鸿沟

在科学与工程计算领域，计算结果的准确性优先级远高于计算速度，这正是通用式CPU的核心优势所在。

“我们课题组围绕功能材料做多尺度模拟，对收敛精度要求达到10⁻⁵到10⁻⁶量级，依赖FP64双精度计算。”东南大学物理学院副教授李强表示，高精度计算并非GPU的擅长领域，却是CPU的传统强项。

精度差异的根源在于两类芯片的底层架构分野：GPU擅长高度并行的同质化计算，适配图像处理、大模型训练等可拆解为大量重复任务的场景；CPU则具备完整的逻辑控制单元与高精度浮点运算单元，可处理结构复杂、包含大量串行逻辑与分支判断的计算任务。

从气象预报、大飞机气动仿真到石油勘探、新药分子模拟、集成电路电磁仿真，科学工程领域对计算结果的唯一性、准确性有严苛要求，数值结果必须严格符合物理规律，不能是统计概率性的近似输出。“科学计算领域算法包含大量逻辑判断和复杂分支，CPU的通用计算架构仍具有显著优势。”中国科学院计算机网络信息中心高性能计算技术与应用发展部主任金钟表示，“即便在异构系统中GPU算力占比超过99%，计算任务分配、数据流编排、全流程串联仍需由CPU完成，它是整个系统的大脑，作用不可或缺。”

数十年生态沉淀迁移成本构筑隐形护城河

如果说精度是CPU的技术门槛，成熟生态与迁移成本则是通用计算赛道更深的产业护城河。高性能计算行业发展数十年，全球工业与科研领域沉淀的海量成熟软件工具与工程流程，底层逻辑几乎全部围绕通用式CPU与x86架构构建。

以x86架构下的AVX-512矢量扩展指令集为例，其已成为全球高性能计算软件生态事实上的性能优化标准。GROMACS、NAMD等主流科学计算套件，以及大量工业仿真商用软件的核心求解器，均深度绑定AVX-512的底层加速逻辑。

“用户的代码无需额外编程、无需异构化改造就能在CPU上稳定运行，必然是第一选择。”金钟指出，“像第一性原理计算这类应用，行业更倾向于在CPU上通过多线程技术解决问题，只有CPU能力确实不足时，才会考虑异构改造。生态壁垒无法仅靠硬件性能提升在短期内打破。”

对企业与科研机构而言，迁移一套经多年验证的工业软件或科研流程，不仅意味着巨额研发投入，更需承担精度偏差、业务中断的风险。这也是即便GPU算力标称值更高，多数工业场景仍沿用成熟CPU计算体系的核心原因。

此次中科曙光发布的百核级计算平台，原生支持AVX-512指令集、兼容x86生态，可实现绝大多数现有软件无需重新编译即可直接运行，本质是顺应产业生态规律——不试图重构全新体系，而是通过兼容现有生态降低国产化替代的落地门槛。

AI驱动科学研究反向拉动CPU需求增长

一个易被忽略的产业趋势是：AI发展并未挤压CPU的生存空间，AI驱动的科学研究（AI4S）的兴起，反而反向拉动了通用式CPU的市场需求。

“随着AI技术的普及，我们课题组对CPU的需求反而有所增加。”李强解释道，AI4S的核心基础是高质量训练数据，而科研领域大量训练数据来自第一性原理计算，这部分计算任务主要由CPU完成；包括数据预处理、清洗、对齐等环节，CPU的作用同样不可替代。

AI模型的能力建立在海量高质量数据集之上，而科学领域的高精度数据集恰恰依赖通用式CPU生产。数据生产、逻辑控制、高精度求解由CPU负责，并行加速、模式识别由GPU承担，二者正在形成“高精度底座+智能加速”的协同关系，即产业界提出的“超智融合”模式。

中科曙光解决方案与创新业务总经理张磊表示，未来GPU与CPU并非替代关系，而是并驾齐驱、协同互补。“GPU适合并行度高的暴力求解场景，CPU负责核心逻辑控制、高精度计算，二者在不同领域发挥不同作用。工业领域大量商用软件仍以CPU为核心，这一格局在很长时间内不会改变。”

业内普遍认为，未来算力体系不会是单一架构主导。科学研究既需要低精度智能计算提升效率，也需要高精度通用计算保障结果可靠，数学模型与数据模型将形成深度互补，高低精度算力协同运行将成为产业常态。

国产算力突围实现从“可用”到“好用”的全栈进阶

当前国产通用算力正处于从“能用”到“好用”的关键跨越期。此前国产平台常被诟病性能不足、生态薄弱，如今不仅单芯片性能逐步追平国际旗舰，更在系统级优化、全栈协同上形成自身特色。

以此次发布的“百核级”计算平台为例，其技术突破并非单纯堆砌核心数量，而是通过“算—存—传”三级协同的系统级优化，破解传统架构的内存墙、通信墙难题：计算层引入Burst Buffer缓存加速与Socket Direct通信优化，存储层实现硬件级并行重构，网络层依托自研高速交换机将端到端时延压缩至0.93微秒，单子网支持11.4万核组网。同时平台覆盖风冷、冷板液冷、浸没液冷三种散热形态，最低PUE（数据中心总能耗与IT设备能耗的比值）可达1.04，适配算力中心的双碳降耗需求。

“过去单纯堆砌芯片会遭遇内存墙、发热墙、供电墙瓶颈，现在我们走的是从底层芯片到上层软件的全栈平台创新路线，通过系统化创新破解传输墙与内存墙难题。”中科曙光高端计算总工程师李建军表示，当前国产平台的基准性能与应用性能，已经和国际主流最高端产品处于同一水平线，部分指标甚至实现超越。

但业内也普遍认为，硬件性能追平只是国产算力突围的第一步，生态完善仍是长期任务。“生态建设是系统工程，无法一蹴而就，需要大量人力、资金投入，以及产业链上下游的协同配合。”金钟表示，“如果聚焦重点领域集中投入，一段时间内完全有希望把生态做到令人满意的程度，让国产CPU真正在硬件和软件层面都跻身世界一流行列。”

责任编辑：戎艾茵