中国算力大逆转，华为弯道碾压英伟达、xAI

中国算力大逆转，华为弯道碾压英伟达、xAI

2025-09-19

9月18日，外交部例行记者会。法新社记者提问，据英国《金融时报》报道，中国互联网监管机构已指示阿里巴巴、字节跳动等公司停止购买英伟达RTX Pro 6000D芯片。英伟达首席执行官黄仁勋称，对此表示失望。中方能否证实报道所说情况？对此有何评论？

外交部发言人林剑表示，具体问题建议向中方的主管部门了解。我们一贯反对在经贸科技问题上对特定国家采取歧视性做法。中方愿同各方保持对话合作，维护全球产供链稳定。

同日，为期三天的华为全联接大会2025在上海拉开序幕。在元界（ID：Metabod）看来，这场大会是华为官宣在超节点算力、内存容量、互联带宽等性能上全面碾压英伟达，以及在超节点集群规模及算力能力全面碾压马斯克旗下AI公司xAI算力集群的历史性时刻。

一方面是外交部对有关中国企业被指示停止购买英伟达芯片的报道作出了原则性回应；另一方面是华为发布了在关键性能上显著领先英伟达、xAI的算力基础设施产品。

将这两则信息及此前中国官方宣布对英伟达进一步调查的新闻结合起来解读，历史终将记住，2025年9月18日，九一八事变94周年纪念日，一个看似寻常的日子，全球AI算力竞争与中美科技博弈正在掀开新的篇章。

一年一代、算力翻倍
昇腾芯片三年路线图首次披露

9月16日，华为发布未来10年十大智能技术趋势。其中第七个趋势提到，2035年全社会的算力总量将增长10万倍，计算领域将催生新型计算的全面兴起。
在18日的演讲中，华为轮值董事长徐直军直言：“算力过去是，未来也将继续是，人工智能的关键，更是中国人工智能的关键。”

在全球AI竞赛进入深水区的当下，算力已不仅是技术问题，更是国家战略资源。

美国凭借英伟达GPU在AI训练领域的绝对优势，长期主导全球算力格局。而中国在面临先进制程芯片制造受限的背景下，如何构建可持续、自主可控的算力体系，成为产业发展的关键命题。

基于此，华为用持续不断的努力、构架与产品，对国产AI基础设施路径做出了系统性回应。

在本次大会上，徐直军首次公布了昇腾AI芯片的未来发展规划：预计2026年第一季度推出昇腾950PR芯片，四季度推出昇腾950DT，2027年四季度推出昇腾960芯片，2028年四季度推出昇腾970芯片。

华为昇腾鲜少披露昇腾芯片进度，这是徐直军时隔六年再谈芯片进展。这一清晰的时间表，是华为在AI芯片研发上的长期投入与战略定力的体现与结果。

昇腾系列芯片自2019年推出以来，已发展为支撑中国AI产业的重要力量。特别是在美国对华实施AI芯片出口管制后，昇腾910B成为国内替代英伟达A100/H100的主力选择，广泛应用于智算中心、大模型训练等场景。

此次公布的950PR、950DT等新品，延续了昇腾架构的迭代路径，其中950PR将采用华为自研的高带宽内存（HBM）技术，标志着华为在存储、封装等关键环节的技术突破。

定位不同是，950PR专攻“Prefill”性能，后者是AI推理过程中的关键阶段；950DT则注重提升推理Decode（解码）性能、训练性能，并提升内存容量和带宽。

徐直军表示，昇腾960在算力、内存访问带宽、内存容量、互联端口数等各种规格上相比昇腾950翻倍，其将首先支持的产品形态是标卡和超节点服务器，将在2027年四季度推出。而相比昇腾960，昇腾970的FP8算力、互联带宽等要全面翻倍，内存访问带宽至少增加1.5倍，计划在2028年四季度推出。

昇腾芯片正在以几乎一年一代、算力翻倍的速度持续推进。

全面碾压英伟达、xAI
超节点+集群，重构AI基础设施范式

面对单芯片性能受限的现实，华为选择从系统架构层面进行创新。

徐直军表示，从大型AI算力基础设施建设的技术方向看，超节点已经成为主导性产品形态，并正在成为AI基础设施建设的新常态。超节点事实上就是一台能学习、思考、推理的计算机，物理上由多台机器组成，但逻辑上以一台机器学习、思考、推理。

今年3月，华为正式推出Atlas 900超节点，满配支持384卡，最大算力可达300 PFLOPS。

此次推出Atlas 950 SuperPoD和Atlas 960 SuperPoD两款超节点产品，分别支持8192张和15488张的昇腾AI加速卡，在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先，甚至在未来多年都将是全球最强算力的超节点。

他表示，相比英伟达将在明年下半年上市的NVL144，Atlas 950超节点卡的规模是其56.8倍，总算力是其6.7倍，内存容量是其15倍，达到1152TB；互联带宽是其62倍，达到16.3PB/s。即使是与英伟达计划2027年上市的 NVL576相比，Atlas 950超节点在各方面依然是领先的。

Atlas 950超节点满配包括由128个计算柜、32个互联柜，共计160个机柜组成，占地面积1000平方米左右，柜间采用全光互联。其中，FP8算力可达到8E FLOPS，FP4算力达到16E FLOPS。

徐直军说，互联带宽达到16PB/s，这个数字意味着，Atlas 950一个产品的总互联带宽，已经超过今天全球互联网峰值带宽的10倍有余。

而基于超节点，华为同时发布Atlas 950 SuperCluster和 Atlas 960 SuperCluster两个超级节点集群，其算力规模分别超过50万卡和达到百万卡级别，是当之无愧的全世界最强算力集群。

徐直军表示，Atlas 950 SuperCluster集群，相比当前世界上最大的集群xAI Colossus，规模是其2.5倍，算力是其1.3倍，是当之无愧的全世界最强算力集群。

他说，无论是当下主流的千亿稠密、稀疏大模型训练任务，还是未来的万亿、十万亿大模型训练，超节点集群都可以成为性能强悍的算力底座，高效稳定地支持人工智能持续创新。

华为，基于实际可获得的芯片制造工艺，计算、存储和网络技术协同创新，开创计算架构，打造“超节点+集群”系统算力解决方案，弥补单芯片性能差距，实现整体算力的跃升，重新定义了AI基础设施的范式。

“灵衢”互联协议：
打破AI算力传输瓶颈

大规模算力集群的核心挑战，在于互联。

当前电互联、光互联技术都不能满足多机柜间长距离互联的需求，传统网络架构难以支撑超节点间低延迟、高带宽的数据交换需求。为此，华为基于三十年通信技术积累，推出面向超节点的互联协议——“灵衢”（UnifiedBus）。

“灵衢”协议正是为解决这一瓶颈而生。它实现了计算、存储、网络资源的深度融合，显著提升系统效率。

华为通过系统性创新，在互联协议的物理层、数据链路层、网络层、传输层等都引入了高可靠机制，重新定义和设计了光器件、光模块和互联芯片，使光互联的可靠性提升百倍、且互联距离超过200米。

同时，在大带宽与时延上，依靠多端口聚合与高密封装技术，以及平等架构和统一协议，华为实现了TB级的超大带宽，2.1微秒的超低时延。

这些技术上的突破令华为能够将万卡级芯片集成为一个整体，让超节点像“一台计算机”一样工作、学习、思考、推理。

华为宣布开放“灵衢2.0”技术规范，呼吁产业伙伴共同研发相关产品与部件，共建开放生态。

此举意在打破国外在高速互联技术上的垄断，构建中国自主的AI基础设施标准。

从芯片竞争到系统博弈
生态之争将成中美AI对决的关键

当前全球AI算力竞争，已从单一芯片性能比拼，转向系统级综合能力较量。美国仍凭借英伟达GPU+CUDA生态占据领先地位，但其优势正面临挑战。

一方面，摩尔定律放缓使得芯片性能提升边际递减；另一方面，大模型对算力需求呈指数级增长，迫使业界探索新的架构路径。

中国则在外部压力下加速自主创新。华为的“超节点+集群”模式，与谷歌TPU Pods、亚马逊Trainium集群等形成差异化竞争。

这种以系统集成和架构创新弥补制造短板的路径，正在成为后摩尔时代的重要方向。

徐直军多次强调“算力的可持续”。这不仅指硬件供应，更包括软件生态、开发者支持与应用场景适配。昇腾要真正替代英伟达CUDA生态，这是一个长期的动态的博弈的过程，仍需在AI框架、工具链、模型库等方面持续投入。相对英伟达的厚实、积淀与引领，华为需要走的路还很长。

华为全联接大会2025，本是一场华为超节点及集群算力能力全面超越英伟达和xAI的历史性时刻，但没有看到有媒体从此角度布局谋篇，这或是这场大会高调传播中的超级低调之处。

与此同时，华为提出“不是每个企业都要建设大规模AI算力”，倡导按需选择模型规模。从十亿参数模型满足端侧推理，到千亿参数支撑复杂NLP任务，企业应根据业务场景选择合适方案。这一理念有助于避免资源浪费，推动AI应用理性发展。

徐直军的演讲，既是对华为战略的宣示，也是对中国AI发展路径的思考。在全球科技博弈加剧的背景下，华为正通过芯片、架构、互联、生态的全栈创新，构建一条自主可控的AI算力之路。

这条道路充满挑战，但方向清晰：以系统性创新突破外部封锁，以开放生态凝聚产业合力，为中国人工智能的未来提供坚实支撑。

主理：王俞现撰文：谷神君；来源：元界微信号图片来源网络侵删

中国算力大逆转，华为弯道碾压英伟达、xAI

相关文章