算力突围:中国式AI云的技术底牌|

2025-04-11 0 9
算力突围:中国式AI云的技术底牌|
冲破英伟达的算力封锁。

 

作者|田思奇

编辑|栗子

 

2025年春天,AI正悄然换挡。

 

从训练到推理,行业正聚焦于更加理性、务实、但竞争也更为激烈的效率较量。

 

这场转变背后是拥有160年历史,最近又被频繁提起的经济学悖论——杰文斯悖论(Jevons Paradox)。这个悖论认为:当某项资源使用效率提高后,其总消耗量非但不会减少,反而会因为需求暴增而迅速上升。

 

换句话说,AI推理变得越便宜、越高效,人们就越无法停止对它的依赖。AI算力,也正在因为“效率提升”而迎来新一轮需求井喷。

 

一个更直接的较量是,整个AI算力行业,向着突围英伟达的封锁迈出了重要的一步。

 

4月10日,华为云计算CEO张平安在华为云生态大会2025上公布了AI基础设施架构突破性新进展——发布基于新型高速总线架构的CloudMatrix 384超节点,将目光锁定一个关键命题——谁会在AI推理时代,成为更稳健的算力底座?

 

 

 

1.训练退场,算力需求重构

算力突围:中国式AI云的技术底牌|

 

2023年底,DeepSeek-MoE模型横空出世,许多AI公司的核心工程资源都从模型训练转向推理优化。这一变化背后,正是杰文斯悖论在AI行业的再现。

 

「甲子光年」认为,这种变化不仅是一种经济现象,更是一种技术范式的根本切换。过去衡量AI进展的核心指标是参数规模和训练成本——谁能训练出万亿参数大模型,谁就站在金字塔塔尖;但在推理时代,这种衡量逻辑正在被重新定义:真正能落地、可用、可控、可持续运行的AI系统,才是企业需要的“生产力工具”。

 

这一变化也重新定义了AI巨头的技术路线。

 

作为全球GPU市场的主导者,英伟达依然牢牢掌控着AI核心资源的分配权。在2025年3月的GTC大会,彰显出它试图以更极致的硬件堆叠与生态封闭性,延续自己的领先优势。

 

本次大会上,英伟达发布了代号Blackwell Ultra GB300的新一代AI芯片。该芯片配备288GB HBM3e高带宽内存,以及机架级液冷设计,FP4算力达15PetaFLOPS。此外,英伟达宣布计划于2027年发布Rubin Ultra NVL576架构,专为未来超大规模模型设计。

 

同时,英伟达推出首款开源推理软件Dynamo。在由GB200NVL72机架组成的大型集群上运行DeepSeek-R1模型时,Dynamo的智能推理优化可将每个GPU生成的token数量提高30倍以上。

 

黄仁勋解释称,推理就是生成token,这对企业至关重要。生成这些token的AI工厂必须以极高的效率和性能建造。随着最新一代推理模型能够思考和解决日益复杂的问题,对token的需求只会增长。

 

凭借这些优势,黄仁勋在现场不断强调 “AI工厂” 这一概念,力图将英伟达打造成为全球 AI 产业的核心枢纽。

 

算力突围:中国式AI云的技术底牌|

图片来源:英伟达

 

然而,这种近乎垄断的发展态势,已经引发对英伟达竞争边界的质疑。「甲子光年」在GTC大会现场注意到,有媒体向黄仁勋提问:“英伟达正在转变为一站式 AI 解决方案提供商,你们正在进入部分客户的领域,如果在某些方面成为他们的竞争对手,他们会如何反应?”

 

虽然黄仁勋强调,英伟达是全球唯一一家与所有AI公司合作的AI公司,但他们的目标很明确:将整个AI产业链进一步“固化”在英伟达的CUDA体系和GPU硬件生态之内。

 

「甲子光年」总结发现,英伟达所谓的AI产业主导权,主要体现在三个方面:

 

  • 硬件堆叠:通过持续推出超高性能AI芯片,如Blackwell Ultra和即将发布的Rubin Ultra NVL576,英伟达在AI硬件领域保持领先地位。 
  • 软件生态控制:CUDA生态系统已成为全球AI计算的核心基础设施,拥有超过600万开发者,远超其他平台。 
  • 全流程整合:通过“AI工厂”架构,英伟达将训练、推理、微调、部署全流程整合在其硬件平台内,形成技术锁定效应。

这种模式的优点显而易见:性能极致、生态完备、开发便捷。然而,它虽然为AI领域的技术发展提供了强大动力,却也带来了许多无法忽视的隐性成本。

 

首先,英伟达的硬件产品以其超高性能和精密工艺,吸引了大量高端客户,但高昂的硬件成本和对功耗、散热的严苛要求,使得许多中小型企业及部分发展中国家在AI基础设施建设上面临较大压力。

 

尤其在推理时代,算力需求增长使得对硬件设备的依赖加剧,但是因为价格昂贵、技术复杂,许多企业部署AI应用时不得不承担极高的成本。这既限制了AI技术普及,也在一定程度上抬高了行业技术壁垒,加剧了英伟达与其他厂商之间的差距。

 

CUDA生态和“AI工厂”架构形成“端到端的控制”,使得客户从模型开发到生产部署均依赖英伟达体系。黄仁勋更直言,“AI工厂的最佳性能直接决定了客户收益的百分比”,将算力供给与商业回报深度绑定。

 

因此,行业自然会萌生一个疑问:能否从架构原理开始,建立一套不依赖封闭生态、同时又能支撑大规模AI推理的新体系,从而突破英伟达的算力封锁?

 

而这或许,将引发一场更深远的产业变革。

 

 

 

2.中国破局的关键词:超节点

算力突围:中国式AI云的技术底牌|

 

中国面临的现实则更加复杂。

 

随着全球科技竞争日趋白热化,以英伟达为代表的国际科技巨头凭借先发优势,不断构筑并加高技术壁垒。在AI硬件领域,尤其是高端GPU方面,中国在很大程度上仍然依赖外部技术供应。

 

这一现状意味着,若单纯沿袭英伟达的技术路径,中国AI产业的发展将面临诸多掣肘:过度依赖单一GPU供应商,不仅会导致成本居高不下,更存在系统安全隐患,一旦外部供应受阻,产业发展将陷入被动困境。

 

华为云最新公布的CloudMatrix 384超节点已经正式在芜湖数据中心规模上线,截止目前,这是国内唯一正式商用的大规模超节点集群,可为千行万业提供澎湃、稳定、高质量的算力支持,这一举措也正在推动中国AI产业突破算力封锁困境。

 

不夸张地说,对于中国算力产业而言,这一次华为云CloudMatrix 384超节点,可以算得上是世界级的创新突破。

 

不同于单点技术突破,系统级架构创新突破的难点在于对复杂技术与资源的整合与协同,而这一架构创新也更匹配全面智能时代的企业创新需求,也正在引领中国AI产业生态的全面突围。

 

华为云构建昇腾AI云服务的根基,是全栈自主创新的算力底座。

 

这一底座整合了算力、自研AI框架MindSpore、开发平台ModelArts以及弹性云服务,各组件紧密配合,软硬协同优化,将AI算力以标准化服务的形式输出。

 

企业借助华为云,可便捷获取即开即用的AI算力,无需自行搭建复杂的本地集群,极大降低了AI应用的门槛和部署成本。

 

支撑这一服务体系的核心技术,便是华为云自研的CloudMatrix架构。在传统通用云服务架构逐渐逼近资源调度极限的背景下,CloudMatrix架构创新性地重构了算力的组织逻辑。其核心理念是从“堆芯片”走向“拼架构”,通过 “一切可池化”“一切皆对等”“一切可组合” 的方式,实现了业界领先的性能和可靠性。

 

这一举措打破了以往硬件单元相互孤立的局面,实现了资源的按需灵活组合与动态调度,使得算力资源能够根据不同的业务需求进行高效配置,显著提升了资源的利用效率。

 

作为CloudMatrix架构中的基础计算单元,超节点(SuperPoD)是这一架构落地的物理实现形式

 

算力突围:中国式AI云的技术底牌|

图片来源:网络

 

在单节点规模方面,超节点打破常规限制,利用新型高速总线将原本独立的单节点8卡昇腾服务器紧密互联,构建成强大的单一超级云服务器。这一创举使得算力规模实现了质的飞跃,提升幅度高达50倍,达300Pflops,相比业界同类产品领先优势明显,性能提升67%。

 

与DeepSeek现有的MOE结构相比,超节点也展现出独特的优势。

 

DeepSeek的MOE结构是一个由众多 “专家” 组成的团队,每个 “专家” 擅长处理特定任务,在传统8卡英伟达服务器上通过增加 “专家” 模块来提升性能,类似于医院增加不同专科诊室与专家以接待更多患者。但这种方式在实际应用中,部署过程极为复杂,如同搭建大型医院需考虑科室布局、设备安置及人员调配等诸多复杂因素,任何环节出错都可能影响系统运行效率。

 

而超节点采用全新架构设计,无需像DeepSeek那样增加 “专家” 模块,而是通过自身独特架构实现计算资源的高效整合与调度。它就像从建筑设计之初便充分考虑各功能区域协同运作的现代化综合医疗中心,各个科室间信息流通与资源共享顺畅,无需额外复杂布局就能轻松应对大量不同类型任务需求,尤其是在推理大模型应用中优势明显。

 

CloudMatrix 384超节点集具备“高密”、“高速”、“高效”的优势,通过架构的全面创新,已在算力、互联带宽、内存带宽方面实现全面领先。

 

在有效算力提升上,超节点借助超高带宽Scale – Up新型高速总线网络,实现了从 “传统以太网” 到 “共享总线网络” 的重大跨越,资源互联带宽提升10倍以上。超节点的内存(HBM)带宽达到1229TB/s,为业界的2.13倍。

 

硬件性能的大幅跃升,使得AI训练过程中的数据传输更为高效,模型能够快速获取所需数据进行运算,有效降低了训练出错概率。在断点恢复方面,超节点表现突出,断点恢复时间仅为10秒,而行业平均水平长达13分钟

 

可靠性上,基于CloudMatrix架构,昇腾AI云服务可助力大模型训练作业稳定运行40天,远高于行业平均的2.8天。同时,昇腾AI云服务具备秒级故障监控能力,可实时监测系统运行状况,一旦检测到故障,能在10分钟内自动恢复训练作业,而业界平均恢复时间为60分钟。

 

软件层面,昇腾云充分发挥自身深厚的技术积累和研发优势,持续优化CloudMatrix架构。通过不断调整架构设计,使其与持续升级的昇腾芯片深度适配,实现了软件与硬件的高度协同,极大提升了算力资源的管理与调度效率,进而优化了整体性能。这种软硬件深度融合的创新模式,使昇腾云在AI硬件领域逐步构建起独特的竞争优势,有力推动了中国AI产业的自主创新发展。

 

「甲子光年」认为,AI领域,真正提升AI效率的并非仅依赖某颗芯片的绝对性能,而是芯片、框架、调度器之间的协同效率。尽管在GPU通用性和高精度计算方面,英伟达仍处于行业领先,但昇腾云通过系统性工程创新,构建了差异化竞争优势。

 

在昇腾云体系中,底层算力、MindSpore框架以及基于CloudMatrix架构的调度器紧密协作。MindSpore框架针对昇腾芯片深度优化,充分发挥芯片计算能力,实现了高效模型训练和推理;CloudMatrix架构下的调度器则依据不同应用需求,智能调度算力资源,确保资源合理分配与高效利用。

 

在特定AI场景,如边缘推理中,昇腾云通过软硬件协同优化,展现出卓越的性能优势。边缘推理场景对设备本地数据处理速度、实时性和能耗控制要求极高。昇腾云针对这些特性,对模型进行针对性优化,减少数据传输延迟,降低能耗,有效满足了边缘推理场景的严苛需求。

 

此外,昇腾云重视单位功耗优化,持续在低功耗条件下提供高效推理服务,帮助广大企业在控制成本的同时,充分享受AI技术带来的红利。

 

这种精准定位市场需求的优化策略,使昇腾云在激烈的市场竞争中找准切入点,成功塑造差异化竞争优势,为中国AI产业在复杂严峻的国际竞争环境中,开拓出一条独具特色的创新发展道路。

 

 

 

3.推理时代的价值验证

算力突围:中国式AI云的技术底牌|

 

如果说“训练时代”的关键词是“突破极限”,那么“推理时代”的核心则是“产业落地”。

 

从算法迭代、模型构建到真实场景部署,AI的演进正从实验室走向实际应用。谁能率先完成从模型研发到应用上线的闭环,谁就能在这轮技术迁移中取得先发优势。

 

在这样的市场环境中,如何构建“用得起、用得好”的AI云服务,成为国产平台的核心命题。AI技术的普惠性是基础,但要真正实现AI的广泛落地,还需要在行业应用层面深入发力,解决实际需求的多样化与复杂性。

 

在这场转变中,昇腾AI云服务扮演着连接算法能力与行业需求的关键角色。依托自研芯片、框架与平台,昇腾云打造出覆盖全链路的自主技术体系,为各行业的智能化建设提供了基础支撑。

 

这一过程绝非单兵作战。昇腾云已携手科大讯飞、奇瑞、新浪微博等头部企业,构建了涵盖模型开发与场景落地的生态闭环

 

除了华为的盘古大模型,昇腾AI云服务还持续适配第三方模型,截至目前已适配行业主流160多个大模型,协助客户开发,训练,托管和应用模型。昇腾AI云服务上线以来,面向政府、金融、零售、互联网、交通、制造等行业已经服务六百多家的创新先锋企业。

 

此外,与硅基流动和DeepSeek的合作,也被认为是国产模型与国产算力结合的代表案例。DeepSeek模型满血版现已上线昇腾AI云服务,并基于昇腾AI云服务的全栈优化适配。

 

算力突围:中国式AI云的技术底牌|

 

该服务在保证单用户20TPS水平前提下,单卡Decode吞吐突破1920Tokens/s,比肩英伟达H100的部署性能。同时经过主流测试集验证及大规模线上盲测,在昇腾算力部署DeepSeek-R1的模型精度与DeepSeek官方保持一致。

 

算力突围:中国式AI云的技术底牌|

华为云计算CEO张平安 图片来源:网络

 

同时,张平安在华为云生态大会现场介绍,在全球,华为云开服节点已经覆盖了全球33个地理区域,96个可用区,在中国也完成了贵安、乌兰察布、芜湖三大云核心枢纽布局,这也是目前全球最大规模、最新技术、最高规格的数据中心与算力中心,通过这些布局,华为云实现了国内30ms,海外50ms时延圈,构建全球存算一张网。

 

换言之,昇腾云的目标是:构建一个像电网一样普惠的AI基础设施。

 

然而,从 “用得上” 到 “用得精”,AI落地难点在转移。「甲子光年」观察到,不同行业高度异构与定制化,通用大模型难以覆盖复杂场景,场景适配能力”正成为模型部署成败的关键因素。

 

昇腾云基于芯片、框架、工具链与云平台协同,为行业场景提供定制服务,实现模型快速适配、上线,形成与客户的稳定绑定,构成重要的护城河。

 

在全球科技博弈下,昇腾云亦摆脱外部生态依赖,保障数据、供应链安全,为国内企业提供安全可信的基础设施。

 

面对激烈的市场竞争和复杂的行业需求,昇腾云的目标和策略已经明确:

 

不求短期性能超越和简单替代,而在于通过系统性创新,专注长期可用性与工程落地能力;不止追求技术自主,更关注实际产业需求的契合;最终构建支撑行业智能化应用规模化落地的AI“第二选择”。

 

毕竟,推理时代的竞争,不只是算力之争,更是稳健性、适配力与技术独立性的综合比拼。

 

而这些,正是昇腾云正在交付的答案。

(文:甲子光年)

收藏 (0) 打赏

感谢您的支持,我会继续努力的!

打开微信/支付宝扫一扫,即可进行扫码打赏哦,分享从这里开始,精彩与您同在
点赞 (0)

创奇社 行业动态 算力突围:中国式AI云的技术底牌| https://www.cqshe.com/021353.html

常见问题

相关文章

发表评论
暂无评论