华为云Tokens服务接入384超节点：以“大杂烩”优势破解AI算力难题

【环球网科技报道记者张阳】8月27日，在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能，超过业界水平。

过去18个月，中国AI算力需求经历了前所未有的指数级增长。数据显示，从2024年初的日均Token消耗量1000亿，到今年6月底，日均Token消耗量已突破30万亿，短短一年半时间内增长了300多倍。不仅反映了我国人工智能应用的迅速扩张，也对算力基础设施提出了更为严苛的挑战。

面对这一挑战，华为云于今年3月正式推出了基于MaaS（模型即服务）的Tokens服务，该服务针对不同应用场景的性能和时延需求，提供了在线版、进线版、离线版及尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了灵活、便捷且低成本的先进算力解决方案。

华为云Tokens服务接入CloudMatrix 384超节点，标志着算力构建的一次重大飞跃。这一成就并非单点突破，而是涵盖了从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新，充分展现了华为“大杂烩”式的综合技术实力。

首先，CloudMatrix384超节点以全新的计算架构创新，突破性能瓶颈，构筑稳固澎湃的算力根基；CANN昇腾硬件使能，优化算子与高效通信策略，让云端的算力能够以最高效的方式被调用和组合；EMS弹性内存存储打破AI内存墙，突破性地实现“以存强算”，彻底释放了每一颗芯片的算力；xDeepServe分布式推理框架则以极致分离架构Transfomerless让超节点释放出更高效算力。

作为CloudMatrix384超节点的原生服务，xDeepServe的奥秘在于“拆”与“合”

它把MoE大模型拆成可独立伸缩的Attention、FFN、Expert三个微模块，相当于在一台CloudMatrix384上把“大模型”拆成“积木”，并分派到不同的NPU上同步处理任务。之后，再用基于内存语义的微秒级XCCL通信库与FlowServe自研推理引擎把它们重新拼成一个超高吞吐的LLM服务平台，即Tokens的“超高速流水线”。通过xDeepServe不断调优，最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

作为硬件加速计算的中间层，CANN包含多个算子库和和XCCL这种高性能通信库等组件，共同支撑AI模型的高效运行。其中，XCCL作为专为超节点上的大语言模型（LLM）服务而量身打造的高性能通信库，能够充分发挥CloudMatrix384扩展后的UB互联架构（UB fabric）的全部潜力，为Transformerless的全面分离奠定了带宽与时延双重硬底座。

而作为被重构的“去中心”式分布式引擎，FlowServe把CloudMatrix384切成完全自治的DP小组，每个小组自带Tokenizer、执行器、RTC缓存与网络栈，完全自给自足，做到千卡并发也不“拥堵”。

目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan等主流大模型及versatile、Dify、扣子等主流Agent平台。

华为云积累了大量模型性能优化、效果调优的技术和能力，从而实现“源于开源，高于开源”，让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说，在轻微损失画质的情况下，通过Int8量化、旋转位置编码融合算子等方式，在在华为云MaaS平台实现了2倍于业界主流平台的出图速度，最大尺寸支持2K×2K。而在文生视频大模型上，不仅通过量化方式来提速，还通过通算并行等方式，降低延迟与显存占用，大幅提升视频生成速度，相较于友商实现了3.5倍的性能提升。华为云Tokens服务在性能、模型适配、效果调优方面的基础，也让更多企业能够快速开发和构建AI Agent。

而在应用层，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。如基于MaaS平台推出的今日人才数智员工解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度；而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能，实现政企办公智能化转型。

随着以Token为动力的智能社会全面到来，华为云正以其系统级创新能力和全新的Tokens服务，为各行各业构筑先进算力，助力AI技术加速落地。