国产智算开启“万卡”元年
|
2024年,我国智算中心建设进入全面发力阶段,最明显的感受就是万卡集群项目在加速建设。
所谓万卡集群,是指由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用来训练基础大模型。这种集群充分整合高性能GPU计算、高性能网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。
模型参数量从千亿迈向万亿、泛化能力更强,对底层算力的诉求进一步升级,是推动万卡甚至超万卡集群建设的主要动力。今年以来,不止一次听到从业者这样形容“万卡集群”:是这一轮大模型竞赛的入场券、是这一轮大模型基建军备赛的标配……走过2024,我国万卡集群究竟如何?对比国际主流厂商情况如何?
AI大模型的热潮持续蔓延,智算基础设施需求水涨船高。
小米搭建GPU万卡集群的消息引起广泛关注,其实也并不意外。当前阶段,算力集群扩张是AI技术进步的必然结果。我国智算建设仍处于窗口期,满足AI训练需求的万卡/超万卡集群仍较为短缺,特别是核心厂商的大规模/超大规模智算中心仍是稀缺资源,将是带动行业新一轮成长的重要力量。
截至今年6月,我国已建和在建的智算中心超250个。《中国综合算力指数报告(2024)》显示,过去20年间,我国智能算力需求增长超过百亿倍,这一趋势使得算力中心正朝着万卡规模迈进。
当前,火热的大模型技术和面向行业场景化的创新AI研发,都离不开算力资源的有力支撑。特别是在训练端,大模型仍延续了Scaling Law的主流技术路线:通过算力、算法、数据的深度融合与经验积累,实现模型性能的飞跃。在Scaling Law方向下,需要单点规模够大且通用的算力才能快速跟上技术演进。
万卡集群就成为了破题方法之一。这种集群将充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台超级计算机,进行千亿级甚至万亿级参数规模的大模型训练。
<与非研究院>梳理了国内主要万卡集群项目,可以看到产业多方都在万卡、甚至超万卡集群领域进行广泛布局,涵盖从芯片研发到大规模AI模型训练的多个方面,主要以四类企业为代表,包括:AI芯片企业、大型AI研发企业、电信运营商、互联网企业。
表:国内部分万卡集群项目和建设情况
(来源:公开资料、各企业官网/官微,<与非研究院>整理,2024年12月)
全球范围内,科技巨头均在加速布局超大规模的智算中心。特别是在美国市场,巨头的算力竞争门槛已达到十万卡规模,以推动在基础大模型、智能算法研发及生态服务等方面的技术创新。如谷歌推出超级计算机 A3 Virtual Machines,拥有 26000 块H100 GPU,同时基于自研芯片搭建TPUv5p 8960卡集群;Meta在2022年推出了拥有16,000 块NVIDIA A100的AI研究超级集群,2024 年初又公布2个24576 块的H100集群,用于支持下一代生成式AI模型的训练;马斯克的xAI今年7月已建成十万卡集群,并将在未来几个月内再增加10万卡。
从大模型的角度来看,今年全球头部厂商(包括谷歌、Meta、Open AI 等)发布的大模型或者新版本,性能都较去年有明显提升,这是持续拉动AI算力芯片和超大规模集群扩张的主要动力。
由于投入资源和芯片上的限制,中国厂商在十万卡方面的表现并不激进。不过,在客户快速增长的需求下,他们也在分步走向十万卡集群。目前看来,以华为、百度、字节跳动、阿里为代表的国内企业,正在探索十万卡集群的可行性。
目前,百度的百舸4.0通过HPN高性能网络、自动化混训切分策略、自研集合通信库等一系列产品技术创新,已经能够实现十万卡集群的高效管理。
腾讯今年宣布了自研星脉高性能计算网络全面升级,星脉网络2.0搭载全自研的网络设备与AI算力网卡,能够支持超10万卡大规模组网,网络通信效率比上一代提升60%,让大模型训练效率提升20%。
阿里方面也释出消息,阿里云可实现芯片、服务器、数据中心之间的高效协同,支持10万卡量级的集群可扩展规模,已服务全国一半的人工智能大模型企业。
相比BAT,字节跳动的智算布局更为野心勃勃。2024年,字节资本开支达到 800 亿人民币,而BAT总开支约1000亿人民币。更令人瞩目的是,到2025年这一数字将翻倍至1600亿人民币,其中900亿用于AI算力采购,700亿投向数据中心基础设施建设及配套硬件。第三方研究机构测算,以400T(FP16)AI算力卡为标准,字节当前的训练算力需求约为26.73万张卡,文本推理算力需求约为33.67万张卡,未来,潜在的推理算力需求有望达到230万张卡以上。
传统云计算时代,基础设施是以CPU为核心的体系,核心点是极致弹性、极致性价比,最大的驱动力往往是提效降本。到了大模型时代,基础设施转向了极致高密、极致互联与极致规模,这是一个全面追求技术创新,驱动整个业务大发展的阶段。
国产十万卡集群的建设,绝非易事,涉及技术突破、战略合作等众多产业难题,需要一个逐步推进的过程。从当前万卡集群的建设经验来看,充分发挥集群的性能与效率是核心突破点。
针对大模型分布式训练场景,集群规模的线性提升无法直接带来集群有效算力的线性提升,卡间和节点间的互联网络、软件和硬件的适配调优是追求集群极致有效算力的关键挑战。
这是因为训练领先的大模型需要超万卡规模集群。但是,就像“多人多足”游戏,要整齐划一地实现像一个人一样行走并不容易,更何况是要调度上万张卡作为一个整体高效工作、实现性能的线性扩展、保障任务不间断,这对集群的设计、调度、容错都是巨大挑战。
可以把集群有效算力分解为GPU利用率和集群线性加速比两个指标来看待。其中,GPU利用率主要由芯片架构、制程、内存、I/O访问瓶颈、卡间互联带宽等因素决定;而集群线性加速比则取决于节点间的通信能力、并行训练框架、资源调度等因素。这其实意味着,即使先进万卡、十万卡GPU在手,仍需要优良的系统工程方法,来对集群进行精细化的设计和软硬件的全栈整合优化。除此之外,还要应对高能耗挑战、建设运维的挑战等等。
目前对于十万卡集群的建设挑战,百度总结得较为客观,认为主要包括:跨地域部署、多芯混训以及集群稳定性等难题。特别是多芯混训,既是发展难题,也是我国十万卡集群的必经之路。
国内构建超万卡集群面临着一个非常现实的困难——芯片。
对于国内市场来说,十个大字可以总结英伟达的算力卡供应,就是“想卖卖不到,想买买不到”,这十个字不仅扎心地伴随了我国大模型产业的崛起,还将继续横亘在接下来的产业道路上。
我国服务器厂商其实早已开始积极推进多元异构、多芯混合的策略,比如浪潮信息。随着AI大模型的不断增长,算力资源紧缺,也推动了互联网厂商开始实施多芯混合战略。一方面,多芯混合可以提升训练速度、更好地利用内存、降低昂贵GPU的使用成本;另一方面,在我国高端算力芯片获取受限的情况之下,多芯混合策略能够降低对高端GPU的依赖,缓解芯片供应链问题,进一步驱动国内算力产业的增长。
目前,包括百度、阿里、无问芯穹、中国移动在内的互联网厂商、算力运营商以及电信运营商等,正在破解这些难题。
在多芯混训方面,百舸能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。当业务提交工作负载时,可自动进行芯片选型,依据集群剩余的芯片资源,选择性价比最高的芯片来运行任务,从而最大化地利用集群的剩余资源。最终,可实现高达95%的万卡多芯混合训练效能。
无问芯穹已经发布了全球首个千卡规模异构芯片混训平台,具备万卡扩展性,支持包括英伟达、AMD、华为昇腾、天数智芯、沐曦、摩尔线程六种异构芯片在内的大模型混合训练,性能损失最小低于10%。
中国移动的“芯合”异构混合并行训练系统 1.0,可支持多品牌万卡集群。该系统具备基于非均匀计算任务切分ITD算法的3D并行策略和基于GDR(GPU Direct RDMA)的异构芯片高速通信能力,能够提升训练效率。中国移动的合作伙伴涵盖华为、瀚博、澎峰等企业。
超万卡集群建设不仅是对我国智算产业需求的响应,更是对AI技术发展路径的预判。如今,在科研、汽车、教育等领域,智算基础设施已经成为不可或缺的战略支撑。
通信运营商、互联网企业、大型AI企业、AI初创企业等均已争相迈入“万卡”集群时代,市场需求的不断增长的和他们下一步的技术革新,都将成为我国超万卡集群建设的重要动力。可以预见的是,在万卡向十万卡迈进的过程中,如何保持智算集群的线性度、稳定性,同时保证调度的效率,是从业者将持续关注的重点。
如果说2024年是我国万卡集群的元年,2025年,你看好十万卡集群的到来吗?
版权声明:本文为四方维原创内容,著作权归四方维所有。未经四方维书面授权,不得以任何方式加以使用。