Top
首页 > 正文

AI大模型需求高企 助推“东数西算”加速发展

以ChatGPT为代表的AI大模型应用的训练、优化和推理应用涉及数据处理、模型设计、调参、评估等多个环节,其中参数约为1750亿个,我国目前的AI大模型应用的参数基本与其保持同数量级,也有部分模型超过万亿参数,对应的算力需求远超以往任何应用。面对如此惊人的需求,我国算力体系能否满足?
发布时间:2023-05-22 13:59        来源:数字经济杂志        作者:高丹

以ChatGPT为代表的AI大模型应用的训练、优化和推理应用涉及数据处理、模型设计、调参、评估等多个环节,其中参数约为1750亿个,我国目前的AI大模型应用的参数基本与其保持同数量级,也有部分模型超过万亿参数,对应的算力需求远超以往任何应用。面对如此惊人的需求,我国算力体系能否满足?

近日,由美国人工智能公司OpenAI发布的AI大模型应用ChatGPT引领强劲风潮。除了交互外,ChatGPT还具备理解用户输入的要求来撰写邮件、视频脚本、文案、翻译、绘图等功能,且多数任务完成的速度和质量接近专业人士,有望极大提升某些行业效率,需求巨大。为抢占巨大市场份额,我国科技巨头也纷纷发布或研究对标ChatGPT的AI大模型应用。

以ChatGPT为代表的AI大模型应用的训练、优化和推理应用涉及数据处理、模型设计、调参、评估等多个环节,其中参数约为1750亿个,我国目前的AI大模型应用的参数基本与其保持同数量级,也有部分模型超过万亿参数,对应的算力需求远超以往任何应用。面对如此惊人的需求,我国算力体系能否满足?“东数西算”作为优化提升我国算力体系的重要工程,全面启动已逾一年,未来能否满足AI大模型应用的算力需求?AI大模型又对“东数西算”工程提出了哪些新要求?

AI大模型应用对智算算力的需求巨大

ChatGPT年算力需求总量约为80EFLOPS,对GPU依赖极大。ChatGPT算力由训练、优化和推理应用需求构成。ChatGPT官方数据显示,训练阶段ChatGPT总算力消耗约3.6EFLOPS,考虑优化和推理应用可视为实践阶段的训练,且按用户访问数量按月呈线性增长,因此所需算力之和平均单月达6.3EFLOPS,目前ChatGPT全年需近80EFLOPS的算力供给。

与此同时,由于当前GPU最擅长大规模向量、张量计算,对于模型训练、推理场景的处理能力更强,而以CPU为代表的通用算力进行模型训练不仅速度慢,同时占用过多内存等资源(以处理样本量为10000的矩阵计算为例,GPU要比CPU快近50倍,且随着样本量增加,差距还将以近似指数增长的速度快速拉大)。因此ChatGPT的需求基本为GPU提供的智算算力。

我国已发布AI大模型应用的算力需求约为120EFLOPS,也均需要GPU提供智算算力。我国AI大模型应用呈“百花齐放”态势,截至2023年4月,已有6款产品发布,到6月预计将有近50款产品发布。考虑我国已发布的AI大模型应用尚未完全产品化,因此参考ChatGPT参数数量对应的算力需求,测算已发布产品的训练阶段所需算力,将超过50EFLOPS;参照ChatGPT在优化和推理应用阶段平均每月所需算力,测算已发布产品所需算力,将超过70EFLOPS。此外,当前我国AI大模型应用的训练均采用GPU芯片提供的智算算力。

AI大模型应用持续迭代带来的算力利用效率大幅提升,一定程度上控制了算力需求。由于缺少应用实践的经验,AI大模型应用的落地(训练)对算力的需求巨大,但在产品化普及(优化和推理应用)的过程中,随着面向应用需求的模型持续迭代,算力利用效率有望大幅提升。如2023年3月,百度的产品文心一言开启内测一个月以来,已完成4次模型的升级,算力利用率提升了1倍。因此,尽管初始阶段算力需求巨大,但随着用户与厂商的良性互动带来的模型迭代,后续训练、优化和推理应用所需的算力将维持在一个相对稳定的水平,不会保持线性增长。

我国智算算力尚不能完全满足AI大模型需求

以ChatGPT为代表的AI大模型应用加速推广普及,标志着大模型时代的到来,一方面使得智算算力规模的需求快速提升,另一方面也对不同地区算力协同提出了新要求。2020年以来,我国加快构建全国一体化大数据中心协同创新体系,打造数据中心、云计算、大数据一体化的新型算力网络体系。在此过程中,各算力枢纽的作用突出。2022年2月,“八大枢纽、十大节点”的“东数西算”工程全面启动,截至目前已逾一年,虽然有效提升了我国算力整体规模和智算算力比重,但仍难以满足AI大模型的需求。

我国算力总规模持续提升。“东数西算”工程的实施加速我国东西部数字经济协同发展,有助于实现算力和应用的合理配搭和梯次布局,从而进一步丰富算力应用、提升算力总规模。2022年,全国八大算力枢纽新建数据中心规模超110万标准机架,其中西部地区新建规模超过60万标准机架,对东部地区算力需求的支撑作用越发明显。东西部地区算力协同发展态势持续向好,预计2023年我国算力总规模有望突破200EFLOPS,增速显著,为智算算力提升提供了必要前提。

当前,我国智算算力水平满足AI大模型应用的压力仍较大。从算力结构来看,我国通用算力占比近80%,智算算力等其他算力占比偏低,而ChatGPT类AI大模型应用的算力需求均为智算算力,因此为适配应用需求,我国算力结构有待优化,有待按需提升智算算力比重。“东数西算”工程将自动驾驶、AI推理训练、工业互联网等低延时业务产生的“热数据”集中在东部地区就近利用,而后台加工、离线分析、存储备份等时效性需求不高的“冷数据”传输至西部进行处理,为地区算力供给向需求侧的优化,特别是提供智算算力的GPU服务器占比提高创造必要的条件。

到2023年,我国算力总规模预计达到200EFLOPS,其中智算算力将近40EFLOPS。但我国已发布AI大模型应用对智算算力需求约为120EFLOPS,且模型迭代带来的算力利用效率的提升很有限。因此,从短期来看,当前我国智算算力供给水平不能完全满足AI大模型应用的需求。

1

‖图1:2019-2025年中国算力总规模(换算为FP32)及预测

来源:赛迪顾问

“东数西算”三大重要举措有望有效提升我国智算算力水平

尽管当前我国智算算力存在“供不应求”的情况,但未来情况较为乐观。“东数西算”工程全面启动一年多来,各算力枢纽节点集聚效应初显,新型算力网络体系建设初见成效。未来,提高数据中心上架率、强化算力设施协同、提速算力绿色转型将成为重要举措,带动大量潜在算力的开发利用,智算算力供给能力将进一步提升,以支撑AI大模型应用等算力关键应用落地。

提升数据中心上架率有利于提升智算算力供给水平。“东数西算”工程启动后,各枢纽节点的数据中心建设目标数量较大,有算力供过于求的风险。如西北和西南地区2022年数据中心上架率均在30%-40%,现阶段存在空置现象。随着国家各算力枢纽节点、数据中心集群等持续强化政策引导和要素保障,特别是西部地区发力数据采集、清洗、挖掘等服务环节,有望提高数据中心上架率,形成健康的算力供需关系,从而持续提高智算算力整体水平。

强化算力设施协同有利于提升对智算算力应用需求的适配水平。“东数西算”工程使得各枢纽节点加大了投资建设算力基础设施的力度,但目前各枢纽节点之间缺少任务协同和资源共享机制,算力基础设施存在“忙闲不均”现象,算力有较大合理调度和均衡的空间。未来,我国算力调度机制持续优化,东西部地区算力基础设施的异构化体系结构打通、软硬件的兼容性提升、数据资源接口统一等得以实现,从而形成统一的算力资源池,对于AI大模型应用等大规模智算算力需求的适配水平将极大提升。

提速算力绿色转型有利于可持续的智算算力应用落地普及。“东数西算”工程推进过程中,算力的绿色转型地位重要。按2023年1月ChatGPT的训练及运营情况,消耗算力对应的耗电量超过了20亿千瓦时,而随着模型迭代、参数量扩大、日活人数增加,AI大模型应用带来的耗电量将呈指数级增长,因此算力的节能降碳势在必行。随着液冷等技术降低IT设备能耗、使用新能源绿电奖补等配套政策出台、配置一定比例的储能系统分布式可再生能源发电设施投入使用,我国算力绿色转型步伐加快,助力低能耗、低碳排放的可持续的智算算力应用落地和普及。

与此同时,我国尚有大量潜在算力有待开发利用。当前,AI大模型应用所需的智算算力只有数据中心可以提供。从目前我国算力供给能力来看,支撑几十种AI大模型技术产品存在较大压力,但考虑到当前数据中心上架率有较大提升空间,算力供给能力有望进一步提升。如到2025年,“东数西算”各起步区数据中心的平均上架率不低于65%,意味着西部地区平均上架率近30%的提升后,仍有较大的潜在算力空间,东部地区平均上架率将达到更高水平,同时智算算力有望快速借此机会加快部署,响应AI大模型应用的需求。

基于上述分析:算力供给方面,未来三年,在当前上架率水平下,预计我国智算算力比重将接近30%,假定东西部地区上架率均有提升,新增部分潜在智算算力;算力需求方面,按当前水平,我国AI大模型应用的智算算力利用率按每年提升25%计算。预测智算算力供给及需求情况如下图。

2

‖图2:2023-2025年中国智算算力供给及生成式AI应用需求预测

来源:赛迪顾问

由图2可知,在上述假定成立的前提下,尽管2023年我国智算算力供给不能满足AI大模型应用的需求,但自2024年起,智算算力可以较好地满足其需求。AI大模型应用爆发的机会点分析AI大模型应用的落地和普及将助力我国算力体系,特别是智算算力发展。在此背景下,有效降低训练成本的人工智能软件、高效算力应用的GPU专业训练卡和液冷技术将迎来发展机会,建议重点关注。

人工智能软件。AI大模型应用训练、优化和推理应用的算力需求巨大,而人工智能软件可有效提升算力利用效率,如当前TensorFlow和PyTorch等软件框架可实现在分布式系统上以高性能训练上百亿参数的模型。除了上述开源软件外,定制化人工智能软件将迎来发展风口。

专业训练卡。目前AI大模型应用依赖GPU训练卡,效率和成本都有较大提升空间。未来,专攻垂直场景应用需求、提升其算力利用效率,且成本可控的国产GPU训练卡具有较好发展前景。液冷技术。随着“东数西算”工程推进,我国新型算力网络体系加快形成,加上AI大模型应用需要的智算算力快速发展,数据中心部署密度将大幅上升。为响应低碳绿色要求,液冷将成为部署高密数据中心的关键技术。(文︱高丹 赛迪顾问业务总监袁钰赛迪顾问电子信息产业研究中心)

 

每日必读

专题访谈

合作站点
Baidu
map