日前,中国工程院院士王恩东表示:“中央决定对人工智能、大数据中心等新基建提速,这让智慧计算的发展进一步提速。计算力就是生产力,智算中心要成为新基建,必须满足以下三个基本要求:开放标准、集约高效和普适普惠。”
王恩东表示,智慧计算改造升级了生产力三要素,最终驱动了人类社会的转型升级。智慧计算将劳动者由人变成了人加人工智能,劳动者呈现指数增长,将数据变成了新的生产资料,从有形到无形,生生不息,越用越多,将计算力驱动的信息化设备变成了生产工具,也是指数增长,生产力得到了前所未有的解放。
伴随生产力的升级,社会基础设施也在产生变化。农业时代的基础设施比较简单,是水利、交通等;工业时代,则是我们熟悉的铁公机、电网等;那么智慧时代必将需要新型的基础设施。我们可以和电力基础设施做个类比。电力基础设施提供电力服务,其核心是生产电力的地方,就是发电厂,像三峡电站、大亚湾核电站;智慧时代的新型基础设施,要能够对外提供各种算力的服务、数据的服务和AI的服务等,其核心就是计算力的生产中心。
计算是在发展的,从最初的数值计算逐渐演变为科学计算、关键计算和智慧计算。每种计算都有相应的计算力中心去支撑。科学计算的算力中心是超算中心。承载当前企业应用、政府应用和个人应用的算力中心是数量众多的各类数据中心。当前人工智能计算需求正呈指数级增长,未来将占据80%以上的计算需求,承载这种需求的就是AI算力中心,即智算中心。
王恩东表示,智算中心要成为新基建,必须满足以下三个基本要求:开放标准、集约高效和普适普惠。开放标准,要求智算中心从硬件到软件、从芯片到架构、从建设模式到应用服务都应该是开放的、标准的;集约高效,要求智算中心的建设要有超大规模,要采用领先的技术,保证自身的先进性;普适普惠,则要求智算中心发挥基础设施的社会价值,服务大众。
一是开放标准。从开放开源的历史看,开放的边界越来越广阔,从最初的操作系统、数据库、中间件的开源到云和大数据、算法框架等基础软件的开源,再到以Risc-V为代表的芯片的开放,以OCP、ODCC为代表的计算硬件的开放。由软件到硬件,从芯片到数据中心,开放变革了IT产业的生产模式和应用服务模式,持续推动着信息技术的发展,促进了整个IT产业的生态繁荣。开源开放的IT,才是一个健康的IT。开源开放的软硬件,才是智算中心建设的需要。
开放计算带来的好处是显而易见的,以浪潮的某个大型数据中心客户为例,使用开放计算架构能够节约电力30%,系统故障率降低90%,投资收益提高33%,并且运维效率提升3倍以上,交付速度可达到每天1万台。
基础设施必然要以规模效应来实现降本增效,要能够快速建设。这就要求智算中心的建设就好比现在盖房子一样,采用预生产的、标准化、模块化的硬件来实现“装配式”建设。从标准化的节点单元,到标准化的整机柜,到标准化的微模块数据中心,再到整个智算中心,就像乐高积木一样,层层组装,快速建设。
作为基础设施,要求不同的智算中心能够互联互通。包括管理上的互操作,统一的调度分发、监控运维;业务上的互连接,包括网络打通、业务迁移等;数据上的互流通,实现容灾、数据共享等。
二是集约高效。智算中心要整体设计,理念先进。技术上,融合架构代表着数据中心体系结构的未来发展方向。融合架构从1.0到2.0,已经实现了存储资源和异构计算资源的弹性组合。现在的融合架构,正处于3.0阶段,也就是通过连接、池化和重构的技术,实现不同计算资源的协同能力,通过软件定义实现业务自动感知和资源自动重构,使计算的性能和效率大幅度的提升。
硬件层面,通过硬件重构实现资源池化。CPU与GPU、FPGA、XPU等各种加速器将更加紧密结合,利用全互联NVSwitch、CXL、Open CAPI等新型超高速内外部互连技术,实现异构计算芯片的融合;CPU之间可以通过池化融合的方式实现灵活组合,可以根据业务场景动态形成1路到多路多种计算单元;异构存储介质,如NVMe,SSD,HDD等则通过高速互连形成存储资源池。
在计算和存储资源池中,除了传统CPU、GPU等,还可以应用更多新型计算芯片、存储介质和互连技术,进一步提升数据中心的处理能力。
例如,谷歌专为人工智能设计的芯片TPU。与GPU相比,TPU采用低精度(8位)计算,以降低每步操作使用的晶体管数量,是同代CPU或者GPU速度的15-30倍。同时,TPU还可以进行池化,实现了TPU之间的高速互联,也就是TPU POD,并对外提供TPU算力服务。
存储方面,非易失内存DCPMM,既可以作为高速硬盘使用,也可以作为标准的内存使用,当作为内存使用时,其单条内存容量最大可以到512GB,使得推理作业密度提升一倍,每单位作业成本下降近50%。
互连方面,异构芯片高速互连的技术CXL、open CAPI等,实现了CPU和设备、设备和设备之间的内存共享,构建高效池化的智算中心从理想照进了现实。
软件层面,则通过软件定义,在可重构的硬件资源池基础上,通过灵活的组织,将不同的资源池组成专业的服务器、存储、网络系统,并实现资源的高效管理和调度以及数据在池化资源的灵动流转。当AI与软件定义结合后,赋予了软件定义更高级的含义。从业务上,实现了基于业务特征感知的智能资源调度,让合适的资源在合适的位置去执行合适的任务,就像我们说的让合适的人去干合适的事一样。从管理上,实现了智能化的运维,也就是智算中心的无人巡检、故障自愈等。
软件定义一个典型的趋势是软硬件协同设计,由专用芯片、FPGA处理更多的业务负载,由软件进行更智能化的管理和调度。例如,基于FPGA和NVMe组成资源池,以硬件辅助虚拟化的方式为虚拟机实例提供接近硬件性能的计算、存储、网络功能,性能损失从传统软件模拟方式的50%降低到1%左右,性价比提升25%~50%,相同条件下可以百倍加速AI作业效率。
绿色节能是永恒的话题,从传统的节点内风冷,到机柜级冷板式液冷,再到数据中心的浸没式液冷整体设计,配合余热回收、相变储能等循环节能技术,可以实现PUE接近于1的目标,打造高效清洁的绿色智算中心。
三是普适普惠。智算中心作为基础设施,要服务大众,提供算力服务、数据服务和智能服务,支撑智慧城市、智能制造、智能家居以及智能医疗等行业的智慧化转型。
但是行业用户的智慧转型,仍然存在着一个巨大的技术鸿沟,这个鸿沟里,有如何选择最合适的算法模型,有如何从软、硬件两方面对算法做性能优化,有如何对面向特定领域的智能算法进行高效敏捷的开发部署等诸多问题。要填补这些鸿沟,需要智算中心提供整合的、易用的开放服务平台。
基于智算中心先进的AI算力基础平台、AI算力调度平台、AI算法模型来打造人工智能开放服务平台,汇聚并赋能行业AI应用的开发者,加速开发各种各样的行业智慧应用,加速行业AI化、加速产业AI化。
王恩东最后表示:“智算中心,不管你看得见或者看不见,它就在那里,源源不断产生智慧时代的动力:计算力。智算中心,就是我们这个时代的动力源。”