“到2019年10月,经过三年多的转型,英特尔‘以数据为中心’的业务营收在上个季度(2019年Q3)已经与PC业务持平,这是非常大的变化。”在近日举办的英特尔技术创新媒体沟通会上,英特尔中国研究院院长宋继强晒出了其数据中心业务的成绩单。
异构计算渐成趋势
与通用计算相对,异构计算面向专业化、客制化的计算需求,在计算任务中应用CPU、GPU、ASIC、FPGA等多种计算架构,被视为更适合后摩尔时代的计算方式。
产业界不断加码异构计算,是因为从20世纪90年代至今,数据的量和质都发生了巨大的变化。2000年之前的Web1.0,计算设备以PC为主,数据类型以结构化数据和图形数据为主。到了Web2.0时代,用户从被动获取数据走向主动产生数据,服务器和PC同等重要,催生了云生态。到Web3.0,IoT让更多设备入网,产生的数据被AI深度挖掘,转化为业务价值。AI在训练、推理过程中产生大量元数据。随着IoT传感器越来越多,还会产生大量自然描述的数据。
来自端、边、云,对延时、成本、算法有着不同需求的数据,正在驱动计算架构的演进和扩展,异构计算渐成趋势。CPU适合标量运算,GPU可用于矩阵运算或者加速器,ASIC等定制的可编程硬件可作为AI专用的加速器。空间运算,即在矩阵中用最少的路径计算,可以用FPGA实现流程定制,这些架构构成了异构计算的常用组件。宋继强表示,在CPU和嵌入式GPU的基础上,通过对FPGA厂商Altera、ASIC厂商Nervana、结构化ASIC厂商eASIC等厂商的收购,英特尔已经掌握了CPU、GPU、ASIC、FPGA四种不同架构。
超异构计算面向下一个十年
在异构计算的基础上,英特尔提出了“超异构计算”,即采用多功能、多架构的芯片处理和加速不同的运算负载,采用封装集成技术将计算单元封装在一个SoC,并具备统一异构计算软件的计算架构。在异构计算的基础上,避开异构计算的短板,实现计算最优化,是超异构计算的意义所在。
除具备多种计算架构,超计算架构还需要封装和统一的计算软件。为此,英特尔推出了封装级别的异构整合方案和跨计算架构的软件平台。
英特尔的异构整合方案主要有2.5D封装EMIB和3D封装Foveros。EMIB泛用性更好,性价比较高,而Foveros相对昂贵,多用在小尺寸、低功耗、高性能的异构芯片中。
统一的异构计算软件平台,是为了提升编程效率,解决不同架构有着不同的汇编语言和调优方式的问题。英特尔的one API平台隐藏了硬件复杂性,根据系统和硬件自动适配功耗最低、性能最佳的加速方式,简化并优化编程过程。
在此基础上,英特尔推出了Aurora超级计算机架构。Aurora包含one API,采用Foveros 3D封装,配置了2个英特尔至强可扩展处理器、6个基于CXL标准的GPU,采用7nm制程。宋继强表示,Aurora是“一个典型的超异构计算”,面向百亿亿次级的计算需求。
神经拟态量子计算驱动未来计算
在媒体沟通会上,宋继强抛出了一个问题:如何实现超过1000倍的计算效能提升?从标准计算到深度神经网络,再到神经拟态,千倍计算效能的提升需要“另辟蹊径”。英特尔的探索方向是神经拟态计算和量子计算。
神经拟态计算是真正模拟人脑的计算方式。宋继强表示,人脑计算有两个特点,一是事件驱动,二是输入多种互相关联的信号。“神经拟态想达到的目的是利用人脑事件驱动的机制达到省电,并利用能运用多种方式去学习和训练的机制,达到跨领域的融合和相关。”宋继强说。
2017年,英特尔推出了Loihi神经拟态芯片,单个芯片有128核,可以模拟13万逻辑神经元,构成支持脉冲消息分发的片上网络。宋继强透露,英特尔已经尝试将200多个Loihi放在一起,构成1亿个神经元的计算和学习平台。“Loihi是14纳米制程,14纳米到10纳米,再到7纳米、5纳米,还有三个层级,假设每级密度提升两倍,光靠摩尔定律还可以实现8倍的密度,加上3D系统整合、芯片级3D整合技术,从1亿神经元到800多亿神经元,就不是一个梦了,只是一个时间和工程的问题。”宋继强说。
具备芯片、技术和工具链之后,英特尔建立了全球范围的神经拟态研究社区INRC,以进行更广泛的学术界、产业界合作,目前INRC已经有75家组织。
量子计算能够处理经典计算机不擅长的大规模计算问题。量子计算基于量子比特构成计算路径,在算法上,逻辑量子位可以当做稳定的量子位来使用。但是,量子计算距离商用还有相当的距离,不仅要解决量子位的数量问题,还要解决纠错、量子位之间的连接和测试问题。英特尔正在尝试基于硅电子自旋,用硅产业链去做量子计算,为量子计算打下商业化基础。“量子计算不会取代经典计算,适合在数据中心里配合经典计算的数据中心,处理组合爆炸问题,我们预计量子计算还需要8到10年来实现商业化应用。”宋继强说。