英特尔宋继强:“东数西算”需异构计算做底层支撑

来源:中国电子报

点击:2708

A+ A-

所属频道:新闻中心

关键词:异构计算



    当今社会,新兴技术和应用不断涌现,无论是以数据中心和云计算为代表的高性能计算应用,还是以手机为代表的消费类应用,对处理器算力的需求都越来越高,且要处理的信息也越来越复杂,单一类型的架构和处理器已经无法胜任。既要保证算力和性能,又要具备多类型任务的处理能力,还要控制好功耗和成本,满足以上要求的异构计算已然成为解决算力瓶颈的重要方式,为计算带来全新可能性。近日,英特尔研究院副总裁、英特尔中国研究院院长宋继强接受了《中国电子报》记者独家专访,发表了对异构计算未来发展方向的看法。


    异构计算面临三大瓶颈


    《中国电子报》:异构计算当前的市场发展情况是怎样的?有哪些亟待突破的技术难点?


    宋继强:异构计算目前面临几个瓶颈。一是技术设计流程的协同问题。如果做一个不带Chiplet先进封装的芯片,如SoC,所有的设计都可以在前端设计软件里完成,再到后端工艺流片。但如果未来这个芯片要与其他不同厂商的芯粒一起互联互通,协同工作,为了保证电和传输通路不出现问题,在开始协同工作前,可能需要进行TSV(硅通孔)。这就需要提前知道这个芯片是否要打孔?怎么打?留多少空间?这些问题都会影响到包括后端设计软件和前端设计的整个设计流程,和现在的设计流程不太一样。


    二是需要统一各个厂商芯粒之间的互连标准。未来全球各大芯片制造商、科技巨头的芯粒可能会集成在一个芯片上,目前它们相互之间的互连标准并不统一,不同的厂商有不同的设计标准,所能支持的速率、间距、功耗等都不一致,各个厂商之间还并没有做好互联互通的准备。最近英特尔携手其他企业,推出了UCIe标准,未来就可以把不同厂商的芯粒连到一起,形成一个符合要求的、大的、封装级的集成芯片。


    三是软件层面要过关。有的芯片需要编程才能更好地使用,这就是英特尔跨平台、开放的编程模型oneAPI能带来的好处,不同厂商的计算芯片之间怎么样去做出最好的I/O、内存的通道,这些在英特尔oneAPI的底层库里都有体现。


    综合来说,我觉得异构计算在技术方面、互连方面和软件方面都面临瓶颈,仍然没有达到未来的要求,所以英特尔oneAPI仍将继续演进。


    《中国电子报》:异构计算是否会成为下一个全球竞争点?英特尔未来在异构计算方面会有怎样的布局呢?


    宋继强:异构已经成为了新的全球竞争点。现在主流的芯片供应商,都想把异构的布局变得更加完整。想要在异构竞争中脱颖而出:一是要有不同架构积累;二是在不同的工艺节点上有不同的资源可以去利用;三是提前布局和规划封装级别的技术。异构需要布局架构、生产工艺以及封装技术,这都是为了建立未来更加完整的异构生态。因为生态里会包含不同架构的IP模块或芯粒模块,在不同的制程工艺上,能以最好的性价比去生产这些模块,还要能够用最标准的方法把它们串连起来;四是需要有一套方便且好用的软件,只需上层应用者指定功能需求,下层就可以随着异构变化自动取迁移。


    异构是“东数西算”的底层支撑


    《中国电子报》:您觉得“东数西算”工程会为芯片产业带来什么样的作用?您对“东数西算”工程有怎样的实施建议呢?


    宋继强:“东数西算”是非常棒的工程。首先,这个工程非常精准地看到了未来在数字化转型之后,所需要的大量算力,而算力本身又分成很多种,并不是建一个大的计算中心就能解决所有问题。所以要先将算力网给搭建起来,按照数据的产生和算力的使用情况,基本上就形成了一个比较完美的布局。


    “东数西算”希望能实现节省电力,因为东部应用较多,产生的数据就会很多,但东部的电、地等开销较大,建数据中心的成本高。西部用电用地便宜、绿色,更适合建大的数据中心。把数据从东部送过去算好了之后再送回来,这个概念非常好,但中间也会遇到一些问题。因为应用是多样化的,有一些应用可以支撑传输的延时,有一些应用则无法支撑。


    所以在建设前需要考虑几个基础前提:一是要把算力网络的综合延迟降低,面对多种不同的算力,如何将它连好,连好之后如何快速、灵活地迁移负载;二是为了满足实时性的要求,比如做需要支持实时支付、支持智能驾驶的业务,就不能把数据传到西部算完了再回来,所有还得在最发达的数据产生的地方去建数据中心,尤其像长三角地区等应用量大的地区。这与英特尔此前提出的边缘计算是一个概念,不可能什么计算都依赖远处的算力支持,有一些还是需要划分在本地区做运算。


    “东数西算”是一个非常好的构思和非常大的概念,在它具体实施的时候,要考虑区分不同的工作负载、网络延迟以及如何在未来开发这方面的应用时更加透明。比如这个应用需要什么样的加速,需要多长时间的延迟,它能否进行自动分配。如果未来编程人员还要去想:我需要保证QOS(服务质量)到什么地步?如果保证不了应该怎么办?这些问题会给编程人员带来很大的负担。假设编程人员把需求提出来时,系统就能自动满足,这对软硬件系统有很强的QOS(服务质量)要求。


    异构计算方面,这种大型的计算中心内部,CPU、GPU、FPGA、DPU、专用加速器等,对处理不同种类的工作数据各有优势与劣势,也有运营成本高低之分,所以未来一定要综合部署,多种架构可能都需要涵盖,而且要有机联合起来。


    算力是指标,但性能更重要


    《中国电子报》:英特尔在异构计算领域是否有了新的研发进展?突破了哪些技术瓶颈?会对算力带来怎样的提升?


    宋继强:首先,在架构方面,英特尔已经拥有了非常多的种类,比如通用计算有使用x86架构的性能核、能效核这种不同种类的核。英特尔在通用处理器里,还会适度增加专用加速器,比如有专门针对AI加速的,也有专门针对安全特性等加速的,提供可选的、具有独特性的加速硬件配置。


    其次,英特尔在图形(Graphics)大规模并行处理的架构方面,可以很灵活地组合小的芯片形成集群,再由多集群组成大的计算芯片,并且根据要求去分级。


    最后,IPU现在已经逐渐往主流方向发展,做法也变得多种多样,比如想要偏向卸载计算,就可以将网络管理、虚拟化、存储管理相关的计算进行分别卸载。


    所以在异构计算领域,会越来越精细地去拆分那些特性不同、要求不同的工作负载,然后逐渐统一化、标准化。未来的异构要根据不同的场景、数据种类和处理的延时、带宽要求进行设计,在这个新的发展趋势下,可以看到在CPU和GPU之外,会有更多种类的“PU”出现。


    算力是一个指标,它可以将一个比较复杂的事情简单化,可如果只去看芯片上足电运行时,能提供多少算力,客户是不会仅凭这个算力购买的,还是更看重性能。且单单只提算力也对现在提倡的“绿色计算”不是一件好事。


    英特尔的优势在于,首先,技术基础稳固且强大。英特尔在架构、制程工艺上都积累了很强的基础,并且在全新IDM2.0战略领导下,可以看到英特尔在架构和制程工艺两方面迭代演进的速度都得到了明显提升,被称为“打了激素的摩尔定律”。


    其次,英特尔有多种架构和不同加速器去处理合适的应用负载。英特尔现在非常明确的在支持开放IP,和客户联合定制芯片。


    最后,英特尔秉持的“软件优先”理念。这对开发者来说尤为重要。例如英特尔的oneAPI,就是让开发者知道未来可以信赖这套API,不会因为将来硬件更换了又要重新选。


    现在行业正在转向以异构为基础的技术新生态,虽然短期会有一些曲折,但大家一起坚持下来,未来还是能把这件事情做好的。


    《中国电子报》:英特尔发布了代号为Falcon Shores的新架构设计。您能否介绍一下,该产品具备怎样的特点和差异化优势?


    宋继强:FalconShores架构运用了更新的做法。可以把x86与Xe显卡集成在同一插槽,对于原本只能加载至强高性能CPU的处理器主板来讲,就可以在不改变主板的设计的前提下,直接插入芯粒,封装之后用做CPU运算的内核,比如性能核、能效核以及Xe架构的图形内核。Xe的内核分两种架构:一种是专门针对图形进行了优化,称为HPG(High-PerformanceGraphics);另外一种是专门针对高性能计算进行了优化,称为HPC。


    Falcon Shores架构最独特的点是可以根据客户的需求,在不增加主板上额外面积、空间以及布线要求的情况下,在x86芯片的插槽中自由配比Xe显卡,将x86的主芯片与GPU的性能整合在一起,这是一个创新。


    此外,FalconShores架构可以集成更多的高带宽内存。Falcon Shores架构将提供超过5倍的每瓦性能、计算密度以及内存容量和带宽提升。带宽的提升主要是把CPU或GPU的Die,跟HBM这些Die靠得更近,可以用更高带宽的封装技术进行实施,更具灵活性。


    Die、芯粒也可以用最先进的Intel 20A、Intel 18A的工艺制造,这样才能保证将多种高性能的计算核集合在一起时,仍然可以保证它的体积和功耗是可控的,这个平衡感是非常重要的。


    (审核编辑: 智汇闻)