软件开发架构师

IBM与超级计算的过去、现在和未来-InfoQ

运维 7 2019-09-02 23:13

与不少评论人士的观点相反,在 IBM 公司看来,能源部最终选定克雷公司为其劳伦斯利弗莫尔国家实验室(LLNL)构建下一代 El Capitan 超级计算机并不是什么坏消息。同样的,能源部将橡树岭国家实验室 Frontier 系统以及阿尔贡国家实验室 Shasta 百亿亿次系统的订单交给克雷,也不是什么大不了的事情。

令人失望?当然有一点。对于 IBM 来说,他们本来有机会凭借着 CORAL 级 Summit 与 Sierra 系统在能源部订单的竞争中再下一城。但是在超级计算领域,道理与其它领域一样,把目光放得更长远一点、关注更重要的未来机遇,仍要比停留在原地为一点点挫折自怨自艾要明智得多。可以相信,IBM 公司未来将有机会构建起更多世界一流的超级计算机。

为什么会得出这样的结论?首先,蓝色巨人自成功登顶超级计算性能巅峰以来,曾经历一场广为人知的长期滑坡。实际上,每个人在达到人生顶峰之后,都免不了在享受无双视野的同时,面临很快被他人取代的困境。IBM 公司对于这一现实,理解得可能比大多数其他供应商都更透彻。另外,目前正在开发、或者即将出来的新技术,也有望使超级计算机达到前所未有的更高水平。

可以肯定的是,IBM 公司正致力于开发并推动这些新技术,而且进度似乎远远领先于其他竞争对手。下面,我们让一同探讨个中要点,及其对 IBM、客户以及整个超级计算行业的意义。

高处不胜寒

要了解在高端超级计算领域占据顶峰有多么困难,我们可以参考两年之前全球超算五百强榜单中的上榜设备。在其公开网站发布的榜单(1993 年至今)当中,排名第一的超级计算机往往只有 6 个月到 3 年不等的称霸周期。

当然,也存在一些值得注意的例外,因此某些国家曾在特定时期带来过令人惊艳的表现。日本的超级计算机在上世纪九十年代初(富士通构建的 Numerical Wind Tunnel 数字风洞系统)以及 2000 年(NEC 构建的 Earth Simulator 地球模拟器)都曾长期统治排行榜。2013 年 6 月,中国广州国家超级计算机中心的天河 2A 顺利登顶,直到 2016/2017 年才被中国无锡国家超级计算中心的神威 - 太湖之光所取代。

美国在这方面的表现同样给力。英特尔公司为美国能源部桑迪亚国家实验室构建的 ASCI Red 超级计算机从 1997 年到 2000 年秋季一直占据榜单头名。IBM 为劳伦斯利弗莫尔国家实验室打造的 BlueGene L 系列则于 2004 年 11 月夺得桂冠,并一路将纪录保持到 2008 年——继位的是洛杉矶阿拉莫斯国家实验室的另一台 IBM 超级计算机,Road Runner。该系统长期保持依靠,虽在 2008 年 11 月的榜单上失去宝座,但随后又于次年 6 月重新占据头把交椅。

总体而言,自榜单发布以来,IBM 公司前后共有 6 套系统成为全球超算五百强中的王者,分别为:ASCI White(2000 年至 2001 年)、BlueGene L(2004 年至 2007 年)、Road Runner(2008 年至 2010 年)、Seqquoia BlueGene Q(2012 年)以及 2018 的 6 月登顶的美国能源部橡树岭国家实验室 Summit 系统。除了 Summit 之外,IBM 公司在目前的全球超算五百强榜单中仍占据第二、第十、第十一、第十三等好名次,并有另外三套系统成功上榜。

同样值得注意的是,在四套排名最高的五百强 IBM
系统当中,有三套在最新绿色五百强最节能超算榜单中进入前十位,分别是:第二名(Summit)、第六名(Pangea II)以及第七名(Sierra)。考虑到传统能源对于气候变化的潜在影响,这一点显然非常重要。

这当然为 IBM 的客户带来了显著的经济利益。例如,使用 Pangea II 超级计算机的全球重要能源企业道达尔公司在报告中指出,SGI.HPE 系统目前在超算五百强榜单中排名第 38 位,而在绿色五百强榜单中仅居第 172 位。IBM 能够将顶级性能与能效融为一体,这种能力将有助于超级计算机更快进入商业应用与用例领域。

IBM 的超级计算创新能力

值得注意的是,IBM 公司还经常在自己的超级计算机当中引入独特的技术与设计方案。ASCI White 就用到了该公司的 POWER 3 处理器,而 BlueGene 系统则采用具有浮点加速器的低频、低功耗嵌入式 PowerPC 核心。Road Runner 是第一套成功登顶的混合型超级计算机,它将 IBM、东芝以及索尼开发的 Cell 处理器同 AMD Opteron CPU 结合在一起。Summit 同样属于混合系统,其同时采用了 IBM POWER 9 处理器、英伟达 Tesla GPU 以及 Mellanox EDR InfiniBand 互连机制。

为什么这么独创性元素与设计如此重要?因为它们反映了超级计算的变化特性。这些系统并不是简单地堆叠起来以实现超大规模加极高性能——相反,它们属于高度复杂的工具,旨在执行特定的、极为困难的运算任务。它们的存在,就是为了回答人们难以回答的问题,让曾经不可能的任务变为可能。正如超级计算机与超级计算的发展之路一样,它们负责解决的任务与问题也在不断变化。

橡树岭、阿尔贡以及利弗莫尔协作计划(CORAL)催生出 Summit 这一结晶,旨在将经典超级计算与人工智能 / 深度学习能力加以结合,共同组成异构系统。这也解决了一个关键的实际问题——越来越庞大的系统正在生成大量数据,而数据量已经超出了传统工具与应用程序的分析能力。

可以想见,IBM 公司凭借着开发 Summit 与 Sierra 系统积累起的经验,也在其它项目当中得到体现。举例来说,IBM 的研究人员与地球科学家们构建起一套基于 AI 的增强智能平台,用以支持埃尼集团在石油与天然气勘探工作中所需要的“认知发现”功能。利用公共与专有数据,结合从数值模拟以及实验设置中获得的知识,认知发现能够对潜在的钻探地点进行初步评估,以确定可行的石油与天然气勘探机会。

未来创新

CORAL 计划的设想,是进一步将认知计算带来的异构超级计算模型融入 Aurora、Frontier 以及 El Capitan 系统当中。但之后会发生什么?其中一个值得关注的新兴领域无疑是量子计算(见上图),其中基于量子比特的系统将使得研究人员熟悉并尝试量子概念。这些专业知识,将有力支持部署量子解决方案的各个领域,包括材料科学与发现、风险分析、金融服务以及机器学习等等。

近四十年来,IBM 公司一直积极参与量子计算的开发,并由此催生出其通过 IBM Q Experience 服务提供的 IBM Q 量子系统。该在线服务允许用户对两块 5 量子比特处理器与一块 16 量子比特处理器进行访问。研究人员可以借此探索教程与模拟任务,同时运行算法及实验(迄今已进行超过 10 万次实验)。IBM 公司还在开发规模更大的量子系统,包括今年 1 月公布的 20 量子比特 IBM Q System One 以及 50 量子比特原型系统。

简而言之,IBM 公司似乎有能力继续推动其先进 IBM Q 系统的发展,并在相关领域寻求并捕捉商业机遇,包括打造业务应用与混合量子 / 超级计算系统。

最终分析

过去二十五年以来,IBM 及其战略合作伙伴一直身居超级计算系统与相关成就的最前沿。该公司曾长年位列全球超算五百强榜单中的重要位置。而且与其他所有超级计算供应商一样,IBM 公司已经看到了行业中的潜在领先解决方案,并意识到这些新系统终将取代旧有产物。但是,IBM 公司并没有放弃经典,而是通过新的创新以应对种种挫折,以知耻而后勇的态度重返战场。回顾以往辉煌的历史,相信 IBM 公司完全有可能在未来的发展当中在超级计算的功绩簿上再次写下浓墨重彩的一笔。

原文链接
IBM and the Past, Present, Future of Supercomputing

文章评论