DGX GH200——代表下一代未来超算吗？

作者：华彩Hi36C0 发布时间：2023-6-8 10:01:29

一、引子
“5月29日，AI芯片大厂NVIDIA（英伟达）CEO黄仁勋在COMPUTEX 2023展前发布会上，正式发布了全新的GH200 Grace Hopper超级芯片，以及基于NVIDIA NVLink Switch System 驱动的拥有256个GH200超级芯片的NVIDIA DGX GH200超级计算机，旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。”——芯智讯消息
由于GH200的性能遥遥领先于同行[受虐滑稽]加之DGX GH200超算（后文简称DGX）是由256个GH200构成，因此这台超算一经问世便得到高度关注。以至于有人称之为地表最强超算，更有甚者称其一台顶十台我国的“神威太湖之光”（Sunway TaihuLight）。理由很简单，太湖之光的算力为93PFLOPs，而DGX算力高达1EFLOPs（1E＝1024P），乍一看很有道理，但实际上这个对比是有问题的。就好比拿单张显卡和跑分去和一台整机跑分一样，不太具备可比性，后文会具体分析。
但有一点毋庸置疑，那就是DGX和近期热度很高的NVIDIA H100和A100一样，都代表着GPU领域的最顶级水准。虽然说H100和A100都不是最近才发布的新产品，但是由于chatGPT的爆火，让大家的目光再一次聚集到它们身上。是啊，没有硬件的支撑，你破解个p（bushi）
二、算力为王
人类对AI算力的要求，从没有如此之高。老实说，像我这样不关心行业内动态的小白，对于算力的印象还停留在租超算时间，或者是教研室采购RTX显卡[流汗滑稽]但是行业的发展是极其迅速的，买RTX搞科计算似乎已经支撑不起ChatGPT这样的行业，需要更为专业的硬件来提供支持。谁有更强的算力谁就是爷，这话虽然难听，但是的确有它的道理。
《中国算力白皮书（2022年）》指出，截止到2021年底，全球总算力规模达到521 EFLOPS。其中，美国和中国算力位列前两名，分别为160 EFLOPS、140 EFLOPS。在我国，通用算力规模为109 EFLOPS，智能算力规模为29 EFLOPS，超算算力规模为2 EFLOPS。
说到超算，就不得不提top500的榜单了。目前榜单上排名第一的是美国能源部下属的超算frontier，持续算力高达1102PFLOPs，峰值算力高达1685PFLOPs，妥妥的E级超算。而排名第二的是日本的超算fugaku（富岳，但是我本人更习惯称之为福冈[受虐滑稽]），算力则只有442PFLOPs（持续算力）。不过fugaku的亮点在于其采用了ARM架构，因此取得了不错的能效比。但是其功耗还是比美国frontier高了近一半！
而我国一共有两台机器上榜，分别是排名第七的神威太湖之光和排名第九的天河2A。考虑到这两台机器一个问鼎七年，一个登顶十年，居然还能进入前十，实属不易。
从上图可以看到，美国共有frontier、summit和sierra以及Selene四台超算进入前十，而这四台机器全都属于美国能源部。当然了，大家不要被所属部门的名字所迷惑[流汗滑稽]这些超算不是拿来研究新能源的（废话），而是投入核武器或者其他尖端科学领域，例如核科学与技术、量子力学、材料学等等等等。说句题外话，我本科毕设用到的软件就是美国能源部开源的[受虐滑稽]
值得一提的是，top500榜单（截止2022年5月）中排名前三的国家分别是中美日，上榜计算机数量分别为173、127和34[受虐滑稽]也就是说，前500的超算中，有六成属于中美两国。但是单纯从算力来看，中国173台超算贡献了530PFLOPs算力，美国算力则是2080PFLOPs，大约是我们的四倍！而日本仅靠34台超算，就实现630PFLOPs的算力（那可不嘛，一台fugaku就442了[受虐滑稽]）
还有一些事实可能颠覆大家对于某些企业的认知。在本次top500供应商榜单中，联想以提供160台超算排名第一，浪潮提供了50台超算，曙光提供了36台超算，华为提供了7台超算。这四家企业提供的超算占据了全球超算500强榜单的51%。而在算力方面，联想以160台超算提供了447PFlops的实测性能，而美国慧与科技（HPE）以96台超算提供了1929PFlops的实测性能。怎么说呢，和大家想的不一样对吧？
那么我们有没有自己的E级超算呢？答案是肯定的，只是由于种种原因没有参加top500的评选。早在三年前，就有外国媒体报道中国的E级超算。我得到的消息是我们可能有三台E级超算，神威海洋之光2台+天河3号1台，或者神威、天河、曙光各一台。
神威用的毫无疑问是申威sw26010的迭代产品，基于FinFET工艺的sw39010处理器；而天河3号的处理器同样是基于FinFET工艺，处理器信息为飞腾128核+matrix2000协处理器。已经差不多了，部署基本接近完成，全面完工投入使用也就24年的事情。而且天河3号的性能超过了frontier，达到至少1.3EFLOPs[受虐滑稽]
三、DGX GH200
DGX由256个GH200构成，GH是Garce Hopper的缩写。Grace Hopper是美国计算机科学家、数学家和美国海军少将。她是哈佛Mark I计算机的第一批程序员之一，是计算机编程的先驱，发明了最早的链接器之一。Hopper是第一个设计出与机器无关的编程语言理论的人，她用这个理论创造的FLOW-MATIC编程语言后来被扩展为COBOL，一种早期的高级编程语言，至今仍在使用。Fortran也有她的功劳。
GH200包含 72 核的Grace CPU（基于ARM架构，NVIDIA自研Neoverse V2内核）、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X （一说480GB LPDDR5），拥有高达 2000 亿个晶体管，带宽更是高达900G/s（一说512G/s）！
看到这些参数，我第一反应是这玩意太可怕了，因为确实强的离谱啊。我虽然不懂显卡，也不懂AI需要多强算力。但是我知道GH200有96GB的HBM3高速显存，而RTX4090只有24GB的GDDR6显存。加之DGX共有256个GH200，那就是256*96=24576GB[流汗滑稽]希望懂行的大佬批评指正。
总之一句话，DGX是用世界最强GPU打造而成的用于AI的超算。首批客户是谷歌、微软和Meta这样的大公司。年底老黄还有更狠的动作——NVIDIA Helios，由四台DGX构成！将用于支持NVIDIA的研发团队开（练）展（习）工（刀）作（法）[流汗滑稽]
回到第一章中的问题，DGX算力高达1EPFLOPs是否属实？要知道目前美国最强超算frontier也只有1.1E。仔细看上图的小字部分，是1EFLOPS AI Performance，1E AI算力，不是1E算力。这里大家就应该明白问题所在了[流汗滑稽]
这个1E跑的是int8运算，一个GH200的int8算力是3958TFLOPs，DGX有256个GH200，总的算力就是3958*256=1013248TFLOPs，再除以两次1024（或者1000），1013248T/1000/1000=1.013248E。
如果让DGX来跑超算经常测试用的FP32或者FP64，结果会很难看。因为GH200的FP64性能只有34TFLPOs，那么DGX跑FP64的结果大概是34*256=8704TFLOPs，即大概8.7PFLOPs，不到神威太湖之光的十分之一[受虐滑稽]所以说大家不要再跟风吹DGX能顶我国最强超算了，因为FP64的性能仅相当于太湖之光的十分之一不到，更何况太湖之光已经用了七八年了，拿int8的数据和FP64的结果来比，有失公允哦。
四、我们的芯片
每当这种话题下面，一定会有人唱衰我们自己的企业，而且肯定会拿茅台或者敬酒文化来嘲讽。但其实大可不必，因为欧盟和日韩都很强，不也没搞出来DGX么？值得庆幸的是，我们还有寒武纪、海思、龙芯、海光等一大批企业，而且也取得了一定的成绩。毫不夸张的说，我们的AI就是一国之下万国之上，应该是值得我们骄傲的才对！
不过不管是寒武纪还是海思，都多少存在各种各样的问题。比如说海思的昇腾910基于台积电7nm，现在否用smic 7来替代还是未知数，加之华为布局完整生态，因此第三方的开源模型无法在昇腾910上运行[流汗滑稽]还有一点，虽然说昇腾910理论性能赶上NVIDIA的a100，但是还是老问题——Tensorflow/Pytorch两大主流深度学习训练框架没有基于华为昇腾910做特定的优化，所以实际表现不如NVIDIA a100。就好像摩尔线程显卡理论性能很强，但是玩游戏的表现并不好，人家不给你做适配啊！
寒武纪的思源590性能接近NVIDIA a100，但是软件框架优化和华为/NVIDIA相比还有提高进步的空间。思源590同样是采用台积电7nm工艺，所以……
一句话概括就是我们的AI芯片也取得了骄人的成果，但是和NVIDIA相比仍有差距。
五、结语
回到标题，DGX GH200能代表未来超算吗？我的答案是既能，又不能。虽然DGX在AI领域算力强大，但是不代表传统的超算就失去了作用，如果真的这样的话，美国能源部也不会花大力气造frontier这样的E级超算了[受虐滑稽]直接找老黄买不就行了？
在AI领域，DGX无疑能发挥极为重要的左右；但是用得到算力的地方，可不全是AI。因为我们的生活除了虚无缥缈的赛博朋克，还有柴米油盐，还有星辰大海……
最后祝各位高考考生旗开得胜，马到成功！
@橙橙今天吃什么 @仿生胡萝卜 @雾屿晴子 @qusmark @戴哥