一、引子
“5月29日,AI芯片大厂NVIDIA(英伟达)CEO黄仁勋在COMPUTEX 2023展前发布会上,正式发布了全新的GH200 Grace Hopper超级芯片,以及基于NVIDIA NVLink Switch System 驱动的拥有256个GH200超级芯片的NVIDIA DGX GH200超级计算机,旨在助力开发面向生成式AI语言应用、推荐系统和数据分析工作负载的巨型、下一代模型。”——芯智讯消息
由于GH200的性能遥遥领先于同行[受虐滑稽]加之DGX GH200超算(后文简称DGX)是由256个GH200构成,因此这台超算一经问世便得到高度关注。以至于有人称之为地表最强超算,更有甚者称其一台顶十台我国的“神威 太湖之光”(Sunway TaihuLight)。理由很简单,太湖之光的算力为93PFLOPs,而DGX算力高达1EFLOPs(1E=1024P),乍一看很有道理,但实际上这个对比是有问题的。就好比拿单张显卡和跑分去和一台整机跑分一样,不太具备可比性,后文会具体分析。
但有一点毋庸置疑,那就是DGX和近期热度很高的NVIDIA H100和A100一样,都代表着GPU领域的最顶级水准。虽然说H100和A100都不是最近才发布的新产品,但是由于chatGPT的爆火,让大家的目光再一次聚集到它们身上。是啊,没有硬件的支撑,你破解个p(bushi)
二、算力为王
人类对AI算力的要求,从没有如此之高。老实说,像我这样不关心行业内动态的小白,对于算力的印象还停留在租超算时间,或者是教研室采购RTX显卡[流汗滑稽]但是行业的发展是极其迅速的,买RTX搞科计算似乎已经支撑不起ChatGPT这样的行业,需要更为专业的硬件来提供支持。谁有更强的算力谁就是爷,这话虽然难听,但是的确有它的道理。
《中国算力白皮书(2022年)》指出,截止到2021年底,全球总算力规模达到521 EFLOPS。其中,美国和中国算力位列前两名,分别为160 EFLOPS、140 EFLOPS。在我国,通用算力规模为109 EFLOPS,智能算力规模为29 EFLOPS,超算算力规模为2 EFLOPS。
说到超算,就不得不提top500的榜单了。目前榜单上排名第一的是美国能源部下属的超算frontier,持续算力高达1102PFLOPs,峰值算力高达1685PFLOPs,妥妥的E级超算。而排名第二的是日本的超算fugaku(富岳,但是我本人更习惯称之为福冈[受虐滑稽]),算力则只有442PFLOPs(持续算力)。不过fugaku的亮点在于其采用了ARM架构,因此取得了不错的能效比。但是其功耗还是比美国frontier高了近一半!
而我国一共有两台机器上榜,分别是排名第七的神威 太湖之光和排名第九的天河2A。考虑到这两台机器一个问鼎七年,一个登顶十年,居然还能进入前十,实属不易。
从上图可以看到,美国共有frontier、summit和sierra以及Selene四台超算进入前十,而这四台机器全都属于美国能源部。当然了,大家不要被所属部门的名字所迷惑[流汗滑稽]这些超算不是拿来研究新能源的(废话),而是投入核武器或者其他尖端科学领域,例如核科学与技术、量子力学、材料学等等等等。说句题外话,我本科毕设用到的软件就是美国能源部开源的[受虐滑稽]
值得一提的是,top500榜单(截止2022年5月)中排名前三的国家分别是中美日,上榜计算机数量分别为173、127和34[受虐滑稽]也就是说,前500的超算中,有六成属于中美两国。但是单纯从算力来看,中国173台超算贡献了530PFLOPs算力,美国算力则是2080PFLOPs,大约是我们的四倍!而日本仅靠34台超算,就实现630PFLOPs的算力(那可不嘛,一台fugaku就442了[受虐滑稽])
还有一些事实可能颠覆大家对于某些企业的认知。在本次top500供应商榜单中,联想以提供160台超算排名第一,浪潮提供了50台超算,曙光提供了36台超算,华为提供了7台超算。这四家企业提供的超算占据了全球超算500强榜单的51%。而在算力方面,联想以160台超算提供了447PFlops的实测性能,而美国慧与科技(HPE)以96台超算提供了1929PFlops的实测性能。怎么说呢,和大家想的不一样对吧?
那么我们有没有自己的E级超算呢?答案是肯定的,只是由于种种原因没有参加top500的评选。早在三年前,就有外国媒体报道中国的E级超算。我得到的消息是我们可能有三台E级超算,神威 海洋之光2台+天河3号1台,或者神威、天河、曙光各一台。
神威用的毫无疑问是申威sw26010的迭代产品,基于FinFET工艺的sw39010处理器;而天河3号的处理器同样是基于FinFET工艺,处理器信息为飞腾128核+matrix2000协处理器。已经差不多了,部署基本接近完成,全面完工投入使用也就24年的事情。而且天河3号的性能超过了frontier,达到至少1.3EFLOPs[受虐滑稽]
三、DGX GH200
DGX由256个GH200构成,GH是Garce Hopper的缩写。Grace Hopper是美国计算机科学家、数学家和美国海军少将。她是哈佛Mark I计算机的第一批程序员之一,是计算机编程的先驱,发明了最早的链接器之一。Hopper是第一个设计出与机器无关的编程语言理论的人,她用这个理论创造的FLOW-MATIC编程语言后来被扩展为COBOL,一种早期的高级编程语言,至今仍在使用。Fortran也有她的功劳。
GH200包含 72 核的Grace CPU(基于ARM架构,NVIDIA自研Neoverse V2内核)、H100 GPU、96GB 的 HBM3 和 512 GB 的 LPDDR5X (一说480GB LPDDR5),拥有高达 2000 亿个晶体管,带宽更是高达900G/s(一说512G/s)!
看到这些参数,我第一反应是这玩意太可怕了,因为确实强的离谱啊。我虽然不懂显卡,也不懂AI需要多强算力。但是我知道GH200有96GB的HBM3高速显存,而RTX4090只有24GB的GDDR6显存。加之DGX共有256个GH200,那就是256*96=24576GB[流汗滑稽]希望懂行的大佬批评指正。
总之一句话,DGX是用世界最强GPU打造而成的用于AI的超算。首批客户是谷歌、微软和Meta这样的大公司。年底老黄还有更狠的动作——NVIDIA Helios,由四台DGX构成!将用于支持NVIDIA的研发团队开(练)展(习)工(刀)作(法)[流汗滑稽]
回到第一章中的问题,DGX算力高达1EPFLOPs是否属实?要知道目前美国最强超算frontier也只有1.1E。仔细看上图的小字部分,是1EFLOPS AI Performance,1E AI算力,不是1E算力。这里大家就应该明白问题所在了[流汗滑稽]
这个1E跑的是int8运算,一个GH200的int8算力是3958TFLOPs,DGX有256个GH200,总的算力就是3958*256=1013248TFLOPs,再除以两次1024(或者1000),1013248T/1000/1000=1.013248E。
如果让DGX来跑超算经常测试用的FP32或者FP64,结果会很难看。因为GH200的FP64性能只有34TFLPOs,那么DGX跑FP64的结果大概是34*256=8704TFLOPs,即大概8.7PFLOPs,不到神威 太湖之光的十分之一[受虐滑稽]所以说大家不要再跟风吹DGX能顶我国最强超算了,因为FP64的性能仅相当于太湖之光的十分之一不到,更何况太湖之光已经用了七八年了,拿int8的数据和FP64的结果来比,有失公允哦。
四、我们的芯片
每当这种话题下面,一定会有人唱衰我们自己的企业,而且肯定会拿茅台或者敬酒文化来嘲讽。但其实大可不必,因为欧盟和日韩都很强,不也没搞出来DGX么?值得庆幸的是,我们还有寒武纪、海思、龙芯、海光等一大批企业,而且也取得了一定的成绩。毫不夸张的说,我们的AI就是一国之下万国之上,应该是值得我们骄傲的才对!
不过不管是寒武纪还是海思,都多少存在各种各样的问题。比如说海思的昇腾910基于台积电7nm,现在否用smic 7来替代还是未知数,加之华为布局完整生态,因此第三方的开源模型无法在昇腾910上运行[流汗滑稽]还有一点,虽然说昇腾910理论性能赶上NVIDIA的a100,但是还是老问题——Tensorflow/Pytorch两大主流深度学习训练框架没有基于华为昇腾910做特定的优化,所以实际表现不如NVIDIA a100。就好像摩尔线程显卡理论性能很强,但是玩游戏的表现并不好,人家不给你做适配啊!
寒武纪的思源590性能接近NVIDIA a100,但是软件框架优化和华为/NVIDIA相比还有提高进步的空间。思源590同样是采用台积电7nm工艺,所以……
一句话概括就是我们的AI芯片也取得了骄人的成果,但是和NVIDIA相比仍有差距。
五、结语
回到标题,DGX GH200能代表未来超算吗?我的答案是既能,又不能。虽然DGX在AI领域算力强大,但是不代表传统的超算就失去了作用,如果真的这样的话,美国能源部也不会花大力气造frontier这样的E级超算了[受虐滑稽]直接找老黄买不就行了?
在AI领域,DGX无疑能发挥极为重要的左右;但是用得到算力的地方,可不全是AI。因为我们的生活除了虚无缥缈的赛博朋克,还有柴米油盐,还有星辰大海……
最后祝各位高考考生旗开得胜,马到成功!
@橙橙今天吃什么 @仿生胡萝卜 @雾屿晴子 @qusmark @戴哥