H200的技术指标介绍,要不要买先看看指标
1. 中国不买H20,肯定是英明决策,这种阉割版大幅降低了性能,价格还很高,其擅长的推理计算国产芯片正在发力。H200要不要买,可以看指标。这些指标并不是很好懂,需要梳理一下。
2. H200就是H100的升级版,2024年3月推出,其实没多久。在全球前20数据中心的GPU集群里,有18个用H200当主力算力芯片。H200不是两个H100凑一起变的,而是H100增多了显存,二者核心计算单元一样。H200有141GB的HBM3e显存,显存带宽是4800GB/s;而H100是80GB的HBM3,3.35 TB/s的带宽。这让H200的实际表现相比H100大幅提升,如在推理时最高有H100的2倍性能。简单理解,大模型训练时更需要算力,推理时更需要内存带宽。
3. 如图,这是美国IFP(进步研究所,主张禁止对中国出口芯片)列的指标。H20之前也有中国公司买了不少,主要就是带宽指标4000GB/s还不错,在大模型推理应用时性能还行。但是H20的算力只有可怜的296TFLOPS,而H200是1979TFLOPS。H20算力被降成六分之一,实在是太差了,阉割得太狠了。国产AI芯片解决推理应用难度相对低,所以不买H20从技术上也是非常合理的。
4. 另一种用于比较的是B30A,是英伟达Blackwell芯片的降级版,之前放风说要向中国出口。它的带宽是4000GB/s和H20一样,但计算性能有2500TFLOPS,比H200还要高。在特定的FP4应用情况下(用4个比特表示浮点数)有7500TFLOPS,当然这种应用难度很高,FP8就不容易用。
5. 更全面的指标比较是图二,目前英伟达性能最强的芯片是B300。有时宣传说B300比H200强很多,4倍算力,甚至极端情况下说30倍。但看图可以发现,主要是FP4情况下B300比H200算力强7倍,因为H200对FP4就没有特殊支持。其实许多大模型并没有搞FP4(训练时精度太低不太可能用),还是用FP8为主。在FP8情况下,B300的算力是H200的2.5倍,但其实它里面是封装了两块GPU,而H200只有1块,所以真正的算力提升没这么多。从价格就能看出来,在FP8情况下,B300的价格算力值是94,比H200的66高42%。而价格带宽值,各种芯片都差不多,不是关键了。
6. 因此,技术性评估,中国买入H200应该能有效补充FP8情况下的算力。DeepSeek用的主力算力芯片是2048个H800,其算力指标与H100、H200差不多,但是显存带宽被砍掉了一些,NVLink带宽被切掉一半以上,训练表现受限。但通过极为精妙的算法与数据结构优化,DeepSeek取得了巨大突破,在年初追平了美国最强模型。美国方面不太相信DeepSeek只用了这么少的芯片,流传说有1万张H100、1万张H800。无论如何,即使按美国方面以为的数字,中国公司拥有的训练算力都严重不足,美国大公司都是10万张H200卡的规模。
7. 还有一个因素是能耗,中美区别很大。其实从训练算力上来说,B300相对于H200并没有特别大优势。但能耗方面,对AI推理采用FP4低精度计算和架构优化,每token能耗比H200低30-50%。美国数据中心最头疼的就是能耗,不缺卡但缺电,所以有强大的需求将H200换成B300。而中国不缺电,用H200合适。美国方面可能有盘算,把数据中心淘汰的二手H200倒给中国,也能回收一些资金。
8. 这些数据指标比较复杂,背后的考虑不是一两句话能决定的。个人感觉中国方面应该会进口一些H200,训练算力是有需要的。
原文:toutiao.com/article/1851088218903563/
声明:该文仅代表作者本人观点