H200技术指标分析：国产芯片在推理应用中的优势

H200的技术指标介绍，要不要买先看看指标

1. 中国不买H20，肯定是英明决策，这种阉割版大幅降低了性能，价格还很高，其擅长的推理计算国产芯片正在发力。H200要不要买，可以看指标。这些指标并不是很好懂，需要梳理一下。

2. H200就是H100的升级版，2024年3月推出，其实没多久。在全球前20数据中心的GPU集群里，有18个用H200当主力算力芯片。H200不是两个H100凑一起变的，而是H100增多了显存，二者核心计算单元一样。H200有141GB的HBM3e显存，显存带宽是4800GB/s；而H100是80GB的HBM3，3.35 TB/s的带宽。这让H200的实际表现相比H100大幅提升，如在推理时最高有H100的2倍性能。简单理解，大模型训练时更需要算力，推理时更需要内存带宽。

3. 如图，这是美国IFP（进步研究所，主张禁止对中国出口芯片）列的指标。H20之前也有中国公司买了不少，主要就是带宽指标4000GB/s还不错，在大模型推理应用时性能还行。但是H20的算力只有可怜的296TFLOPS，而H200是1979TFLOPS。H20算力被降成六分之一，实在是太差了，阉割得太狠了。国产AI芯片解决推理应用难度相对低，所以不买H20从技术上也是非常合理的。

4. 另一种用于比较的是B30A，是英伟达Blackwell芯片的降级版，之前放风说要向中国出口。它的带宽是4000GB/s和H20一样，但计算性能有2500TFLOPS，比H200还要高。在特定的FP4应用情况下（用4个比特表示浮点数）有7500TFLOPS，当然这种应用难度很高，FP8就不容易用。

5. 更全面的指标比较是图二，目前英伟达性能最强的芯片是B300。有时宣传说B300比H200强很多，4倍算力，甚至极端情况下说30倍。但看图可以发现，主要是FP4情况下B300比H200算力强7倍，因为H200对FP4就没有特殊支持。其实许多大模型并没有搞FP4（训练时精度太低不太可能用），还是用FP8为主。在FP8情况下，B300的算力是H200的2.5倍，但其实它里面是封装了两块GPU，而H200只有1块，所以真正的算力提升没这么多。从价格就能看出来，在FP8情况下，B300的价格算力值是94，比H200的66高42%。而价格带宽值，各种芯片都差不多，不是关键了。

6. 因此，技术性评估，中国买入H200应该能有效补充FP8情况下的算力。DeepSeek用的主力算力芯片是2048个H800，其算力指标与H100、H200差不多，但是显存带宽被砍掉了一些，NVLink带宽被切掉一半以上，训练表现受限。但通过极为精妙的算法与数据结构优化，DeepSeek取得了巨大突破，在年初追平了美国最强模型。美国方面不太相信DeepSeek只用了这么少的芯片，流传说有1万张H100、1万张H800。无论如何，即使按美国方面以为的数字，中国公司拥有的训练算力都严重不足，美国大公司都是10万张H200卡的规模。

7. 还有一个因素是能耗，中美区别很大。其实从训练算力上来说，B300相对于H200并没有特别大优势。但能耗方面，对AI推理采用FP4低精度计算和架构优化，每token能耗比H200低30-50%。美国数据中心最头疼的就是能耗，不缺卡但缺电，所以有强大的需求将H200换成B300。而中国不缺电，用H200合适。美国方面可能有盘算，把数据中心淘汰的二手H200倒给中国，也能回收一些资金。

8. 这些数据指标比较复杂，背后的考虑不是一两句话能决定的。个人感觉中国方面应该会进口一些H200，训练算力是有需要的。

原文：toutiao.com/article/1851088218903563/

声明：该文仅代表作者本人观点