军事:中美最新超级计算机哪家强称中国已连续六度称雄(4)
加速器的选择
异构计算非常重要的一点就是加速器的选择,加速器的性能很大程度上会影响到超算的性能。举例来说,Xeon-Phi在运行linpack测试时,实际性能仅仅相当于理论最大运算性能的65-70%,这直接导致了天河2号的整机效率仅为61.7%,同样使用Xeon-PHI的美国超算Stampede的整机效率比天河2号更低,只有60.7%,而且这还是Stampede的运算能力仅为天河2号的五分之一的情况下的成绩——因为超算运算能力越强,效率就越难提升,因此,在被Xeon-Phi的低效率拖累的情况下,以天河2号的性能而言,61.7%的整机效率实属不易。
大规模科学计算一般都能做到高度并行化,能将计算任务拆分给海量的小核心来并行执行。因此,在加速器选择方面就产生了三个方案:
一是用GPGPU做加速器。因为GPU是大宽度并行结构(GPU拥有海量SIMD计算单元),高端GPU的资源集成度非常高,能很容易做到非常高的理论双精浮点计算能力。以英伟达最新的加速卡K80为例,该加速卡功耗300W,双精浮点高达2.9TFlops。
二是用众核芯片做加速器。一方面添加浮点、向量指令(比如Intel的AVX、FMA,龙芯的LoongSIMD)提升浮点性能。另一方面堆砌核心数量,比如Intel的第一代Xeon-PHI就有60核,双精浮点性能为1T,功耗为300W;龙芯也曾经有过16核的龙芯3C的方案,但在工作进度完成大半后被迫放弃。因国产众核加速器还处于保密状态,美国情报部门对其非常感兴趣,本文就不将其与英伟达的GPGPU和Intel的Xeon-Phi做对比了,唯一能透露的就是,该众核芯片虽然性能逊色于Intel的Xeon-Phi,但设计理念非常先进,是优于Xeon-Phi的存在。
