@山水2066 @跟我走吧14 @小小辛巴 @大头78 @GT周 @范小明 @matias $乐视网(SZ300104)...

@山水2066 @跟我走吧14 @小小辛巴 @大头78 @GT周 @范小明 @matias $乐视网(SZ300104)$ $中科曙光(SH603019)$ $中科创达
申威以28 nm的制程搞出和Intel二代Xeon Phi差不多的浮点计算速度，是非常震撼的。
　　要知道Intel用的是14nm trigate，比申威要领先两个节点，和上一代申威（65nm）与
　　新申威（28nm）的差距差不多。而且，申威26010的功耗似乎反而比二代Xeon Phi还要
　　小。如果只是因为设计的优劣，那Intel的硅公就该集体切腹自杀了。其实，从公开的
　　信息来看，这里有两个个原因1）申威处理器严重牺牲了内存性能，所有的die area全
　　都尽可能的装了计算单元；2）Intel为了与桌面版的x86处理器兼容，有不少额外的负
　　担。这里面最主要的是第一个原因。

　　申威26010装了256 + 4个计算core，却只有4个DDR 3内存控制器。相比之下，二代Xeon
　　Phi有8个DDR4内存控制器。这样的设计让申威的计算能力 to 内存带宽 ratio达到了
　　惊人的22.4 Flops / Byte。也就是说，每次从内存里读写1个Byte就要做22.4个双精浮
　　点运算才能让充分发挥申威26010的计算能力。AFAIK，几乎没有什么实际的应用可以做
　　到这样的比例。相比之下，Intel的比例是7倍左右。其实，就算是7倍也已经感觉是有
　　点高了。另外，我估计申威26010同时也牺牲了cache的size。这进一步加重了内存带宽
　　不足的问题。打个比方说，就是茶壶里煮饺子的感觉。理论上有超高的计算能力，但是
　　数据送不进去，结果送不出来。在实际应用中，这种名义上的计算能力完全不能发挥出
　　来。

　　申威这样完全不合逻辑的设计，唯一合理的解释就是为了跑分。Top 500排名只看“浮
　　点计算能力”这一个指标。所以申威的设计者也就不惜一切代价只去裸这一项指标。

　　神威的interconnection设计也是很土，不如天河和Titan，比富士通京的豆腐连接更是
　　差得十万八千里。同样的理由，Top 500排名不比interconnection。

　　如果用一个比较综合的指标HCPG来比，神威太湖的HCPG分只有理论计算能力的0.3%。相
　　比之下，天河和Titan的HCPG分可以到1.1%左右。富士通的京更是高达4.9%。所以，尽
　　管神威太湖的名义计算能力是京的10倍，但是对实际应用而言，比5年前小鬼子造的
　　京还慢不少。

　　如果让我来设计申威处理器的话，把256个core砍掉一半，用空出来的die area多放6个
　　内存控制器，剩下的空间用cache填满。每个core再稍稍加强一点，加上富士通的那几
　　个fancy的SIMD指令。估计HCPG得分可以提高不少，功耗也会更低一点。

　　公平的说，神威太湖这种裸跑分的做法也是有它的理由的。美国各个大学做research的
　　处理器设计得更加畸形的比比皆是。从做研究的角度来说，这样的跑分设计对于证明一
　　个新的设计思想还是有它的价值的。申威的设计就很像MIT在90年代末搞的一个叫RAW的
　　项目。后来MIT的几个人跑来南湾搞了一个小公司，叫Tilera，专门设计生产这种many
　　core mesh connection处理器。（估计这公司现在已经破产了吧）申威用的register
　　to register通讯也是MIT的RAW paper里最早提出来的。神威的这次跑分有反击美帝禁
　　运的重大政治意义，所以选择了这样的畸形设计也是无可厚非的。

　　做一个不一定恰当的对比，前几个月很火的阿法狗，也是个砸钱跑分的例子。以前的围
　　棋软件都是用单机或者很小的cluster跑的。狗家仗着财大气粗，搞了两千个CPU，280
　　个GPU，硬是把李世石赢了。至于那些穷人家的AI算法，也许比阿法狗更好也未可知，
　　反正是没机会露脸了。

　　总体来说，过去10年，的HPC产业，处理器设计能力都有了翻天覆地的发展。神威
　　太湖即使按HCPG排名，也仍然比任何一个美帝计算机快。落后美帝两个节点的半导体制
　　程，做到这样的水平还是相当可以了。要全面超越美帝，还需时日。

　　下一步，加强interconnection（这一点国防科大的天河做得不错），在shrink到14nm
　　fingate的时候大幅增加内存channel和cache。几年以后的下一代国产supercomputer应
　　该就非常强大非常实用了。

作者：碧海2021