发布于: iPhone转发:0回复:0喜欢:2
@山水2066 @跟我走吧14 @小小辛巴 @大头78 @GT周 @范小明 @matias $乐视网(SZ300104)$ $中科曙光(SH603019)$ $中科创达
申威以28 nm的制程搞出和Intel二代Xeon Phi差不多的浮点计算速度,是非常震撼的。
  要知道Intel用的是14nm trigate,比申威要领先两个节点,和上一代申威(65nm)与
  新申威(28nm)的差距差不多。而且,申威26010的功耗似乎反而比二代Xeon Phi还要
  小。如果只是因为设计的优劣,那Intel的硅公就该集体切腹自杀了。其实,从公开的
  信息来看,这里有两个个原因1)申威处理器严重牺牲了内存性能,所有的die area全
  都尽可能的装了计算单元;2)Intel为了与桌面版的x86处理器兼容,有不少额外的负
  担。这里面最主要的是第一个原因。

  申威26010装了256 + 4个计算core,却只有4个DDR 3内存控制器。相比之下,二代Xeon
  Phi有8个DDR4内存控制器。这样的设计让申威的计算能力 to 内存带宽 ratio达到了
  惊人的22.4 Flops / Byte。也就是说,每次从内存里读写1个Byte就要做22.4个双精浮
  点运算才能让充分发挥申威26010的计算能力。AFAIK,几乎没有什么实际的应用可以做
  到这样的比例。相比之下,Intel的比例是7倍左右。其实,就算是7倍也已经感觉是有
  点高了。另外,我估计申威26010同时也牺牲了cache的size。这进一步加重了内存带宽
  不足的问题。打个比方说,就是茶壶里煮饺子的感觉。理论上有超高的计算能力,但是
  数据送不进去,结果送不出来。在实际应用中,这种名义上的计算能力完全不能发挥出
  来。

  申威这样完全不合逻辑的设计,唯一合理的解释就是为了跑分。Top 500排名只看“浮
  点计算能力”这一个指标。所以申威的设计者也就不惜一切代价只去裸这一项指标。

  神威的interconnection设计也是很土,不如天河和Titan,比富士通京的豆腐连接更是
  差得十万八千里。同样的理由,Top 500排名不比interconnection。

  如果用一个比较综合的指标HCPG来比,神威太湖的HCPG分只有理论计算能力的0.3%。相
  比之下,天河和Titan的HCPG分可以到1.1%左右。富士通的京更是高达4.9%。所以,尽
  管神威太湖的名义计算能力是京的10倍,但是对实际应用而言,比5年前小鬼子造的
  京还慢不少。

  如果让我来设计申威处理器的话,把256个core砍掉一半,用空出来的die area多放6个
  内存控制器,剩下的空间用cache填满。每个core再稍稍加强一点,加上富士通的那几
  个fancy的SIMD指令。估计HCPG得分可以提高不少,功耗也会更低一点。

  公平的说,神威太湖这种裸跑分的做法也是有它的理由的。美国各个大学做research的
  处理器设计得更加畸形的比比皆是。从做研究的角度来说,这样的跑分设计对于证明一
  个新的设计思想还是有它的价值的。申威的设计就很像MIT在90年代末搞的一个叫RAW的
  项目。后来MIT的几个人跑来南湾搞了一个小公司,叫Tilera,专门设计生产这种many
  core mesh connection处理器。(估计这公司现在已经破产了吧)申威用的register
  to register通讯也是MIT的RAW paper里最早提出来的。神威的这次跑分有反击美帝禁
  运的重大政治意义,所以选择了这样的畸形设计也是无可厚非的。

  做一个不一定恰当的对比,前几个月很火的阿法狗,也是个砸钱跑分的例子。以前的围
  棋软件都是用单机或者很小的cluster跑的。狗家仗着财大气粗,搞了两千个CPU,280
  个GPU,硬是把李世石赢了。至于那些穷人家的AI算法,也许比阿法狗更好也未可知,
  反正是没机会露脸了。

  总体来说,过去10年,的HPC产业,处理器设计能力都有了翻天覆地的发展。神威
  太湖即使按HCPG排名,也仍然比任何一个美帝计算机快。落后美帝两个节点的半导体制
  程,做到这样的水平还是相当可以了。要全面超越美帝,还需时日。

  下一步,加强interconnection(这一点国防科大的天河做得不错),在shrink到14nm
  fingate的时候大幅增加内存channel和cache。几年以后的下一代国产supercomputer应
  该就非常强大非常实用了。