02-23 14:56
谢谢仓老师找的链接。
我是这个行业的工程师。准确的说,有“隔离层”,但是这个抽象层并没有完全隔离性能和可用性。
TPU不好用可以从没听说过外部大客户成功案例看出来。如果从本质出发,还是因为对最主流的framework pytorch支持的不好。pytorch的支持是通过pytorch xla实现的,但是pytorch xla做得很差。例子可以看:网页链接。 简单说很多operator不支持/支持的不好。这可能和google的工程师文化也有关,拉不下来脸伺候大客户。
另外,xla的全局编译比pytorch的eager mode开发者体验差很多。虽然性能有提升,但是值不值得牺牲开发者体验还是一个问题。