发布于: 雪球转发:0回复:0喜欢:0
阿里很早就这么做了。但是跑大规模集群失败率太高。当时就为了省点网络的钱,搞了这么一个死的技术。结果nvlink越走越远,自己技术又跟不上,弄成现在这个样子。
引用:
2024-07-02 09:04
【阿里云:使用以太网连接15000块GPU】
1875 个主机(每个主机配备 8 块 GPU 和 9 块网卡)使用阿里云的高性能网络,通过以太网进行通信。
阿里云工程师兼研究员翟恩南通过 GitHub 分享了其研究论文,介绍了阿里云用于大语言模型(LLM)训练的数据中心的设计。
这份 PDF 文件名为《阿...