提供一些云xAI的数据:实验室开始试用金山云 $金山云(KC)$ ,发现目前国内有三个数据中心(北京,上海,广州),全部没有提供英伟达训练用GPU,只有上海提供Tesla P4和T4的推理型GPU。新加坡提供V100的GPU,每小时需要23美元,大大超出华为云的16美元以及$亚马逊(AMZN)$ AWS的12美元。值得一提的是,AWS的GPU是可以on-demand付费,如果独占卡的话每小时8美元(包年)或4美元(包三年),而华为云目前只能做到独占卡,就算关机仍然需要付费。
发布于: | 雪球 | 转发:9 | 回复:16 | 喜欢:9 |
提供一些云xAI的数据:实验室开始试用金山云 $金山云(KC)$ ,发现目前国内有三个数据中心(北京,上海,广州),全部没有提供英伟达训练用GPU,只有上海提供Tesla P4和T4的推理型GPU。新加坡提供V100的GPU,每小时需要23美元,大大超出华为云的16美元以及$亚马逊(AMZN)$ AWS的12美元。值得一提的是,AWS的GPU是可以on-demand付费,如果独占卡的话每小时8美元(包年)或4美元(包三年),而华为云目前只能做到独占卡,就算关机仍然需要付费。
姜还是老的辣,AWS厉害。我估计规模效应极大的帮助了AWS提高训练用GPU集群的利用率,所以AWS才敢在独占模式下按使用付费。线下训练模型和线上服务不一样,用户需求不好预测。即使正在运行的训练作业,调度系统往往也不知道还要跑多久。这是一个典型的在线调度优化问题。我估计AWS用户基数大,用户的训练作业计算需求多样化高。这些能极大的帮助AWS的调度算法优化集群使用率,从而降低成本。//我刚打赏了这个帖子 ¥1,也推荐给你
然鹅……公有云现在没有几个客户的,即使阿里华为也这样,百度也是,没有那家公司会把数据上传云然后租服务训练模型再发布成推理服务,国内大企业更不会这么干,AI下来重点是私有化部署混合云私有云的方案