回复@打完怪兽好睡觉: 克服存储的性能瓶颈，确实是我没想到的，长文本窗口是我脑子短路了没往那边想。不在一线写代码果然还是...

发布于:2024-05-14 17:08 修改于: 2024-05-14 17:10

iPhone

转发：0

回复：3

喜欢：9

回复@打完怪兽好睡觉: 克服存储的性能瓶颈，确实是我没想到的，长文本窗口是我脑子短路了没往那边想。不在一线写代码果然还是不行的啊、惭愧。我想打赏这条评论，雪球却取消了这个功能。//@打完怪兽好睡觉:回复@仓又加错-刘成岗:推理是需要多卡互联的，单卡现存当KV cache可能都不够，这样实现不了长文本窗口。
推理常见的几种并行加速方法，张量并行、数据并行、流水线并行等等，基本上都是把推理请求压成batch，分配到多张卡上，这样可以计算&存储资源利用最大化。否则存储资源远落后于计算，是个瘸子腿～
总之回到最重要的点，云端的推理成本快速下降，Edge AI现在确实有点尴尬了（成本和安全是最大的优势）。。可能还需要一些时间继续提升硬件性能。

引用：

2024-05-14 07:40

1.前天公众号预测了，会让GPT-4免费，但没想到是多模态的免费...并且过去只有Plus付费用户才有的GPTs、browring、图像理解、代码解释器等全部免费。当然用量是限制了，5X标准用量后才会收费。但别着急，等GB200部署后，一定是GPT-4 level模型全部免费，你们不是追赶GPT-4吗，不是卷价格吗，Ok大家...

全部讨论

打完怪兽好睡觉

05-14 17:34

哈哈仓老师太客气了，关注你很久也学到了不少东西，多交流～～

作者：仓又加错-刘成岗

引用：

全部讨论