05-14 17:34
哈哈仓老师太客气了,关注你很久也学到了不少东西,多交流~~
推理常见的几种并行加速方法,张量并行、数据并行、流水线并行等等,基本上都是把推理请求压成batch,分配到多张卡上,这样可以计算&存储资源利用最大化。否则存储资源远落后于计算,是个瘸子腿~
总之回到最重要的点,云端的推理成本快速下降,Edge AI现在确实有点尴尬了(成本和安全是最大的优势)。。可能还需要一些时间继续提升硬件性能。
1.前天公众号预测了,会让GPT-4免费,但没想到是多模态的免费...并且过去只有Plus付费用户才有的GPTs、browring、图像理解、代码解释器等全部免费。当然用量是限制了,5X标准用量后才会收费。但别着急,等GB200部署后,一定是GPT-4 level模型全部免费,你们不是追赶GPT-4吗,不是卷价格吗,Ok大家...
哈哈仓老师太客气了,关注你很久也学到了不少东西,多交流~~