回复@舟宿夜江: 三点技术错误哈：1、AR是端上计算的，演示的这个是云上计算的，所以【过去AR用一堆硬件+摄像头想去实现...

发布于:2024-05-14 12:29 修改于: 2024-05-14 12:45

iPhone

转发：2

回复：22

喜欢：9

回复@舟宿夜江: 三点技术错误哈：
1、AR是端上计算的，演示的这个是云上计算的，所以【过去AR用一堆硬件+摄像头想去实现的能力，还塞不进去，还担心功耗等等问题，现在一个模型实现了】不是Apple vs. Apple的比较。
2、推理不需要片间互联，一块GPU就能支持很多推理请求。这个无需技术背景就能明白，如果做个推理也要多块GPU一起，成本会高得可怕。
3、调用摄像头、麦克风不需要系统级权限，普通的App就可以，基于浏览器的网页也可以，微信小程序也可以。//@舟宿夜江:回复@信息平权:学习了。

引用：

2024-05-14 07:40

1.前天公众号预测了，会让GPT-4免费，但没想到是多模态的免费...并且过去只有Plus付费用户才有的GPTs、browring、图像理解、代码解释器等全部免费。当然用量是限制了，5X标准用量后才会收费。但别着急，等GB200部署后，一定是GPT-4 level模型全部免费，你们不是追赶GPT-4吗，不是卷价格吗，Ok大家...

全部讨论

Frank_X

05-14 13:25

查看6条回复

第二点持保留看法哦。现在可能如此，以后需求应用的爆发对推理的要求和需求都会大增，单卡提升太慢了，老黄家的解题思路是用NVL把计算单元从单芯片升级为package乃至数据中心。随着推理算力成本的急速通缩，低成本和大用量会成正循环，如今云上吃算力的大活儿也会被下放至端侧。

打完怪兽好睡觉

05-14 15:23

推理是需要多卡互联的，单卡现存当KV cache可能都不够，这样实现不了长文本窗口。
推理常见的几种并行加速方法，张量并行、数据并行、流水线并行等等，基本上都是把推理请求压成batch，分配到多张卡上，这样可以计算&存储资源利用最大化。否则存储资源远落后于计算，是个瘸子腿～
总之回到最重要的点，云端的推理成本快速下降，Edge AI现在确实有点尴尬了（成本和安全是最大的优势）。。可能还需要一些时间继续提升硬件性能。

郭春坡

05-14 12:49

感觉好厉害完全看不懂

舟宿夜江

05-14 13:03

给我这个AI小白最直观的感觉，以后类似于带有GPT-4O这样的大模型产品普及，真的会越来越多的使用云计算吧，可能是指数级别的？

seairlan

05-14 12:41

Hi，我理解信息平权说的推理是云端内部的推理能力的泛化，不是基于每个端侧的场景的推理实现。个人见解哈

你比我胖

05-14 12:54

大模型

舟宿夜江

05-14 12:34

谢谢。

作者：仓又加错-刘成岗

引用：

全部讨论