大火成岩 的讨论

发布于: 雪球回复:51喜欢:18
所有业余玩票者都是凭想象在理解大模型。从视觉输入到驾驶员的动作,这个过程中决策信息已经损失了。除非人工标注,否则你不可能知道司机转弯是为了躲开路上的一滩污渍,还是预判到前面的行人可能过马路,还是单纯分神了。数据量大到一定程度,一些高频场景比如看到红灯就停下,可以被拟合到基本可用的程度,但天花板有限。深度学习无法在复杂的规划决策场景落地,核心就是这个死穴:同样的结果可以对应多个原因,原因的组合是无穷尽的。特斯拉这条路最多走到能用,但要好用到真正节省时间精力,不需要人一直盯着,让消费者愿意持续买单,那是完全不可能。

热门回复

我觉得并不矛盾,这是理念的问题,特斯拉的自动驾驶是开车事故率比人开的时候少,并没有说绝对安全,他学习出来的就是个老司机而已,老司机也会有车祸!!你想要万无一失就需要代价,在算力够用下叠硬件,只是价格高而已,问界夜里高速上避让人,老司机也会出车祸!

讨论的是,混合感知和纯视觉感知哪一个会是智能驾驶系统中感知子系统的未来

fsd的竞争对手不是人类,而是包含激光雷达的混合感知系统。fsd证明比人好,不能证明他比混合感知更好

没有对外在世界的感知, 哪里来的理解?

你知道一个词叫data curation吗?像你说的这样如果是真的,FSD怎么做到大多数司机在停车标都不停车,但是FSD v12却每次都停?这真的是模仿学习里最基本最基本的了,我都不想说什么对抗学习这种……算了说一下,你知道可以专门生成adversarial的训练数据吗?比如生成一大堆,纸箱子里有大石墩子,然后车一压就撞坏,直接可以纠正模型的各种“坏习惯”,纠正各种因果错乱问题。什么叫做“不可复用”的决策,你对神经网络的理解就是把所有东西一股脑丢进去吗?那LLM又是怎么解决种族歧视的?算了我不回你了,你是内行,我不配…[狗头]

千里之行始于足下。我非业内人士,或许现在还解决不了你说的问题,并不代表未来不行,有些东西是会有突破的,紧抱着过去已有的成果,是不会有突破的。新事物的发展方向,也绝非任何人可以在此时此刻就准确预判的,电脑刚问世的时候,功能也无法跟现在比较。对于颠覆性创新技术,现在看到得只是冰山一角。

自动驾驶难就难在,没有一个固化的一成不变的风险最小策略。当下这个时点,怎么操作是风险最小的,需要对多种可能性进行预测和比较。就像我前面举的例子,突然发现路上有纸箱,旁边车道有车你没路可绕,后面还有快车在跟车,你就得比较撞上纸箱的风险和被后车追尾的风险谁更高。你要比较风险高低,就得知道两种情况的可能性,以及一旦发生所造成的“伤害值”。要知道“伤害值”,你就得具有人这样对物理世界的常识,知道撞上钢铁的伤害高于撞上纸箱。这些说起来多,实际上老司机在0.x秒就做出了不要急刹碾过纸箱的判断。就决策规划而言,现在的技术远远达不到人脑的效率和准确性。
实际上,哪怕把问题简化再简化,先不说求解存在绕行和碾过两种可能性,也不说预测后车有多大可能会因你急刹而追尾,仅仅给出任意一个东西和当前的车速,判断撞上去的伤害有多高,这也是当前无解的问题。——前车掉了一个充气恐龙,人类司机能通过常识加推理,知道恐龙已经灭绝了所以它不可能是活的,看到这东东从前面掉下来的时候弹跳了几下所以是很轻的,最终确定撞上去是安全的,从而能探索除了绕行之外更还有没有风险更小的操作可能。目前的算法无法在碰撞伤害值计算上达到商业可用的水准,所以它先天就已经放弃了在一些情况下更安全的选项,永远只能绕行或停下,而这在某些场景下,实际上会置车主于更危险的境地。

看问题要看本质。你见过任何一个LLM能自主规划解决复杂问题的可落地场景吗(ppt 小视频就算了)?退而求其次,你见到过LLM能根据输入提供鲁棒的信息,用于辅助完成某个复杂规划决策的可落地场景吗?比如,给你能搜集到的所有服饰面料的技术文档,给你洗衣机的说明书,给你一份女主人喜好的描述文档,给你女主人明天的行程,给你现在传感器感知到的女主人房间里没有收拾的衣服(不管是摄像头还是激光雷达还是文字描述),你告诉哪些衣服要尽快洗哪些可以放放,哪些机洗哪些手洗——或者简而言之,一个保姆可以做的初级判断?
你再告诉我,不能完成这样任务的本质原因是什么?过去出现的技术哪些是有可能解决这些问题的?这些可能性增长的速度是平缓的还是陡峭的,还是布朗运动?

纯视觉,绝对是是胡同,国外的5G网络,连网页都打不开。

你这是钻牛角尖了。
前段时间一个问界夜里高速躲避障碍物的视频出现了这种情况:前面的障碍物看起来像是纸箱子,人驾的话可能会选择撞上去,然而实际是个水泥构件。
特殊的情况下,人类也无法保证100%安全。自动驾驶也不是要做到100%安全,而做到整体上比人安全就有很大的价值了。