非常好的思维角度,对大模型,甚至对人学习知识的方法,都有了更深入的理解。比如,人的视觉(视频)、其他感官(听觉、嗅觉等),接受了很多,但大部分都冗余了,我们不会记得,貌似是无感的,但其实是下意识的,是必要的。
而语言是高度意识的,是甚至于是结构化的,但“语言只是锦上添花,我们需要蛋糕来支持糖衣”,说的太棒了。
对文中数据也很感兴趣,我用excel逐个数据核算了下。一点小更正,20mb=20*1024*1024是12的174.7万倍。。而不是1600万倍。
交叉验证:
4岁小孩,看到的东西,因为看是文字的160万倍,所以,相当于640万倍,也就算比前边大模型10万年,多了64倍。说50倍是合适的。如果“1600万倍,那么是500倍才合适”。
1.瞎子也可以思考,聋子哑巴也可以很聪明。说明人类信息处理最重要的不是输入和输出,最大的信息处理应该是中间的逻辑结构。
2.现在的大模型在中间层的网络规模和冗余结构是非常多的,这也是规模大了之后能涌现能力的原因。也就是说为了理解处理低带宽的信息,在内部构建了大规模的逻辑结构,内部吞吐远远超出NLP任务本身的信息量。所以才能从逻辑上理解世界,只不过是通过文字来交互而已。
从输入输出的吞吐量来思考,不太令人信服。hinton和乐村更靠谱点。
杨乐坤低估了语言对人类智力发展的重要性。语言的出现才使人类具有抽象思考的能力,才让智人把其它物种远远抛在进化史中。猫猫狗狗猴子猩猩都有视觉,信息带宽都很大,但是没有用。
高质量见解。冗余信息过滤能力。不然对于非文本的电磁波信号世界,存储空间永远不够。