Yann LeCun：「* 语言的带宽较低：小于 12 字节/秒。一个人每分钟可阅读 270 个单词，或每秒阅读 4.5...

Yann LeCun：
「* 语言的带宽较低：小于 12 字节/秒。一个人每分钟可阅读 270 个单词，或每秒阅读 4.5 个单词，即 12 字节/秒（假设每个 token 2 字节，每个 token 0.75 个单词）。现代 LLM 通常使用 1x10^13 个双字节 token 进行训练，即 2x10^13 字节。这将需要一个人阅读大约 100,000 年（每天阅读 12 小时）。
* 视觉的带宽要高得多：大约每秒 20MB。两条视神经各有 100 万条神经纤维，每条每秒传输约 10 个字节。一个 4 岁的孩子总共醒着 16,000 个小时，相当于 1x10^15 个字节。
换句话说
- 视觉感知的数据带宽大约是书面语言（或口语）数据带宽的 1600 万倍。
- 在短短的 4 年时间里，一个孩子所看到的数据量是经过互联网上所有公开文本训练的最大 LLMs 所看到数据量的 50 倍。
这告诉我们三件事：
1.是的，文本是冗余的，视神经中的视觉信号更是冗余的（尽管它们是视网膜中感光器输出的 100 倍压缩版本）。但数据冗余正是自我监督学习捕捉数据结构所需要的。冗余越多，对自监督学习越有利。
2.人类的大部分知识（以及几乎所有动物的知识）都来自我们对物理世界的感官体验。语言只是锦上添花。我们需要蛋糕来支撑糖衣。
3.如果不让机器从高带宽的感官输入（如视觉）中学习，我们就绝对不可能达到人类水平的人工智能。
是的，人类可以在没有视觉的情况下变得聪明，甚至可以在没有视觉和听觉的情况下变得相当聪明。但没有触觉就不行。触觉的带宽也相当高。」
在回答网友问「特斯拉 FSD Beta 是通往 AGI 的可能途径？」，Yann LeCun表示不是。
Tesla AI 的 Julian Ibarz 转发 LeCun 的推特表示，
「即使只有 1000 个机器人在持续收集各种数据，那数据量就太大了。在几年的收集过程中，数据量将达到数百 PB，你可以利用这些数据来学习非常庞大的模型。
2013 年，我在拥有数十亿标签的数据集上对街景数据进行了世界上最大的模型训练。这已经是 10 多年前的事了。一年后，这些超大型模型（比 Inception 还大）在街景数据的所有图像上都达到了人类水平，这在业内尚属首次，我们还首次用它们绘制了整个大陆的地图（南美洲、非洲）。

作者：深呼吸再深呼吸