文章来源于互联网:Andrej Karpathy最新激进观点:Transformer将超越人脑
还说 AI 可能会与人类融合……
前些天,OpenAI 前首席科学家 Ilya Sutskever 创立的新公司获得 10 亿美元投资的新闻刷遍了各大新闻头条,而 OpenAI 的另一位早期成员和著名 AI 研究者 Andrej Karpathy 则正在「AI+教育」赛道耕耘,其创立的 Eureka Labs 公司正在积极打造其第一款产品。
在这个节目中,Andrej Karpathy 分享了有关研究、新公司以及对 AI 未来的期待,其中不乏颇为激进的观点,比如他认为 Transformer 很快就将在性能上超越人类大脑、我们已经在特定的领域实现了有限的 AGI、AI 会成为人类新的大脑皮层……这些观点已经在网上引起了不少的讨论和争议。
自动驾驶是 AGI 以及 Waymo vs 特斯拉他还分享了自己十年前乘坐 Waymo 自动驾驶的经历:「十年前一位在那里工作的朋友给我展示了一个 demo,它带我在街区绕了一圈。而十年前它几乎就已经是完美的了,但它还是用了十年时间才从 demo 变成可付费使用的产品。」
他表示,之所以用了这么长时间,一方面是技术原因:demo 和产品之间确实存在巨大差距;另一方面则是监管方面的原因。不过要实现自动驾驶的全球化,还有很长的路要走。
至于 Waymo 和特斯拉哪家强?Karpathy 表示:「人们认为 Waymo 比特斯拉领先,但我认为特斯拉领先于 Waymo。」他表示非常看好特斯拉的自动驾驶项目。而对于这两家公司的问题,他认为特斯拉的问题在于软件,而 Waymo 的问题是硬件。对比之下,软件问题其实更好解决。特斯拉的汽车已经在全世界销售,因此当技术成熟时,特斯拉能更好地实际部署它们。Karpathy 说自己昨天才驾驶过最新的版本,体验非常好,感觉很神奇(miraculous driving)。
-
Waymo 的自动驾驶汽车采用了大量昂贵的激光雷达和各式各样的传感器,从而为其软件系统提供全方面的信息支持。
-
特斯拉则是使用相机,从而能极大地降低系统的复杂性和成本。
之后他提到了神经网络的重要性。一开始的时候,特斯拉的系统中包含大量人工编写的 C++ 代码,之后神经网络的比重越来越大——先是执行图像检测,然后进行预测,之后更是能发出转向等指令。
他表示,特斯拉最终的自动驾驶系统(比如十年之后)就是一个端到端的神经网络。也就是说,向其输入视频,它就直接给出命令。
他说:「汽车其实就是机器人。我认为特斯拉不是一家汽车公司。这有误导性。这是一家机器人公司,大规模机器人公司,因为规模也像一个完全独立的变量。他们不是在制造东西,而是在制造制造东西的机器。」
实际上,人形机器人 Optimus 的早期版本与特斯拉的汽车区别不大——它们有完全一样的计算机和摄像头。在其中运行的网络也是汽车的网络,当然其中需要做一些微调,使其适应步行空间。
当伊隆·马斯克决定做人形机器人时,各种 CAD 模型和供应链等等都是现成的,可以从汽车生产线直接拿过来重新配置,就像是电影《变形金刚》中那样——从汽车变成了机器人。
至于人形机器人的第一个应用领域,Karpathy 说:「我认为 B2C 并不是一个正确的起点。」他表示特斯拉的人形机器人最好的客户就是特斯拉自己。这能避免很多麻烦,同时还能检验成果。等产品孵化成熟之后,再进入 B2B 市场,为那些拥有巨大仓库或需要处理材料的公司提供服务。最后才是面向消费者的 B2C 市场。
当被问到为什么要做人形机器人时(因为人形可能并不是完成任务的最佳形态),他说:「我认为人们可能低估了进入任何单一平台的固定成本和复杂性。我认为任何单一平台都有很大的固定成本,因此我认为集中化,拥有一个可以做所有事情的单一平台是非常有意义的。」
而人形是我们熟悉的形态,可以帮助研究者更好地判断操作和采集数据,毕竟我们人类自身就已经证明了人形形态的有效性。另外,人类社会也是为人类设计的,人形平台可以更好地适应这一点。当然,他并不否认这些形态未来可能发生变化。
他强调了迁移学习的重要性。不管形态如何,如果能有一个能迁移到不同形态的神经网络,从而继承原有的智慧和能力,必定会大有用途。
Transformer 就像是通用型训练计算机,也就是可微分的计算机。「我认为这实际上是我们在算法领域偶然发现的神奇事物。」当然其中也有个人的创新,包括残差连接、注意力模块、层归一化等等。这些东西加起来变成了 Transformer,然后我们发现它是可训练的,也能具有规模扩展律。
Karpathy 表示 Transformer 还远没到自己的极限。现在神经网络架构已经不是阻碍我们发展的瓶颈了,新的改进都是基于 Transformer 的微小变化。现在的创新主要集中在数据集方面。
互联网数据很多,但 Karpathy 表示这并不是适合 Transformer 的数据。不过互联网上也确实有足够的推理轨迹和大量知识。现在很多的研究活动都是为了将这些数据重构成类似内心独白的格式。
使用合成数据也能大有助益。所以很有趣的一点是:现在的大模型正在帮助我们创造下一代大模型。
不过他也警告了合成数据的风险。合成数据往往多样性和丰富度不足。为此人们想出了一些办法,比如有人发布了一个个性数据集,其中包含 10 亿个不同背景的人物个性。在生成合成数据时,可以让这些不同个性去探索更多空间,从而提升合成数据的熵。
接下来,Karpathy 说虽然 Transformer 和人脑应当谨慎类比,但他认为 Transformer 在很多方面已经超过了人脑。他说:「我认为它们实际上是更高效的系统。它们不如人脑工作的原因主要是数据问题。」比如在记忆力方面,Transformer 可以轻松记住输入的序列,而人脑的工作记忆很小,记忆力表现差得多。虽然人脑的工作机制还没被完全揭示,但可以说它是一种非常随机的动态系统。「我确实认为我们可能会拥有比人脑更好的(Transformer),只是目前还没有实现。」
他表示,计算机与人类实际上已经有一点融合了。比如我们随身携带的智能手机,现在许多人完全无法离开手机,否则甚至会感觉自己智力都下降了。另一个例子是导航软件让许多人失去了记忆道路的能力,甚至在自家附近也要导航。他表示翻译软件也正渐渐让人们失去直接使用外语沟通的能力。
他说,自己曾看过一个小孩子在杂志进行滑动操作的视频。我们觉得很自然的技术可能在新一代人眼中并不自然。
但如果要实现更高级的融合,还有一些 I/O 问题有待解决。实际上,NeuraLink 就正在做这方面的研究。
他说:「我不知道这种融合会是什么样子。可能会像是在我们的大脑皮层上再构建额外一层皮层。」不过这个皮层可能在云端。
当然,这又会引发对生态系统的担忧。想象一下,如果你的「新皮层」 是寡头垄断的封闭平台,你肯定不会放心。好在我们也有 Llama 等开放平台。与加密货币社区的「不是你的密钥就不是你的币」类似,Karpathy 表示,「不是你的权重就不是你的大脑」。
至于具体的大小,Karpathy 认为会是数十亿的参数量,这可以通过对大模型执行蒸馏来获得。这就类似于互联网数据。互联网数据本身可能是由 0.001% 的认知数据和 99.999% 的相似或无用信息构成的。
当这些模型发挥作用时,它们并不会孤军奋战,而是会协同合作,各自处理自己擅长的任务。这就像是一家公司,他打了个比方,LLM 们会有不同的分工,有程序员和产品经理等。
这是一个已经成熟正待摘取的果实。目前在 AI+教育这一赛道上,AI 已经在翻译方面卓有成效,而且已经有能力实现实时现场翻译。
他认为,AI 有望帮助实现教育的普及或者说知识的民主化。
在被问到这门课程大概什么时候上线时,Karpathy 说大概会在今年晚些时候。但他也说现在让他分心的事情很多,所以也可能会在明年初。
对于现在的孩子们该学习什么,他也给出了自己的建议:数学、物理学和计算机科学等学科。他说这些有助于提高思维技能。「在这个前 AGI 时代,这些会很有用。」


