文章来源于互联网:北大王立威:理论视角看大模型,为什么AI既聪明又愚蠢 | 智者访谈

人工智能的卓越发展
源于对技术与产业本质的洞察
机器之心全新视频栏目「智者访谈」
邀请领域专家,洞悉 AI 核心技术与行业趋势
为从业者量身打造
深化行业认知,激发创新思考
与智者同行,共创 AI 未来

时间戳
01:05 为什么如今的 AI 既聪明又愚蠢
06:25 用 ML 解决数学和科学问题的潜力
14:55 理论视角看思维链(CoT)
26:22 大模型并不存在所谓的「涌现」
34:35 幻觉是 LLM 的固有特性
39:07 The Bitter Lesson & Scaling Law
44:28 关于可解释性
50:25 重新定义泛化
54:15 大模型时代的理论研究
机器之心:回到大语言模型,您团队在 NeurIPS 2023 上面有一篇 oral 论文,首次从理论视角研究了思维链(Chain of Thought,CoT)提示的作用。您能谈一谈这篇论文的结论和启示吗?
机器之心:ChatGPT 之所以惊艳世人,就在于什么呢?当时有一个词叫「涌现」,是说当模型大到一定规模之后,就能够完成很多种不同的任务,这是在小模型上不曾观察到的。您是怎么看待大模型的这种涌现能力或现象的?
机器之心:Richard Sutton 教授在 2017 年发表了《The Bitter Lesson》,文中讨论了计算能力和数据的重要性,结合到现在以 OpenAI 为代表,他们推崇依靠数据和扩大规模带来性能的提升。您怎么理解 Sutton 教授的 bitter lesson?您又怎么看 Scaling Law 和算法创新之间的关系?

机器之心:随着大模型越来越广泛的应用,如何解释模型的行为也得到了越来越多的重视,包括您所从事的医疗相关的研究,为此我们需要在理论方面取得哪些突破?
机器之心:泛化能力是衡量模型性能的一个重要指标。过往我们研究泛化,主要是去考量是什么因素控制了泛化能力。大模型时代,我们是否需要重新考虑对泛化能力的定义?
机器之心:您作为理论研究者,如何看待大模型时代机器学习理论的价值和前景?
王立威,北京大学智能学院教授,研究兴趣为机器学习。长期从事机器学习基础理论研究,为设计更有效的新算法提供理论指导,并开发基于机器学习的医疗影像诊断算法与系统。近来致力于通过机器学习方法解决科学与数学领域重大基础问题。
王立威教授已在 NeurIPS、ICML、TPAMI 等国际顶级期刊和会议上发表论文 150 余篇,其中关于图神经网络表示理论的两篇工作分获 ICLR 杰出论文奖与提名奖。担任 TPAMI 编委,并长期担任 NeurIPS、ICML、ICLR 等机器学习顶会的领域主席/高级领域主席。此外,入选 AI’s 10 to Watch,是首位获此殊荣的亚洲学者。
文章来源于互联网:北大王立威:理论视角看大模型,为什么AI既聪明又愚蠢 | 智者访谈