文章来源于互联网:小米语音首席科学家 Daniel Povey:语音识别卷完了,下一个机会在哪里?| 智者访谈

一线 AI 洞察,智者深度思考
多模态能力的融合正在改写 AI 发展路径。语音、视觉与自然语言处理的边界日益模糊,以 Transformer 为代表的通用解决方案,正在重塑传统技术领域。
在这个技术范式转变的关键时期,那些长期深耕细分领域的研究者又在思考什么?他们如何看待这种技术融合的趋势?
本期《智者访谈》邀请到著名开源语音识别项目 Kaldi 的创始人、小米集团语音首席科学家 Daniel Povey 博士。作为推动全球智能语音处理产业化的关键人物,他见证了语音识别技术从实验室走向大规模应用的全过程。十多年前,他在微软研究院的实习生,如今已成为 Google Gemini 等标志性项目的负责人。
当整个行业都在追逐大模型和通用方法时,Povey 博士却选择专注于不那么热门,但更有潜力的方向。「有这么多聪明人都在试图改进 AI,那些容易被发现的方法早就已经被人发现了。」
在他看来,技术进步不应被某一主流范式所限制,AI 领域的进步往往源于解决特定领域的具体问题,每个领域都应该保持自己独特的视角和方法——也许语音领域的下一个解决方案,会给机器学习带来全新的启发。
Transformer 确实好,也确实可能是未来发展的方向,但如果所有人都只基于现有模型做改进,可能阻碍整个领域的根本性创新。在访谈中,Povey 博士还分享了技术创新的方向选择、规模与效率的权衡,以及如何在紧跟前沿的同时保持独立思考。
对于年轻一代的研究者,他的建议直白而务实:你必须诚实面对自己真正想要的。学 AI 就能年薪百万的时代已经过去了,现在进入 AI 领域很难做出突破,除非你真的才华横溢;很多时候,你职业生涯的最终目标,要么很难实现,要么实现了也没有想象中那么美好。
希望这番坦诚的对话,能为我们在 AI 发展的万千可能性中,找到属于自己的方向。
01:35 Kaldi 之后的新探索
02:51 语音成了神经网络的子领域
04:37 多模态:Transformer 大一统?
11:13 会议不再是交流研究的最佳方式
14:01 如何判断真正的技术进步?
18:10 Scaling Law 与数据极限
21:18 未来机遇展望
23:52 别把生活卷丢了