内容目录
文章来源于互联网:李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪
-
论文标题:The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
-
论文地址:https://arxiv.org/abs/2412.10523v1
-
项目页面:https://languageofmotion.github.io/
-
语言模型能自然地与其它模态连接起来;
-
语音富含语义,而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力;
-
经过大量预训练之后,语言模型能够具备强大的语义理解能力。
-
首先,进行预训练,目标是通过身体组合动作对齐与音频 – 文本对齐来对齐各种不同的模态。
-
预训练完成后,将下游任务编译成指令,并根据这些指令训练模型,使模型能够遵循各种任务指令。
-
空间
-
时间
文章来源于互联网:李飞飞团队统一动作与语言,新的多模态模型不仅超懂指令,还能读懂隐含情绪