大模型不再只是生成：智象未来CTO姚霆谈AI如何开始“完成”一个“创作”

首页 » 大模型不再只是生成：智象未来CTO姚霆谈AI如何开始“完成”一个“创作”

过去一年，AI行业一个越来越清晰的变化是，真正拉开差距的，已经不再只是某个模型单项能力是否更强，而是谁能把“能力”组织成“任务”，再把“任务”沉淀为“系统”。

文生图、图生视频、视频生成、3D生成、动作生成，这些曾经被分别讨论的技术模块，正在被重新放回同一个问题之下：如果未来的模型不只是回答问题、生成内容，而是能够理解复杂意图、调动多种能力、完成端到端创作，那么大模型竞争的核心，就会从模型本身，转向模型、Agent、skills与应用场景之间的整体协同。

也正因此，“世界模型”之争的真正分野，或许并不只在于谁更接近物理规律、谁更像现实世界的复刻，而在于谁能率先搭建出一套可运行、可调用、可商业化的全模态生产系统。

在这样的背景下，智象未来联合创始人兼CTO姚霆对“世界模型”“全模态”“Agent平台”的理解，提供了一个很有前瞻性的观察样本。相比单纯讨论视频生成能力的优劣，他更在意的是，模型如何从单点能力跃迁为创作底座，skills如何被高效而安全地管理、编排和组合，应用又如何反过来塑造下一轮模型迭代。

这使得这场对话的意义，已经不只是讨论一家AI视频公司的产品路径，而是在更深层面上回应一个行业共同面对的问题：当技术红利从“能不能生成”进入“能不能真正完成任务”的阶段之后，下一轮竞争的护城河，究竟会建在模型里，建在系统里，还是建在对未来工作与创作方式智能体的重新定义里。

全球首创文生视频：智象未来的技术原点与产业积淀

Q：请先介绍一下你们团队过往的经历，以及智象未来是怎么走到今天的。
姚霆：智象未来的核心团队最早来自微软亚洲研究院，那时候，我们跟着梅涛老师（智象未来创始人），做了全球第一个从文生成视频的工作研究，算是中国比较早一批做视觉、多媒体、视频相关研究的人。当时我们做得更偏理解，包括视频内容理解、动作识别、图像和视频搜索等，也做了很多和搜索引擎相关的事情，比如Bing的视频搜索，以及后来小冰相关的一些项目。那时候也做过一些可以算作生成的工作，比如根据图像、视频生成描述，从而驱动用户和小冰之间的聊天。

后来我们在离开微软加入京东，在京东平台上做了很多商业化落地的项目工作。比如大家现在熟悉的京东 APP 首页的以图搜图、拍照购这些应用，背后做的是十亿级图像垂域搜索。我们也做了图像、视频审核，包括敏感人物、政治内容、成人内容等识别和处理技术。再往后，也参与了商品3D化、数字商城等相关工作，把商品做成3D资产。后期还研发了与物流分拣相关的机械臂视觉方案，这实际上是具身智能的前身形态：我们在京东物流仓里部署了两套7×24小时稳态运营系统，训练机械臂实现商品识别、抓取和tracking等。

到了2022年，看到GPT、ChatGPT，以及Midjourney这样的图像生成模型涌现，让我们这个团队看到了很大的场景想象空间，这个场景与我们的技术背景和产业实践高度相关，因此，2023年，梅老师带着我们一起创立了智象未来，正式投入做自研多模态大模型和相关产品应用。

我们比较早就定下了“1+3+N”的布局。这里的“1”是一个底层全模态世界模型底座，支撑上层的3个智能体出口：第一条是偏专业创作者的视频创作工具，海外就是vivago，国内的应用叫智小象；第二条是和互动营销场景的应用；第三条就是和AI影视创作相关。未来还会拓展出更多的智能体应用。

从2023年开始，我们重点做图像生成；我们也开源了HiDream-I1模型，通过开源去撬动更多声量，目前，智象未来ARR（年度经常性收入）已达数千万美金级别。整体来说，我们一路走到今天，既是在坚持模型研发，也是在不断拓展商业化落地。

文章目录

超越单项生成能力：全模态架构如何驱动端到端的任务交付

Q：现在大家对世界模型的定义并不统一。在你看来，一个合格的世界模型应该如何定义，它的标准或维度是什么？
姚霆：智象未来对世界模型的理解，首先是承认它的定义确实非常广，而且不同阶段差异很大。早期我觉得大致可以分成三类。第一类是以语言模型为主的世界模型，它更像是高层知识、世界知识的提炼和压缩，所以它是high level的世界模型。第二类是中层表达学习，例如Yan LeCun做的JEPA，更偏理解，理解之后可能还会做动作预测。第三类则是和我们更相关的底层像素生成，或者说视频生成模型，这一类我也认为属于世界模型的一种可能性。

但到了近期，世界模型的定义其实开始慢慢收敛了。我觉得收敛之后大概也可以分成三类。第一类，是在现有视频生成模型中加入因果关系和物理规律，它本质上还是视频生成模型，只是因为具备这些能力，所以更接近世界模型。第二类，是根据用户的指令，比如上下左右，去实时生成相应场景，以视频形式呈现，像Genie-3这一类。第三类，是最近大家讨论很多的World Action Model，它和具身智能更相关，核心是根据用户输入同时生成视频和动作，包括英伟达在内，最近很多工作都和这个方向有关。

从我们自己的角度来看，我们现在虽然还是做视频生成更多，但也会把它放在世界模型范畴下去理解。我们更关注两个延伸方向。第一个是模型侧，我们认为未来更重要的是用一个神经网络同时理解和生成文本、图像、视频、3D以及动作。也就是说，它一定是端到端的全模态架构，而不是过去那种多模态拼接式方式。它们之间不应该各自独立编码，而是统一编码、统一tokenization。第二个是产品和系统侧。最近大家在谈Agent，我们会认为Agentic app其实可以理解为一个平台或载体，这个载体可能是PC，也可能是手机，再乘上一个Harness，也就是对底层skills的管理、适配和组合能力，再加上一组skills。底层也许是OS，也许是OpenClaw，但它会是一种新的战略形态。

如果真有一个很强大的全模态世界模型，那么用户的输入可以是任意模态，单一也可以多个模态同时输入，下游的skills也可以是各种模态，而中间这个Harness对模态的管理、描述和编排，也应该是全模态的。这样才能真正端到端地完成用户想创作的任务。

关于世界模型的标准，我的理解有以下几个维度。第一个是模型维度，我更看重世界模型的底座一定是全模态的。第二个是效果维度，它当然要支持生成质量、准确度等常规标准。第三个是产品形态维度，我会更在意它是否能通过一个很好的Agentic方式去实现全模态创作需求。

从春晚“合肥七分钟”到机器人训练：AI技术创新的更大可能

Q：如果这样一套世界模型成立，它在具身智能、游戏或者数字孪生领域的实际价值和潜在价值会有多大？
姚霆：以具身智能为例，大家现在讨论很多的是视频模型和具身智能之间的关系。如果今天这个模型真的是全模态模型，那么它既可以作为视频生成的底座，也可以作为具身智能的底座。它的核心在于，输入和输出都不再被限制。假如输入是动作，输出既可以是Video，也可以是动作；如果输入是文本，输出也可以是Video。这样的话，整个模型就能够支持多样性的输入和输出。

如果放到具身场景里，它既可以用来生成数据，也可以支持VLA模型预训练，甚至当精度达到毫米级别的时候，也可以进一步做后训练，甚至直接去做VLA或者action production。我觉得这会是一个非常好的基础。

游戏方向会更加自然。因为一旦你给模型一个动作，它就可以渲染出新的画面，生成新的场景和视频，这本质上就是游戏和影视结合的互动影游。互动影游里面大量需求就是，你给它一个新任务，它会继续延展新的内容和新的可能性，所以不管是作为游戏，还是作为影视呈现，它都很有发展应用的空间。

Q：现在关于AI漫改和影视落地的话题很热。你们在影视和漫改方面的商业化客户占比大概如何？从你们接触的客户来看，目前AI最有价值的场景是什么？
姚霆：目前，我们还是更注重“创作”这个事情。以前大家谈生成，不管是图像还是视频，更多是把它当作一种单点能力去看，所以经常会陷入一个问题，就是到底终局是文生视频更重要，还是图生视频更重要。比如Sora更强调文生视频，早期的可灵则更强调图生视频，很多时候大家都在纠结到底谁代表终局。

在我看来，如果把“创作”当作一个完整任务来理解，那么就不应该只盯着底层能力到底是文生还是图生，而应该看这个系统能不能端到端地把用户的创作任务完成。如果它能真正完成创作，这才是首要目标。

在影视创作这一块，我们核心做两类事情。第一类是协同生产工具。第二类是内容交付。智象的技术交付能力已在国家级舞台上得到验证。在 2026 年央视马年春晚合肥分会场 7 分钟视频，虚实融合视觉等呈现由智象大模型提供了 AI 能力支持。此外，我们很早就在AI影视方面布局，如2024年和亦庄合作过AIGC短剧《意向未来》，属于国内首批AIGC短剧之一。2025年我们又和安徽电视台合作了一个项目，叫《量子湖传说》，是12集偏漫剧。在AI漫改和影视落地方面，据不完全统计目前智象未来，已经协助完成超过5000分钟的AI短剧创作。工业级的 AI 短剧平台帧赞已经在内测招募中，马上就要正式上线。

当然，除了创作，另外一个重要领域就是具身智能，具身智能的迭代高度依赖于高质量、多维度的训练数据。最近，智象未来与具身智能数据基础设施企业诺亦腾机器人已达成战略合作，希望共同攻克行业普遍面临的高精度训练数据供给难题。双方将诺亦腾积累的真实运动捕捉数据与智象多模态大模型生成的仿真数据进行深度融合。为具身智能本体厂商提供规模化、标准化的 VLA（视觉-语言-动作）模型预训练资源。

在巨头格局下快跑：技术预判、架构创新与资本的认可

Q：现在看，字节和快手既有模型又有流量，独立创业公司在这种格局下如何避免被边缘化？你们真正的护城河是什么？
姚霆：这是一个特别好的问题。的确，大厂无论在资本、人才、算力，还是入口级能力上，都有天然优势。但我也觉得，大厂在某些条件下束缚会更多。因为它要兼顾主营业务、股东预期和估值逻辑，团队架构通常也会更加庞大，不会像创业公司这样灵活。

我反而觉得，在今天这个阶段做AI，机会并不是完全不平等的。初创公司如果想抓住机会，我觉得至少有几点要做好。第一，认知一定要新。为什么我一直强调技术和产品迭代，本质上是因为必须对趋势有预判。不能等到大厂把某种架构做成熟了，我们再去复制，那样基本不会有机会。

因此，智象未来一直在做架构创新，从2023年Unet开始，到DiT，到后来我们做到扩散自回归架构Diffusion + Auto-Regressive，今天我们正在做走向全模态的全新架构，我们每次还是精准地踩住了整个 AI技术迭代的突破口，有时候甚至会领先国内国际大厂三个月、六个月。

第二，产品认知也必须持续更新。今天做产品和以前不一样了。你一只眼要盯着当下正在做的产品，另一只眼一定要看六个月以后产品形态会不会变。比如从去年年底开始，我们招聘产品经理时，已经把会不会用vibe-coding当作考核项，因为这已经成为新的工作方式。整个团队认知都必须更新。

第三，速度非常关键。AI产品只要形成一个基本可用的稳定版本，就应该尽快推向市场。在我的定义里，一个版本如果用户尝试两次能成功一次，或者三次能成功一次，我就认为它已经可以上线。因为生成式产品天然会有幻觉和误差，所以不能等到它像传统软件一样完全稳定才去发。上线以后，要靠用户不断地使用和反馈去迭代，这样才有可能形成自己的优势。很多场景其实不是拍脑袋就能想出来的，只有用户用起来，你才知道真实需求在哪里。

第四，组织架构要非常灵活。今天在初创公司里，技术和产品的边界已经越来越模糊。很多产品本身也可以通过vibe coding去实现前端。组织不能按旧打法去运转，而要像打牌一样，根据对手和市场变化去调整出牌顺序、组合方式，甚至要把原本以为是“王炸”的牌拆开来打。

但我觉得最大的好消息是，这个时代变化实在太快，没人能保证今天做出来的产品三个月后依然有价值。在这样一个高度内卷、快速演化的环境里，每个人都有机会，而不是只有大厂有机会。

Q：这两天有个消息是Sora关停了。你先怎么看这件事？另外，国内和海外在AI视频模型上走法不太一样，国内更喜欢做完整平台，海外更偏重模型能力。你觉得哪种路线的壁垒会更长久？
姚霆：从我的角度看，第一，Sora 原来的想法还是做一个非常通用的视频生成模型，但它和垂直领域应用之间，在目前阶段还是相对脱离的。再加上它天然也没有和自身业务深度耦合的生态，所以发生了现在的大调整。

第二，我觉得成本肯定是很大的原因。今天和互联网时代不一样，现在所有服务上线，背后其实都在持续跑大量GPU，烧 Token，成本是非常昂贵的。我们自己在做模型迭代的时候，一个非常重要的考虑因素就是最终推理成本。

这也是智象未来坚持架构创新的原因之一，通过架构创新，如自回归模型预先理解，DiT 仅需 5 步即可达成传统百步生成的精细度。我们可以将单位视频的推理成本大幅压缩至原来的 1/10。每个版本的迭代，我们都会围绕推理成本做大量工作，因为如果不在架构阶段考虑这些问题，后面服务根本没法大规模跑起来。

你提到国内外路线的问题，我觉得国外很多团队对架构创新的信心更高，国内则会更强调商业化应用。对我们来说，架构创新是非常重要的底层能力，因为我们本来就是技术出身。梅老师带着我和潘博士在微软的时候，就一直希望做世界上最好的模型。虽然当时做的是理解，但竞争对手就是谷歌、Facebook、CMU、伯克利这些团队，所以在我们的技术基因里，一直就有很强的模型架构创新追求，我们从来没有放弃模型上的创新。每次迭代，架构创新始终是第一重要的事情。

Q：公司已经成立快四年了，这些年AI行业发展非常快。现在回头看，整个行业的竞争格局和你们最初的预想差距大吗？有哪些地方是超出计划、和团队设想不一样的？
姚霆：我觉得第一，很多事情其实是在预期之内的。比如整个生成赛道、多模态大模型赛道的发展上限和发展速度，基本都在我们的判断范围内。从早期的MidJourney，到Sora、Runway、可灵等，一路走下来，整体趋势没有偏离预判。包括技术路线，从Unet到DiT，再到自回归与DiT融合，再到今天做全模态，也都在我们的判断之内，甚至有些时候我们还会处在相对领先的位置。

但也有一些超出预期的地方，我觉得更多是在产品层面的突破。比如以前大家会讨论，我是不是应该做偏写作的工具，或者做OpenClaw、OPC这样的东西。最近我们也会反过来思考，像OpenClaw这种模式的发展速度，以及它所代表的可能性，可能比很多人预想得都快。它会给我一些启发，让我重新思考今天应该怎样去做一个创作型Agent。

比如现在大家都知道这类产品有安全问题，但我最近会想，为什么它会有安全问题？一个很核心的原因是，它和我共用一个载体。假设它是我的助理，它其实不应该用我的手机替我发微信，它应该有自己的“手机”，也就是自己的载体。如果它有自己的载体，也许没有屏幕都没关系，那么很多安全问题就会发生变化。也就是说，如果给OpenClaw这样的系统一个适合它生长的新载体，它也许就能从co-worker走向co-creator。这个可能性，是超出我原来预期的。

Q：智象未来2026年最优先级的战略是什么？经过四年发展，融资也到了新的轮次，投资人对智象未来的发展期待是什么？
姚霆：这是一个很大的问题。我觉得很多场景的爆发其实是带有随机性的，爆款本身也有随机性。但从我的角度看，最优先级的事情非常明确，就是建立一个端到端的创作智能体Agent平台。

在这个平台上，我们正在打造多个方向的“创作”智能体，包括个人创作、营销相关创作，以及影视相关创作。现在的思维模式和过去不太一样。过去是分而治之，不同创作场景用不同工具；但接下来更可能变成“并而治之”，也就是底座统一，底层由Agent体系承接，上层再针对不同场景去实例化。

它的技术核心，就是一个全模态生成模型作为底座。这很像当年做搜索引擎，你底下有海量网页，而今天这些网页变成了skills。关键问题变成，怎么在海量skills里找到最需要的信息，并把这些信息组合编排成好的Agent，再提供给上层服务。为什么我们引入“全模态”这个概念，就是因为如果模型天然把文本、图像、视频等模态打通了，那我只需要建一套索引，就可以处理所有模态的问题，也才能支持真正的端到端创作。不管用户输入什么，想得到什么，系统理论上都能够完成。

1. 关于融资的问题，我们一直很顺利，问题之后会有更多好消息与大家分享。对于定位和估值，我们更看重估值背后的底层逻辑。支撑我们融资顺利的核心逻辑有三点：1. 技术的持续领先与创新：不是昙花一现，而是具备长期的创新后劲。2. 产品价值的传递：能否真正为用户创造价值，解决实际问题。3. 商业化验证：在当前阶段，商业化成果是硬指标；而到了未来的C轮、D轮，则会进一步考验规模化能力。

总的来说，投资人看重的是智象未来在全模态技术上的深度积淀以及在生产力场景中的落地潜力，我们非常珍惜并看重投资人对我们的这种长期认可.

雷峰网版权文章，未经授权禁止转载。详情见转载须知。