文章来源于互联网:字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
技术报告已经公开。
一线大模型,正在全面进入智能体时代。
1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。




UI-TARS 帮用户调整 Chrome 浏览器的字体大小。可以看到,UI-TARS 似乎有一些内置的知识可以支持自己的思考,比如它知道通过 Chrome 右上角三个点的图标可以访问「设置」,并且能精准地在屏幕上找到这三个点。 





-
UI-TARS PC 客户端:https://github.com/bytedance/UI-TARS-desktop -
Midscene.js 浏览器控制:https://github.com/web-infra-dev/midscene
UI-TARS 为啥操作准?
端到端的智能体架构创新

-
论文标题:UI-TARS: Pioneering Automated GUI Interaction with Native Agents -
论文地址:https://arxiv.org/pdf/2501.12326 -
开源地址:https://github.com/bytedance/UI-TARS
-
增强感知(Enhanced Perception):利用大规模 GUI 截图数据集,实现对 UI 元素的上下文感知理解并生成精确描述; -
统一动作建模(Unified Action Modeling):将动作标准化处理到跨平台的统一空间中,并通过大规模动作轨迹实现精确定位和交互; -
System 2 推理(System-2 Reasoning):将深思熟虑的推理纳入多步决策,并涵盖任务分解、反思思维等多种推理模式。 -
迭代式反思训练(Iterative Training with Reflective Online Traces):通过在数百台虚拟机上自动收集、过滤和反射细化新的交互轨迹来解决数据瓶颈问题。同时基于迭代训练和反思训练,UI-TARS 持续从错误中学习,并在最少的人为干预下适应不可预见的情况。






-
UI-TARS 论文:https://arxiv.org/pdf/2501.12326 -
开源地址:https://github.com/bytedance/UI-TARS



