TARS：字节跳动在赌一个怎样的桌面 Agent 未来？

字节跳动的 TARS（原 UI-TARS-desktop）不是另一个 Claude Computer Use 克隆。33K stars、四层架构、多模型支持、完全开源——它在桌面 Agent 赛道上选了一条跟 Anthropic 完全不同的路。

事情是这样的。

我花了一整天翻完了 TARS（原 UI-TARS-desktop）的全部核心源码，3174 个文件，从 Electron 桌面应用到 MCPAgent 内核到 Operator 层，全部过了一遍。

读完之后最直接的感受是：这个项目的架构设计比我想象的成熟太多了。不是实验室 demo，不是大厂放出来试水的空壳子——它在桌面 Agent 这条路上的选择，跟 Anthropic 的 Computer Use 和 Nous Research 的 Hermes Agent 形成了三种截然不同的路线。

而且，三种路线指向的是三个完全不同的未来。

它是怎么来的

先捋一下时间线。

2025 年 1 月，字节跳动的 Seed 团队在 GitHub 上开源了一个项目，叫 UI-TARS-desktop。当时的定位很明确：让模型直接操控桌面——看屏幕截图，理解界面，然后用鼠标键盘操作。

当时同步发的还有一篇论文（arXiv 2501.12326），标题叫 UI-TARS: Pioneering Automated GUI Interaction with Native Agents。说直白点，就是教模型怎么「看屏幕」和「用手」。

2025 年 4 月，v0.1.0 发布。有了第一个正式的 Desktop App，UI-TARS-1.5 模型也随之放出，在 OSWorld、ScreenSpot 等基准上刷了一波榜。

6 月是一个关键节点。Agent TARS Beta 发布——不再是单纯的 GUI Agent，而是多模态 Agent 栈，带着 CLI、Web UI，支持 MCP 协议。也是这个月，Remote Operator（远程计算机/浏览器操控）上线，完全免费。

11 月，v0.3.0，引入了 Event Stream Viewer、Streaming 支持、AIO Sandbox。

然后到了 2026 年 4 月，项目正式统一品牌——不再叫 UI-TARS-desktop，而是叫 TARS，两条产品线并行：Agent TARS（通用 CLI/Web Agent）和 UI-TARS Desktop（桌面原生 GUI Agent）。

到今天，GitHub Stars 33.3k，Forks 3.3k。

光看这个节奏，你大概能理解——这不是一个「突然冒出来」的项目，是一个持续迭代了一年多的产品。

它在赌什么

好，说正题。

TARS 在赌的，是一个完全开源、不绑定任何厂商模型、多入口（CLI + Desktop App + Web UI + SDK）的多模态桌面 Agent 平台。

我画了一张它的架构图，大概能让你一眼看懂这个赌注有多大：

TARS 四层架构

四层。从用户入口到 Agent 核心到 MCP Server 到 Operator，每层都有清晰的职责边界。

最上面是用户入口层。你有四种方式用这个东西：

Desktop App（Electron）—— 普通用户最直接的方式，装上就能用
Agent TARS CLI（npx @agent-tars/cli@latest）—— 开发者一行命令起一个 Agent
Web UI —— 浏览器里的 Agent 界面
SDK（Python + JS）—— 集成到自己的产品里

四套入口，对应四类用户群体，覆盖从普通用户到开发者到企业的全链路。

这不是一个「给 API 去造」的东西，也不是一个「只给开发者用」的东西。字节把门槛降到了普通用户也能用，但没牺牲扩展性。

第二层是 Agent 核心。基于 @tarko/mcp-agent 框架构建的 MCPAgent，以 MCP 协议作为内核通信标准。Planner 实现了 ReAct 循环（参考了 Thinking Machines 那篇论文），Tool Registry 支持自动发现 + 手动注册两种模式，Event Stream 协议驱动了整个上下文工程。

第三层是内置 MCP Server。四个原生 Server：Browser（Playwright CDP）、Filesystem、Commands、Search。覆盖 Agent 最常见的能力。而且支持挂载任意第三方 MCP Server。

最下面是 Operator 层。这是它跟其他 Agent 框架最大的区别——它有真正的「手」。Computer Operator（xdotool / AppleScript / Powershell 跨平台）、Browser Operator（Playwright CDP）、ADB Operator（Android 设备），还有一个 AIO Sandbox 做安全隔离。

字节赌的不是模型能力，而是架构。

Claude Computer Use 赌的是「模型本身能理解桌面」。Hermes Agent 赌的是「Agent 和你一起编码」。而 TARS 赌的是「一套开放、可扩展、多入口的 Agent 基础设施」——你甚至可以用 Claude 的模型来驱动它。

跟其他两条路线比

我把三个项目摆在一起做了个对比表：

桌面 Agent 三足鼎立对比

如果从表上看还不过瘾——说三组我翻完源码后的直接感受。

第一，TARS 是国内唯一的桌面 Agent 入口。 这不是夸张。Anthropic 的 Computer Use 依赖 Claude API，在国内不稳定。OpenAI Operator 也是。其他开源的 Agent 项目要么只做编码（像 Hermes Agent），要么只做对话。TARS 是目前唯一一个同时满足：完全开源、国内可访问、有桌面 App、能本地部署、支持多模型的方案。

第二，产品完整度上 TARS 吊打，但可靠性上还不确定。 四套入口 + 双 Operator + SDK —— 这个产品完整度是真的高。但 GUI Agent 的可靠性还没被大规模验证。Claude Computer Use 经过 Anthropic 大量后训练调优，在桌面操控场景下的成功率是有保障的。TARS 依赖 UI-TARS-1.5/2 或者你自己选的模型，效果取决于模型本身加怎么调。我目前没有看到足够的公开案例证明它在复杂桌面任务上的稳定性。

第三，商业模式不清晰是目前最大的隐患。 开源 + Apache-2.0 对社区很好。但字节为什么要做这个？我的猜测是为 Volcengine（火山引擎）引流——你不绑 Claude，但你可能会用 Doubao 模型，跑在火山引擎上。如果这个猜测是对的，那未来大概率会出现「开源版能力降级，企业版收费」的割裂。AI 基础设施市场不缺先开源后收割的故事。

值得警惕的地方

说完了好的，说三个我现在不太放心的点。

更新节奏在放缓。 最后 release 是 2025 年 11 月的 v0.3.0。作为一个每天还在涨星的 33k 项目，更新频率跟不上社区预期是个危险信号。可能进入了维护模式，而不是快速迭代期。

第二，TARS 这个名字撞车。 这个名字的出名程度大概仅次于 LLM——Meta 有 TARS（PyTorch 数据加载），还有其他好几个 TARS。品牌识别度是个问题。

第三，上面的商业模式隐患。 不说第二遍了。

我的判断

如果只给一个结论：TARS 是当前中文互联网生态里最值得关注的桌面 Agent 项目。

它在产品完整度（四入口设计）、架构清晰度（四层 + MCP 内核 + Event Stream）、模型灵活性（多模型支持）上做得相当克制和务实，没有大厂项目常见的「为做大而做大」的毛病——架构是真的经过设计思考的。

但项目节奏在放缓是个隐患。如果字节不继续投入，它可能会慢慢落后于社区和竞品的发展。如果字节持续投入，配合 Volcengine 的云底座，它有机会成为国内桌面 Agent 的事实标准。

对你来说：

想玩桌面 Agent —— 这是目前门槛最低、生态最完整的入门选择。下载 Desktop App 装个模型就能跑
想研究 Agent 架构 —— 源码质量值得一看，尤其是 MCP Agent 的 ReAct 循环和双 Operator 设计
想上生产 —— 建议先做好 Python 沙箱和 Operator 的可靠性验证。等一两个大版本稳定再说
想站队 —— 我的判断是这个方向是对的，但字节的投入力度还不确定。观望可以理解，但别完全错过

桌面 Agent 这个赛道，TARS 是目前国内选手里的独苗。它不是最好的，但它是唯一一个齐全的。就是这么拧巴的事实。