README.zh-CN.md
English | 简体中文
<b>TARS<sup>*</sup></b> 是一个多模态 AI Agent Stack,目前包含两个项目:Agent TARS 和 UI-TARS-desktop:
<table> <thead> <tr> <th width="50%" align="center"><a href="#agent-tars">Agent TARS</a></th> <th width="50%" align="center"><a href="#ui-tars-desktop">UI-TARS-desktop</a></th> </tr> </thead> <tbody> <tr> <td align="center"> <video src="https://github.com/user-attachments/assets/c9489936-afdc-4d12-adda-d4b90d2a869d" width="50%"></video> </td> <td align="center"> <video src="https://github.com/user-attachments/assets/e0914ce9-ad33-494b-bdec-0c25c1b01a27" width="50%"></video> </td> </tr> <tr> <td align="left"> <b>Agent TARS</b> 是一个通用的多模态 AI Agent Stack,它将 GUI Agent 和 Vision 的强大功能带入你的终端、计算机、浏览器和产品中。 它主要提供 <a href="https://agent-tars.com/guide/basic/cli.html" target="_blank">CLI</a> 和 <a href="https://agent-tars.com/guide/basic/web-ui.html" target="_blank">Web UI</a> 供使用。
旨在通过前沿的多模态 LLMs 和与各种现实世界 <a href="https://agent-tars.com/guide/basic/mcp.html" target="_blank">MCP</a> 工具的无缝集成,提供更接近人类任务完成方式的工作流程。
</td>
<td align="left">
<b>UI-TARS Desktop</b> 是一个桌面应用程序,基于 <a href="https://github.com/bytedance/UI-TARS" target="_blank">UI-TARS</a> 模型提供原生的 GUI Agent。
它主要提供
<a href="https://github.com/bytedance/UI-TARS-desktop/blob/docs/new-readme/docs/quick-start.md#get-model-and-run" target="_blank">本地</a>计算机以及浏览器操作器。
</td>
</tr>
<b>Agent TARS</b> 是一个通用的多模态 AI Agent Stack,它将 GUI Agent 和 Vision 的强大功能带入你的终端、计算机、浏览器和产品中。
它主要提供 <a href="https://agent-tars.com/guide/basic/cli.html" target="_blank">CLI</a> 和 <a href="https://agent-tars.com/guide/basic/web-ui.html" target="_blank">Web UI</a> 供使用。 旨在通过前沿的多模态 LLMs 和与各种现实世界 <a href="https://agent-tars.com/guide/basic/mcp.html" target="_blank">MCP</a> 工具的无缝集成,提供更接近人类任务完成方式的工作流程。
请帮我在 Priceline 上预订 9 月 1 日从圣何塞到纽约最早的航班,以及 9 月 6 日最晚的返程航班
https://github.com/user-attachments/assets/772b0eef-aef7-4ab9-8cb0-9611820539d8
<table> <thead> <tr> <th width="50%" align="center">预订酒店</th> <th width="50%" align="center">使用额外的 MCP Servers 生成图表</th> </tr> </thead> <tbody> <tr> <td align="center"> <video src="https://github.com/user-attachments/assets/c9489936-afdc-4d12-adda-d4b90d2a869d" width="50%"></video> </td> <td align="center"> <video src="https://github.com/user-attachments/assets/a9fd72d0-01bb-4233-aa27-ca95194bbce9" width="50%"></video> </td> </tr> <tr> <td align="left"> <b>指令:</b> <i>我 9 月 1 日到 9 月 6 日在洛杉矶,预算 5000 美元。请帮我在 booking.com 上预订离机场最近的丽思卡尔顿酒店,并为我编制一份交通指南</i> </td> <td align="left"> <b>指令:</b> <i>为我绘制杭州一个月的天气图表</i> </td> </tr> </tbody> </table>更多用例,请查看 #842。
# 使用 `npx` 启动。
npx @agent-tars/cli@latest
# 全局安装,需要 Node.js >= 22
npm install @agent-tars/cli@latest -g
# 使用你喜欢的模型提供商运行
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
访问完整的 Quick Start 指南获取详细的设置说明。
<table> <thead> <tr> <th width="20%" align="center">分类</th> <th width="30%" align="center">资源链接</th> <th width="50%" align="left">描述</th> </tr> </thead> <tbody> <tr> <td align="center">🏠 <strong>核心枢纽</strong></td> <td align="center"> <a href="https://agent-tars.com">🌟 探索 Agent TARS Universe 🌟
</a>
</td>
<td align="left">进入 Agent TARS 生态系统的入口</td>
</tr>
<tr>
<td align="center">📚 <strong>Quick Start</strong></td>
<td align="center">
<a href="https://agent-tars.com/guide/get-started/quick-start.html">
</a>
</td>
<td align="left">5 分钟从零快速上手</td>
</tr>
<tr>
<td align="center">🚀 <strong>最新动态</strong></td>
<td align="center">
<a href="https://agent-tars.com/beta">
</a>
</td>
<td align="left">发现前沿功能和愿景</td>
</tr>
<tr>
<td align="center">🛠️ <strong>开发者专区</strong></td>
<td align="center">
<a href="https://agent-tars.com/guide/get-started/introduction.html">
</a>
</td>
<td align="left">掌握每个命令和功能</td>
</tr>
<tr>
<td align="center">🎯 <strong>Showcase</strong></td>
<td align="center">
<a href="https://github.com/bytedance/UI-TARS-desktop/issues/842">
</a>
</td>
<td align="left">查看官方和社区构建的用例</td>
</tr>
<tr>
<td align="center">🔧 <strong>参考文档</strong></td>
<td align="center">
<a href="https://agent-tars.com/api/">
</a>
</td>
<td align="left">完整的技术参考</td>
</tr>
UI-TARS Desktop 是一个由 UI-TARS 和 Seed-1.5-VL/1.6 系列模型驱动的原生 GUI agent,可在你的本地计算机上使用。
<div align="center"> <p>    📑 <a href="https://arxiv.org/abs/2501.12326">Paper</a>    | 🤗 <a href="https://huggingface.co/ByteDance-Seed/UI-TARS-1.5-7B">Hugging Face Models</a>   |   🫨 <a href="https://discord.gg/pTXwYVjfcs">Discord</a>   |   🤖 <a href="https://www.modelscope.cn/collections/UI-TARS-bccb56fa1ef640">ModelScope</a>  🖥️ Desktop Application    |    👓 <a href="https://github.com/web-infra-dev/midscene">Midscene (use in browser)</a>   
</p> </div>| 指令 | 本地操作器 | 远程操作器 |
|---|---|---|
| 请帮我在 VS Code 设置中打开 VS Code 的自动保存功能,并将自动保存操作延迟设置为 500 毫秒。 | <video src="https://github.com/user-attachments/assets/e0914ce9-ad33-494b-bdec-0c25c1b01a27" height="300" /> | <video src="https://github.com/user-attachments/assets/01e49b69-7070-46c8-b3e3-2aaaaec71800" height="300" /> |
| 你能帮我查看一下 GitHub 上 UI-TARS-Desktop 项目的最新 open issue 吗? | <video src="https://github.com/user-attachments/assets/3d159f54-d24a-4268-96c0-e149607e9199" height="300" /> | <video src="https://github.com/user-attachments/assets/072fb72d-7394-4bfa-95f5-4736e29f7e58" height="300" /> |
参见 Quick Start
参见 CONTRIBUTING.md。
本项目基于 Apache License 2.0 许可证。
如果你觉得我们的论文和代码对你的研究有用,请考虑给个 star :star: 和引用 :pencil:
@article{qin2025ui,
title={UI-TARS: Pioneering Automated GUI Interaction with Native Agents},
author={Qin, Yujia and Ye, Yining and Fang, Junjie and Wang, Haoming and Liang, Shihao and Tian, Shizuo and Zhang, Junda and Li, Jiahao and Li, Yunxin and Huang, Shijue and others},
journal={arXiv preprint arXiv:2501.12326},
year={2025}
}