字节开源GUI Agent,登顶GitHub热榜量子位

2/10/2026

GitHub最新热榜榜首,来自字节。

这波自研硬核技术不是别的——

正是豆包手机的核心支撑,GUI Agent模型UI-TARS。

力压OpenAI官方Skills,开源登顶榜首,突破26k Star!

UI-TARS的核心是个多模态AI智能体,你只要通过自然语言指令——

也就是说句人话,就能让它自己点鼠标、敲键盘、拖动滚动、翻页浏览,在浏览器和各种软件里帮你完成一整套复杂操作。

主要包含了Agent TARS和UI-TARS-desktop两个项目。

Agent TARS支持一键式开箱即用的CLI,可以在有界面的Web UI环境执行,也能在无界面的服务器环境运行;

UI-TARS-desktop则是一个桌面应用程序,主要帮你操作本地电脑和浏览器。

UI-TARS这种GUI Agent的核心逻辑其实就是五个字——纯视觉驱动。

纯视觉有啥特点呢?

从传统RPA这类自动化工具来看,它们要想干活儿就得去扒复杂的网页源码、记控件编号,而且一旦这些界面稍微改一点,脚本就直接报废了。

纯视觉就是说,靠内置的视觉大模型,AI就能直接像人眼一样观察屏幕。

不管软件有没有开放API、不管界面有多复杂,只要你能看清菜单在哪、按钮在哪,它就也能,然后帮你操作。

如果有朋友想体验,部署起来也非常简单,只需要三步。

第一步,检查有没有安装Node.js和Chrome,没安装Node.js的话,要安装一个>=22的版本。

检查可以用如下命令:

选完模型后,出现如下界面就表示部署完成啦!

然后我们点击上面框选的链接,即可打开Web用户界面。

接下来就可以对它发!号!施!令!了。

Scroll for more