字节开源GUI Agent，登顶GitHub热榜量子位

GitHub最新热榜榜首，来自字节。

这波自研硬核技术不是别的——

正是豆包手机的核心支撑，GUI Agent模型UI-TARS。

力压OpenAI官方Skills，开源登顶榜首，突破26k Star！

UI-TARS的核心是个多模态AI智能体，你只要通过自然语言指令——

也就是说句人话，就能让它自己点鼠标、敲键盘、拖动滚动、翻页浏览，在浏览器和各种软件里帮你完成一整套复杂操作。

主要包含了Agent TARS和UI-TARS-desktop两个项目。

Agent TARS支持一键式开箱即用的CLI，可以在有界面的Web UI环境执行，也能在无界面的服务器环境运行；

UI-TARS-desktop则是一个桌面应用程序，主要帮你操作本地电脑和浏览器。

UI-TARS这种GUI Agent的核心逻辑其实就是五个字——纯视觉驱动。

纯视觉有啥特点呢？

从传统RPA这类自动化工具来看，它们要想干活儿就得去扒复杂的网页源码、记控件编号，而且一旦这些界面稍微改一点，脚本就直接报废了。

纯视觉就是说，靠内置的视觉大模型，AI就能直接像人眼一样观察屏幕。

不管软件有没有开放API、不管界面有多复杂，只要你能看清菜单在哪、按钮在哪，它就也能，然后帮你操作。

如果有朋友想体验，部署起来也非常简单，只需要三步。

第一步，检查有没有安装Node.js和Chrome，没安装Node.js的话，要安装一个>=22的版本。

检查可以用如下命令：

选完模型后，出现如下界面就表示部署完成啦！

然后我们点击上面框选的链接，即可打开Web用户界面。

接下来就可以对它发！号！施！令！了。