字节开源GUI Agent,登顶GitHub热榜量子位
2/10/2026
GitHub最新热榜榜首,来自字节。
这波自研硬核技术不是别的——
正是豆包手机的核心支撑,GUI Agent模型UI-TARS。
力压OpenAI官方Skills,开源登顶榜首,突破26k Star!
UI-TARS的核心是个多模态AI智能体,你只要通过自然语言指令——
也就是说句人话,就能让它自己点鼠标、敲键盘、拖动滚动、翻页浏览,在浏览器和各种软件里帮你完成一整套复杂操作。
主要包含了Agent TARS和UI-TARS-desktop两个项目。
Agent TARS支持一键式开箱即用的CLI,可以在有界面的Web UI环境执行,也能在无界面的服务器环境运行;
UI-TARS-desktop则是一个桌面应用程序,主要帮你操作本地电脑和浏览器。
UI-TARS这种GUI Agent的核心逻辑其实就是五个字——纯视觉驱动。
纯视觉有啥特点呢?
从传统RPA这类自动化工具来看,它们要想干活儿就得去扒复杂的网页源码、记控件编号,而且一旦这些界面稍微改一点,脚本就直接报废了。
纯视觉就是说,靠内置的视觉大模型,AI就能直接像人眼一样观察屏幕。
不管软件有没有开放API、不管界面有多复杂,只要你能看清菜单在哪、按钮在哪,它就也能,然后帮你操作。
如果有朋友想体验,部署起来也非常简单,只需要三步。
第一步,检查有没有安装Node.js和Chrome,没安装Node.js的话,要安装一个>=22的版本。
检查可以用如下命令:
选完模型后,出现如下界面就表示部署完成啦!
然后我们点击上面框选的链接,即可打开Web用户界面。
接下来就可以对它发!号!施!令!了。


