谷歌AI全家桶爆更:新王登场智东西
今日凌晨,在一年一度的谷歌I/O开发者大会上,谷歌接连甩出2款新模型、谷歌搜索25年最大升级、Claude Code谷歌版开发平台Antigravity 2.0、AI眼镜等多个大招!
谷歌CEO桑达尔·皮查伊(Sundar Pichai)称,这次谷歌I/O大会的新发布,意味着其已正式迈入智能体驱动的Gemini时代。皮查伊一开场就放出了自己形象生成的AI视频,暗戳戳秀了一波自家AI能力。
1、新发2款大模型:可基于任意输入形式、生成各类模态输出内容的全能模型Gemini Omini,其首款模型Gemini Omni Flash将率先支持视频输出;谷歌最新、最强旗舰模型Gemini 3.5 Flash亮相,每秒输出token数是OpenAI、Anthropic模型的4倍。
2、开发平台Google Antigravity升级:谷歌基于Gemini 3.5 Flash升级了Google Antigravity、Gemini App上的全天候个人智能体Gemini Spark、谷歌搜索,其宣布此次是谷歌搜索25年来最大更新。
3、谷歌官宣AI眼镜新进展:联合三星展示了由眼镜品牌Gentle Monster和Warby Parker共同设计的两款新眼镜。谷歌纯音频AI眼镜将在今年晚些时候率先推出,带显示屏的版本将在明年推出。
4、其他大招:Gemini App中的日报智能体Daily Brief、购物中心智能体Universal Cart、 AI图像创建和编辑工具Google Pics、Google Flow智能体等。
发布会开场,皮查伊官宣了几组数据:一年时间,谷歌旗下各类业务平台每月处理token暴涨7倍,突破3200万亿token。目前每月有超过850万开发者利用谷歌的模型开发新应用和新体验,模型API目前每分钟处理大约190亿token,过去12个月有超过375名谷歌云客户各自处理了超过一万亿token。
产品的用户量方面,如今谷歌有13款产品的用户超过10亿,其中5款用户超过30亿;AI Overviews现在拥有超过25亿月活跃用户,仅一年时间,谷歌搜索AI Mode的月活跃用户就已突破10亿;Gemini应用的月活跃用户已突破9亿,每日请求增长了七倍以上;Nano Banana图像生成模型已生成超过500亿张图像。
在资本支出上,谷歌今年的资本支出将达到2022年的约6倍,约为1800亿至1900亿美元(约合人民币1.2万亿至1.3万亿元),这项投资的关键部分就是谷歌TPU。谷歌还特地为TPU制作了动画短片。
本届谷歌I/O大会依旧信息量爆棚,智东西带你一文看尽。
一、全能模型Omni亮相,自然语言对话就能改视频
谷歌推出全新模型系列Gemini Omni,可依托任意输入内容生成各类内容,目前其率先支持视频输出,未来会支持图像、文本输出。
谷歌Omni家族的首款模型是Gemini Omni Flash,用户可以在Gemini应用、Google Flow和YouTube Shorts上试用。谷歌将在未来几周通过API向开发者和企业客户推广。
首先用户可以通过对话进行视频剪辑,例如重塑视频中的环境,通过微调细节或者以现有视频为蓝本,打造出用气泡做雕塑等现实情况无法实现的视频内容。
Omini还能对视频中的动作、物品进行修改。谷歌DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)在现场演示了Omini的效果,其修改提示词为:全程保留原视频所有画面与叙事,仅在4.3秒男子手指触碰镜面的瞬间触发特效:镜面以指尖为圆心,泛起液态水波纹般的涟漪;房间整体环境瞬间暗化;海量可自主变形、具备照片级真实质感的多几何造型3D棱镜,同时布满整个房间空间。
其次,Omni还能结合世界知识推演视频的后续情节走向,例如其能理解重力、流体力学等物理概念,创造出弹珠快速滚动的流畅镜头。
此外,其还能通过简短的提示,生成更为复杂的内容,例如用黏土动画解说蛋白质折叠的概念。
最后,其能将用户输入的图像、文本、视频、音频等任意参考内容,生成一个统一的视频。不过目前其只支持语音类参考素材,后续很快会上线其他类型音频输入能力。例如当用户上传角色、场景、音频素材,Omini就会生成对应的视频效果。
二、Gemini 3.5系列来了,Flash版性能拉满,Pro下月发
谷歌还推出了Gemini 3.5系列首款模型Gemini 3.5 Flash,擅长复杂且具备实际实用价值的长期任务。皮查伊透露,他们内部显示Gemini 3.5 Pro的体验效果很好,下个月会发布。
Arena AI的评测结果显示,Gemini 3.5 Flash在性能、速度、成本等方面已经全面超越Gemini 3 Flash和Gemini 3.1 Pro。
目前,Gemini 3.5 Flash已经在Gemini App、谷歌搜索的AI Mode中集成。
从基准测试来看,Gemini 3.5 Flash在多个维度上可提供媲美旗舰模型的性能,在Terminal-Bench 2.1(76.2%)、GDPval-AA(1656 Elo)和 MCP Atlas(83.6%)等具有挑战性的编码和代理基准测试上,表现优于Gemini 3.1 Pro,并在多模态理解方面领先。在每秒输出token数方面,是其他前沿模型的4倍。
谷歌一直在使用Gemini 3.5 Flash,配合开发平台Antigravity的模型,皮查伊将这一新模型称作谷歌内部游戏规则的改变,这大大加快了我们的构建速度。
Gemini 3.5 Flash结合Antigravity可以根据动态标准自动重命名文件和分类
他举例称,如果公司能混合使用Gemini 3.5 Flash和其他前沿模型,可以节省大量资金,公司每天处理约1万亿token,如果他们将80%的工作负载从其他前沿模型转移到3.5 Flash上,每年将节省超过10亿美元。


