还是那个圆形剧场(Shoreline Amphitheatre),五月的气候嗖嗖灌着穿堂风,但现场气氛丝毫未受到影响。
反倒是因为在24小时之前,OpenAI带着GPT-4o来了场截胡式官宣,把谷歌的这场I/O架在一个非常尴尬的位置,此刻大家似乎都在等着看谷歌“阁下又该如何应对”。
于是谷歌用了整场两小时的时间,来了场特种兵式的发布,一次性回应所有的声音。
如果用一个词形容今年的I/O,那一定是「全」,你能想到的几乎所有AI场景,谷歌这次都有涉及到:
从基础模型Gemini的性能增强(包括轻量级模型Gemini 1.5 Flash、200万tokens超长上下文的Gemini 1.5 Pro);到开源模型Gemma的进展(剧透下一代开源模型Gemma 2);到支持超过1分钟、1080P的视频生成模型Veo;与ChatGPT-4o一样“长了眼和嘴”的拥有视觉语音交互功能的Gemini Live;还有文生图模型imagen 3;AI音乐创作工具Music AI Sandbox;以及向其他AI Agent贴脸开大的Project Astra。
这么全,又这么多首发,很难不让人猜想,谷歌难道一直在憋大招?
留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow说,谷歌这次的发布时间表较慢是可以理解的,因为谷歌 “比其他公司(如OpenAI)承担更大的责任”,谷歌是在自家有着数十亿用户的现有业务上做文章,不是从零开始,所以更慎重。“当一个产品达到其他公司(如OpenAI)可以发布的标准时,谷歌也不能草率地发布。”
Gemini的完全形态:多模态、长上下文、AI Agent
当谷歌CEO桑达尔·皮查伊上台,好戏正式开始。
谷歌CEO桑达尔·皮查伊(Sundar Pichai)
“Gemini”“Gemini”“Gemini”这恐怕是整场出现频率最高的词,作为谷歌目前最核心的基础模型,Gemini尽显谷歌在AI时代的野心。
1年前,Gemini问世时谷歌对它定位就很明确:多模态模型。在那之后,Gemini就朝着该定位,开始火速迭代。去年12月,谷歌推出Gemini 1.0,共有三个版本:Ultra、Pro 和 Nano。两个月后,谷歌又推出Gemini 1.5 Pro,有了更强的性能、100万token的长上下文。
“谷歌正式迈向Gemini时代(Google is fully in Gemini era)”,皮查伊直奔主题说:
目前有超过150万开发者在工具中使用Gemini,有20亿用户产品在使用Gemini,而谷歌推出安卓和iOS上可用的Gemini Advanced在发布三个月后就已经收获超过100万用户。
此外,Gemini 1.5 Pro还从原本的100万token升级到200万token,这意味着能处理1500页PDF、3万行代码、或1小时视频文件,即日起Gemini 1.5 Pro将通过Gemini Advanced向全球150多个国家的用户正式推送,且支持35种语言。
Gemini 1.5的 200 万token能力横评对比
而在现场,Gemini又有更新:谷歌发布针对端侧的模型Gemini 1.5 flash,同样有100万和200万token版本。相比此前的Gemini 1.5 Pro,该模型的特点是轻量级:更快速高效、多通道推理、长上下文。
价格方面,Gemini 1.5 Pro为7美元/100万tokens,对于128k以下的输入,将降价50%至3.5美元/100万tokens,比 OpenAI 的 GPT-4o 便宜约 30%;Gemini 1.5 Flash的价格为0.35美元/100万tokens,比OpenAI的任何大模型都便宜。
除了Gemini本身的更新之外,更重要的是,谷歌把Gemini植入到所有产品中,包括搜索、地图、照片、Workspace、安卓等等。
· 搜索大不同
作为搜索巨头,要想让Gemini成长,谷歌自然不会放过搜索这个现成的数据库,所以,你现在在谷歌的每一次搜索,背后都有Gemini在工作。这个功能被称为「AI Overview(AI概述)」,是指AI会根据你的搜索,给出最佳答案,提升搜索体验。
相比传统的搜索引擎,AI Overviews功能将为用户呈现出包括观点、见解、链接的完整答案。谷歌强调其三大独特优势:实时信息、排名和质量体系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning),把大问题一步步分解,并按优先顺序提供。
例如,用户想找一个合适的普拉提工作室,需要考虑时间、价格、距离等因素,就可以在谷歌搜索输入:“在波士顿找到最好的瑜伽工作室,并显示优惠详情,以及从我家过去的步行时间”。最终,谷歌搜索将提炼整合出信息,并呈现在AI Overviews中,为用户节省时间。
· 今夏上线的Ask Photos
当然,不仅谷歌搜索有Gemini,照片搜索中也有Gemini。皮查伊现场演示了Gemini在Google Photos(谷歌相册)里如何整活儿,比如你在停车场给车拍了照之后,找不到车停哪儿时,可以直接问 Gemini “我的车在哪”,它就能帮你自动识别相关照片中的信息,告诉你车的具体位置。
这个功能被称为「Ask Photos」,将于今年夏天正式发布。
而正是因为Gemini的多模态和“长”上下文,Ask Photos不仅能搜索照片,甚至能理解搜出来的内容。比如,你在回忆女儿Lucia的高光时刻,可以直接问Gemini:“Lucia是啥时候学会游泳的?”甚至问更复杂的问题:“Lucia的游泳进步了夺少?”
在这背后,Gemini可以根据“Lucia在游泳池里游泳,到在海洋里浮潜,再到游泳证书上的文字和日期”一系列内容,最后告诉你答案。