有AI的搜索、会规划的Agent、更长的上下文，全靠多模态Gemini

　　还是那个圆形剧场(Shoreline Amphitheatre)，五月的气候嗖嗖灌着穿堂风，但现场气氛丝毫未受到影响。

　　反倒是因为在24小时之前，OpenAI带着GPT-4o来了场截胡式官宣，把谷歌的这场I/O架在一个非常尴尬的位置，此刻大家似乎都在等着看谷歌“阁下又该如何应对”。

　　于是谷歌用了整场两小时的时间，来了场特种兵式的发布，一次性回应所有的声音。

　　如果用一个词形容今年的I/O，那一定是「全」，你能想到的几乎所有AI场景，谷歌这次都有涉及到：

　　从基础模型Gemini的性能增强(包括轻量级模型Gemini 1.5 Flash、200万tokens超长上下文的Gemini 1.5 Pro);到开源模型Gemma的进展(剧透下一代开源模型Gemma 2);到支持超过1分钟、1080P的视频生成模型Veo;与ChatGPT-4o一样“长了眼和嘴”的拥有视觉语音交互功能的Gemini Live;还有文生图模型imagen 3;AI音乐创作工具Music AI Sandbox;以及向其他AI Agent贴脸开大的Project Astra。

　　这么全，又这么多首发，很难不让人猜想，谷歌难道一直在憋大招?

　　留意到此前Madrona Venture Group合伙人、Amazon Web Services前人工智能高管Jon Turow说，谷歌这次的发布时间表较慢是可以理解的，因为谷歌 “比其他公司(如OpenAI)承担更大的责任”，谷歌是在自家有着数十亿用户的现有业务上做文章，不是从零开始，所以更慎重。“当一个产品达到其他公司(如OpenAI)可以发布的标准时，谷歌也不能草率地发布。”

　　Gemini的完全形态：多模态、长上下文、AI Agent

　　当谷歌CEO桑达尔·皮查伊上台，好戏正式开始。

　　谷歌CEO桑达尔·皮查伊(Sundar Pichai)

　　“Gemini”“Gemini”“Gemini”这恐怕是整场出现频率最高的词，作为谷歌目前最核心的基础模型，Gemini尽显谷歌在AI时代的野心。

　　1年前，Gemini问世时谷歌对它定位就很明确：多模态模型。在那之后，Gemini就朝着该定位，开始火速迭代。去年12月，谷歌推出Gemini 1.0，共有三个版本：Ultra、Pro 和 Nano。两个月后，谷歌又推出Gemini 1.5 Pro，有了更强的性能、100万token的长上下文。

　　“谷歌正式迈向Gemini时代(Google is fully in Gemini era)”，皮查伊直奔主题说：

　　目前有超过150万开发者在工具中使用Gemini，有20亿用户产品在使用Gemini，而谷歌推出安卓和iOS上可用的Gemini Advanced在发布三个月后就已经收获超过100万用户。

　　此外，Gemini 1.5 Pro还从原本的100万token升级到200万token，这意味着能处理1500页PDF、3万行代码、或1小时视频文件，即日起Gemini 1.5 Pro将通过Gemini Advanced向全球150多个国家的用户正式推送，且支持35种语言。

　　Gemini 1.5的 200 万token能力横评对比

　　而在现场，Gemini又有更新：谷歌发布针对端侧的模型Gemini 1.5 flash，同样有100万和200万token版本。相比此前的Gemini 1.5 Pro，该模型的特点是轻量级：更快速高效、多通道推理、长上下文。

　　价格方面，Gemini 1.5 Pro为7美元/100万tokens，对于128k以下的输入，将降价50%至3.5美元/100万tokens，比 OpenAI 的 GPT-4o 便宜约 30%;Gemini 1.5 Flash的价格为0.35美元/100万tokens，比OpenAI的任何大模型都便宜。

　　除了Gemini本身的更新之外，更重要的是，谷歌把Gemini植入到所有产品中，包括搜索、地图、照片、Workspace、安卓等等。

　　· 搜索大不同

　　作为搜索巨头，要想让Gemini成长，谷歌自然不会放过搜索这个现成的数据库，所以，你现在在谷歌的每一次搜索，背后都有Gemini在工作。这个功能被称为「AI Overview(AI概述)」，是指AI会根据你的搜索，给出最佳答案，提升搜索体验。

　　相比传统的搜索引擎，AI Overviews功能将为用户呈现出包括观点、见解、链接的完整答案。谷歌强调其三大独特优势：实时信息、排名和质量体系、Gemini能力。谷歌引入多步推理功能(Multi-step reasoning)，把大问题一步步分解，并按优先顺序提供。

　　例如，用户想找一个合适的普拉提工作室，需要考虑时间、价格、距离等因素，就可以在谷歌搜索输入：“在波士顿找到最好的瑜伽工作室，并显示优惠详情，以及从我家过去的步行时间”。最终，谷歌搜索将提炼整合出信息，并呈现在AI Overviews中，为用户节省时间。

　　· 今夏上线的Ask Photos

　　当然，不仅谷歌搜索有Gemini，照片搜索中也有Gemini。皮查伊现场演示了Gemini在Google Photos(谷歌相册)里如何整活儿，比如你在停车场给车拍了照之后，找不到车停哪儿时，可以直接问 Gemini “我的车在哪”，它就能帮你自动识别相关照片中的信息，告诉你车的具体位置。

　　这个功能被称为「Ask Photos」，将于今年夏天正式发布。

　　而正是因为Gemini的多模态和“长”上下文，Ask Photos不仅能搜索照片，甚至能理解搜出来的内容。比如，你在回忆女儿Lucia的高光时刻，可以直接问Gemini：“Lucia是啥时候学会游泳的?”甚至问更复杂的问题：“Lucia的游泳进步了夺少?”

　　在这背后，Gemini可以根据“Lucia在游泳池里游泳，到在海洋里浮潜，再到游泳证书上的文字和日期”一系列内容，最后告诉你答案。