Google I/O 2024: 从Gemini“宇宙”到Android 15

　　这是「甲子光年」在看完2024年Google I/O开发者大会的最大感受。

　　5月14日，谷歌2024年I/O开发者大会如期在加州山景城拉开帷幕。今年的主题完全围绕人工智能展开，特别是生成式人工智能和其在各类应用中的实际应用，如 Workspace和Gmail的整合与优化。

　　首席执行官桑达尔·皮查伊(Sundar Pichai)在演讲中一共说了121次“AI”，并喊出了一句嘹亮的口号——“整合全球信息，惠及所有民众”。

　　现场，谷歌发布了Gemini系列的最新AI模型：Gemini 1.5 Flash。

　　同时，谷歌也宣布了Gemini 1.5 Pro升级，全面支持Workspace，同时向全球开发者开放。Google Workspace办公套件也宣布将进一步整合Gemini，推出基于Gemini 1.5 Pro的多种技能，如可总结邮件内容。Gmail也将深度整合Gemini，汇总邮件内容并生成更好的回复。

　　1.AI模型：Gemimi宇宙

　　皮查伊在大会上公布了一系列AI模型的动态。

　　首先是对Gemini 1.5 Pro模型进行了升级。

　　Gemini 1.5 Pro模型已全球向开发者开放。原本它的上下文窗口是100万tokens，现在增加到了200万tokens，能处理更多的数据。

　　谷歌I/O大会现场，来源：谷歌

　　用户即使提供数千页的文本或者几个小时的视频，Gemini 1.5 Pro也能够理解内容并回答相关的问题。这项升级将让模型能同时处理2小时的视频、22小时的音频、超过60000行代码，或超过140万个单词。

　　下个月Gemini 1.5 Pro还将在API层面推出新功能，包括视频输入、并行函数调用和文本缓存，以提高处理多个请求和问答文件时的效率。

　　随后他介绍了Gemini系列新模型——Gemini 1.5 Flash。

　　这是一个比Gemini 1.5 Pro模型运行更快，体积更小，更易于部署，支持处理多种类型的数据，它专为开发者设计。

　　Gemini 1.5 Flash位于Gemini 1.5 Pro和Gemini 1.5 Nano之间，通过一种称为“蒸馏”的过程，将Pro版本中的关键知识和技能转移到一个更小的模型中，使其具备与Pro相同的多模态功能和100万个token的长上下文窗口。

　　Gemini 1.5 Flash现在就可以使用了。

　　DeepMind的联合创始人兼CEO戴密斯·哈萨比斯(Demis Hassabis)提到，他们根据开发者的反馈，优化了模型的响应速度和成本效率。Gemini 1.5 Flash在处理大量数据方面表现出色，特别适用于聊天应用、视频处理和图像字幕。

　　Gemini 1.5 Pro将在Alphabet的内部测试实验室Workspace Labs进行测试。Gemini 1.5 Flash也将在机器学习平台Vertex AI上进行试验和使用，该平台使开发者能够训练和部署AI应用。

　　Gemini 1.5 Flash每百万token的标准价格为0.7美元，输出为1.05美元。对于较小的上下文(小于128k)，有折扣价：输入为0.35美元/百万token，输出为0.53美元/百万token。这比GPT-3.5 Turbo的价格(输入0.5美元/百万token，输出0.15美元/百万token)要高一些。

　　谷歌I/O大会现场，来源：谷歌

　　Gemini 1.5 Pro是Google当前最强大的模型，标准价格为每百万token输入7美元，输出21美元。对于较小的上下文(同样小于128k)，折扣价格为输入3.5美元/百万token，输出10.5美元/百万token。相比于GPT-4o(输入价格5美元/百万token，输出15美元/百万token)略贵一些。

　　目前，谷歌正在筹备一款Project Astra的通用AI代理，这是一款通过智能手机摄像头分析周围世界并与用户进行交互的应用。

　　Astra设计为能够记住看到和听到的内容，从而理解上下文并采取行动。为了提高实用性，谷歌优化了其处理信息的速度，通过持续编码视频帧和结合视频与语音输入到事件时间线上，并缓存信息以实现高效回忆。

　　此外，谷歌还通过增强语音模型，让Astra具有更广泛的语调，使其可以更自然地与用户交流，无滞后或延迟。

　　在实际演示中，一个人使用手机的摄像头扫描办公室，与Astra通过语言交互，比如询问“当你看到有东西发出声音时，请告诉我。”Astra不仅能识别物体和代码，还能实时进行语音互动，展现了它的实用性和交互能力。

　　Project Astra展示了其出色的视觉理解能力和快速的响应时间。一个人在办公室中用摄像头扫描其中的物品及场景，并用语音询问它相关问题。与GPT-4o的功能异曲同工。

　　谷歌I/O大会现场，来源：谷歌

　　Project Astra是AI技术在实用性和交互性方面的一个重大进步，尤其是在增强现实和人机交互方面。它让设备不仅是获取信息的工具，而是能理解和参与我们日常生活的伙伴。或许未来的一天，Astra可能会改变我们与技术的互动方式，让这种交互更个性化和直观。

　　但谷歌透露，Astra的上线还需数月，且只有部分功能将被整合进谷歌的产品中，比如XR眼镜或个人助手。

　　在文生视频领域，谷歌发布了名为Veo的视频生成大模型。该模型能以多种电影和视觉风格生成超过一分钟时长的高质量1080p视频，并凭借对自然语言和视觉语义的理解紧密代表用户的创意愿景。

　　谷歌宣布今年晚些时候，能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机，提供文字、图片、视频、音频的理解能力，并具有隐私保护功能。

　　同时，谷歌即将在6月推出的新一代AI模型Gemma 2，将提供多种尺寸和全新架构，以满足不同开发者的需求并实现卓越的性能和效率。

　　这款模型以其270亿参数提供与更大模型相当的性能，同时优化了部署成本，能在更少的计算资源上运行。Gemma 2还支持广泛的调优工具，使得在多种平台和硬件上的部署和微调变得更加简单高效。

　　2.多模态AI搜索

　　除了Gemini相关产品的发布外，谷歌搜索负责人Liz Reid宣布了一项重大更新，将AI技术更深入地整合到搜索引擎中。

　　谷歌I/O大会现场，来源：谷歌

　　最新的变革是引入视频搜索功能，允许用户上传视频来展示他们需要解决的问题，Gemini技术将在互联网各处寻找解决方案。

　　谷歌正在加强其AI搜索领域的立足点，以应对新兴的AI搜索工具如Perplexity的竞争。这些新兴工具虽然吸引不少用户，谷歌搜索仍未受太大影响。

　　事实上，谷歌的新AI搜索服务ESG已于去年5月发布，一年后向公众开放，名为AI Overview。

　　AI Overview主要强调多模态功能，允许用户通过简化语言或更详细地调整搜索结果概述。此外，利用Gemini的多步推理能力，AI搜索可以处理复杂的多步查询。例如同时寻找瑜伽工作室的位置、受欢迎程度和新会员优惠。

　　谷歌还提供了计划能力，使用户可以一次性获取完整的计划，如为一群人制定三天的餐饮计划。

　　谷歌的多模态搜索是其独特之处，支持通过声音搜索歌曲、图片搜索产品，并结合视频内容进行搜索，如识别旧货店买的坏掉的唱片机的具体问题。

　　虽然这种联想搜索功能已成为AI搜索的常态，但谷歌通过更好的结构化和界面设计，提供了优异的用户体验。

　　尽管其他AI搜索引擎也具备类似功能，但谷歌的多模态搜索能力尤其突出，能够结合声音、图片甚至视频进行搜索，极大地提升了搜索的灵活性和效率。

　　例如，用户可以通过上传视频来解决复杂的技术问题，省去了寻找合适描述的时间和麻烦。尽管Perplexity等对手也在追赶多模态功能，但谷歌在这方面的优势明显，结合其优秀的界面和用户体验，使其在AI搜索领域继续保持领先。

　　谷歌还将推出一项名为Gemini Advanced的订阅服务，让用户能够创建个性化的Gemini版本，称为Gems。

　　Gems类似于聊天机器人，可帮助用户完成任务并具备特定的个性特征，类似于Character.AI平台上的虚拟角色。谷歌表示，用户可以将Gemini定制成健身教练、厨房助手、编程伙伴、创意写作指导等，实现高度个性化的交互体验。

　　谷歌还表示，很快Gemini将能让用户针对屏幕上的视频提问，并依据自动字幕回答问题。对于付费的Gemini Advanced用户，系统还将能提取PDF文件内容并提供所需信息。这些包括Gemini在Android上的多模态功能更新，预计在未来几个月内逐步推出。

　　3.Andriod 15与TPU Trillium

　　谷歌I/O大会现场，来源：谷歌

　　当然，对于谷歌重要的Android，谷歌也没有落下。

　　I/O大会上，谷歌也发布了Android生态系统的“三大突破”：

　　Circle to search(画圈圈搜索);

　　Gemini手机AI助手;

　　以及在手机本地运行的AI。

　　Circle to search(画圈圈搜索)功能。比如使用Android手机或平板电脑，现在可以直接在屏幕上圈出数学题并获得解题帮助。谷歌的人工智能不会直接解答问题，以防学生作弊，而是会把问题分解成几个步骤，使解题过程更简单。

　　这一功能已在Pixel和三星的部分设备上使用。

　　此外，谷歌还介绍了使用设备上的Gemini Nano AI技术，帮助用户识别并避免诈骗电话，系统会通过识别典型的诈骗对话模式并弹出实时警告。谷歌承诺，今年晚些时候会提供更多关于这项功能的细节。

　　Gemini AI的集成将Android操作系统的功能大幅增强，不仅限于单一应用，而是可以跨应用提供服务，比如允许用户直接将图像从Gemini拖放到其他应用。

　　这表明，Android系统正在向一个更加智能和多功能的平台转型，其中Gemini将能访问整个应用程序库，实现与各种应用如Uber和Doordash的深度集成。

　　Android 15 Beta 2将在明天正式推出。

　　在硬件方面，谷歌官宣推出第六代TPU—Trillium，峰值计算性能提高 4.7 倍，将在今年向云客户提供。

　　“我们在过去的25年投资建设了世界一流的技术基础设施。从支持搜索的尖端硬件，到支持人工智能进步的定制张量处理单元。”皮查伊说。

　　谷歌I/O大会现场，来源：谷歌

　　在Trillium的介绍中提到，这是性能最强和能效最高的TPU，其每个芯片的峰值计算性能比前代TPU v5e提高了4.7倍。这种显著的性能提升不仅将加速AI模型的训练过程，还会提高运行这些模型的效率，对谷歌的AI研发和服务有极大的促进作用。

　　比如谷歌的AI模型Gemini就已经在第四代和第五代TPU上进行训练和服务，显示出TPU在支持先进AI应用中的关键作用。

　　此外，其他领先的人工智能公司如Anthropic也在使用谷歌的TPU来训练他们的模型，这进一步验证了TPU在当前AI研发领域的重要性。Pichai的声明中提到了谷歌在过去25年中对技术基础设施的投资，这种长期投入不仅支持了谷歌搜索这样的基础服务，还促进了定制硬件如TPU的发展，从而推动了人工智能技术的整体进步。

　　通过这次大会的宣布，可以看出谷歌在保持其技术领先地位的同时，也在不断寻求通过硬件创新来巩固其在AI领域的竞争力，Trillium TPU的推出就是一个明显的例证。

　　硬件的进步不仅对谷歌自身的产品和服务利好，也为整个AI行业提供了更高效的计算资源。