作者:Demis Hassabis,Google DeepMind 首席执行官兼联合创始人,代表 Gemini 团队
Gemini 是整个 Google 团队(包括 Google Research 的同事)大规模协作努力的成果。它是从头开始构建的多模式,这意味着它可以概括和无缝地理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。
隆重推出 Gemini:我们最大、能力最强的人工智能模型。
4:35
Gemini 简介:我们最大、能力最强的人工智能模型
Gemini 也是我们迄今为止最灵活的模型 – 能够在从数据中心到移动设备的所有设备上高效运行。其最先进的功能将显着增强开发人员和企业客户利用人工智能进行构建和扩展的方式。
我们针对三种不同的尺寸优化了 Gemini 1.0(我们的第一个版本):
Gemini Ultra——我们最大、最有能力的模型,适用于高度复杂的任务。
Gemini Pro——我们可扩展各种任务的最佳模型。
Gemini Nano——我们最高效的设备端任务模型。
最先进的性能
我们一直在严格测试 Gemini 模型并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,Gemini Ultra 的性能在大型语言模型 (LLM) 研发中使用的 32 个广泛使用的学术基准中的 30 个上超过了当前最先进的结果。
Gemini Ultra 的得分高达 90.0%,是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个科目来测试知识和解决问题的能力。
我们新的 MMLU 基准方法使 Gemini 能够利用其推理能力在回答难题之前更仔细地思考,从而比仅使用第一印象有显着改进。
该图表显示了 Gemini Ultra 在常见文本基准测试中与 GPT-4 的性能比较(在报告数字缺失的情况下计算的 API 数字)。
Gemini 在文本和编码等一系列基准测试中超越了最先进的性能。
Gemini Ultra 还在新的MMMU基准测试中取得了 59.4% 的最先进分数,该基准测试由跨越不同领域、需要深思熟虑的推理的多模态任务组成。
根据我们测试的图像基准,Gemini Ultra 的性能优于以前最先进的模型,无需从图像中提取文本以进行进一步处理的对象字符识别 (OCR) 系统的帮助。这些基准凸显了双子座天生的多模态性,并表明了双子座更复杂推理能力的早期迹象。
请参阅我们的Gemini 技术报告了解更多详细信息。
该图表显示了 Gemini Ultra 与 GPT-4V 相比在多模式基准上的性能,之前的 SOTA 模型列出了 GPT-4V 不支持功能的地方。
Gemini 在一系列多模式基准测试中超越了最先进的性能。
下一代功能
到目前为止,创建多模态模型的标准方法涉及针对不同模态训练单独的组件,然后将它们拼接在一起以粗略地模仿其中的一些功能。这些模型有时擅长执行某些任务,例如描述图像,但难以处理更概念性和复杂的推理。
我们将 Gemini 设计为原生多模式,从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调,以进一步完善其有效性。这有助于 Gemini 从头开始无缝地理解和推理各种输入,远远优于现有的多模式模型 – 而且其功能几乎在每个领域都是最先进的。
详细了解Gemini 的功能并了解其工作原理。
复杂的推理
Gemini 1.0 复杂的多模式推理功能可以帮助理解复杂的书面和视觉信息。这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。
其通过阅读、过滤和理解信息从数十万份文档中提取见解的卓越能力将有助于在从科学到金融的许多领域以数字速度实现新的突破。
双子座开启了新的科学见解。
2:43
双子座解锁新的科学见解
理解文本、图像、音频等
Gemini 1.0 经过训练,可以同时识别和理解文本、图像、音频等,因此它可以更好地理解微妙的信息,并可以回答与复杂主题相关的问题。这使得它特别擅长解释数学和物理等复杂学科的推理。
双子座解释数学和物理推理。
1:59
双子座解释数学和物理推理
高级编码
我们的第一个版本的 Gemini 可以理解、解释和生成世界上最流行的编程语言(如 Python、Java、C++ 和 Go)的高质量代码。它跨语言工作和推理复杂信息的能力使其成为世界领先的编码基础模型之一。
Gemini Ultra 在多个编码基准测试中表现出色,包括HumanEval(用于评估编码任务性能的重要行业标准)和 Natural2Code(我们内部保留的数据集),该数据集使用作者生成的源而不是基于网络的信息。
Gemini 还可以用作更高级编码系统的引擎。两年前,我们推出了AlphaCode,这是第一个在编程竞赛中达到竞争性能水平的人工智能代码生成系统。
使用 Gemini 的专门版本,我们创建了更先进的代码生成系统AlphaCode 2,它擅长解决超出编码范围、涉及复杂数学和理论计算机科学的竞争性编程问题。
双子座擅长编码和竞争性编程。
5:01
双子座擅长编码和竞争性编程
当在与原始 AlphaCode 相同的平台上进行评估时,AlphaCode 2 显示出巨大的改进,解决的问题数量几乎是原来的两倍,我们估计它的表现优于 85% 的竞赛参与者,而 AlphaCode 的这一比例接近 50%。当程序员通过为代码示例定义某些属性来与 AlphaCode 2 协作时,它的性能会更好。
我们很高兴程序员越来越多地使用功能强大的人工智能模型作为协作工具,帮助他们推理问题、提出代码设计并协助实施,这样他们就可以更快地发布应用程序并设计更好的服务。
请参阅我们的AlphaCode 2 技术报告了解更多详细信息。
更可靠、可扩展且高效
我们使用 Google 内部设计的张量处理单元(TPU) v4 和 v5e 在我们的 AI 优化基础设施上大规模训练 Gemini 1.0。我们将其设计为最可靠、最可扩展的训练模型,以及最高效的服务模型。
在 TPU 上,Gemini 的运行速度明显快于早期、较小且功能较差的型号。这些定制设计的人工智能加速器一直是谷歌人工智能产品的核心,这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play 和 Android 等数十亿用户提供服务。它们还使世界各地的公司能够经济高效地训练大规模人工智能模型。
今天,我们宣布推出迄今为止最强大、最高效且可扩展的 TPU 系统Cloud TPU v5p,专为训练尖端 AI 模型而设计。这款下一代TPU将加速Gemini的开发,帮助开发者和企业客户更快地训练大规模生成式AI模型,让新产品和能力更快地到达客户手中。
Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机。
Google 数据中心内的一排 Cloud TPU v5p AI 加速器超级计算机。
以责任和安全为核心构建
在 Google,我们致力于在我们所做的一切事情中推进大胆且负责任的人工智能。基于 Google 的人工智能原则和我们产品中强大的安全政策,我们正在添加新的保护措施来考虑 Gemini 的多模式功能。在开发的每个阶段,我们都会考虑潜在的风险,并努力测试和减轻它们。
Gemini 拥有迄今为止所有 Google AI 模型中最全面的安全评估,包括偏见和毒性。我们对网络攻击、说服和自主等潜在风险领域进行了新颖的研究,并应用了 Google Research 一流的对抗性测试技术来帮助在 Gemini 部署之前识别关键的安全问题。
Gemini 1.0 现已在一系列产品和平台上推出:
Google 产品中的 Gemini Pro
我们通过 Google 产品将 Gemini 带给数十亿人。
从今天开始,巴德将使用 Gemini Pro 的微调版本来进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。它将在 170 多个国家和地区提供英语版本,我们计划在不久的将来扩展到不同的模式并支持新的语言和地点。
我们还将Gemini 引入 Pixel。Pixel 8 Pro 是第一款运行 Gemini Nano 的智能手机,它支持 Recorder 应用中的 Summarize 等新功能,并从 WhatsApp 开始推出 Gboard 中的 Smart Reply,明年还会推出更多消息应用。
在接下来的几个月中,Gemini 将出现在我们更多的产品和服务中,例如搜索、广告、Chrome 和 Duet AI。
我们已经开始在搜索中试验 Gemini,它使用户的搜索生成体验(SGE) 更快,美国英语的延迟减少了 40%,同时质量也得到了提高。
与双子座一起建设
从 12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或Google Cloud Vertex AI中的 Gemini API 访问 Gemini Pro 。