12 月 6 日,谷歌宣布推出其认为规模最大、功能最强大的人工智能模型 Gemini。
谷歌首席执行官皮查伊表示,Gemini 1.0 是目前为止谷歌能力最强的通用人工智能模型,Gemini 是原生多模态打造,是谷歌通往 Gemini 模型时代的第一步。
据介绍,Gemini 1.0 是谷歌筹备了一年之久的 GPT4 真正竞品,将包括三种不同的套件:Gemini Ultra、Gemini Pro 和 Gemini Nano。其中 Ultra 的能力最强,复杂度最高,能够处理最为困难的任务;Pro 能力稍弱,可以用来处理多任务;Nano 则更注重于端侧的处理能力。
和市面上现有大模型相比,Gemini 从一开始就被创建为多模态的模型。因为从最初的预训练数据开始,Gemini 就在针对不同模态的模型进行训练,这意味着它可以归纳并流畅地理解、操作以及组合不同类型的信息,包括文本、代码、音频、图像和视频。在灵活度上,从数据中心到移动设备上,它都能够运行。
谷歌表示,对 Gemini 模型进行了严格的测试,并评估了它们在各种任务中的表现。从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的 32 项学术基准中,Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。
在权威 MMMU 基准测试中,Gemini Ultra 获得了 59.4% 的 SOTA 分数。作为对比,人类专家的得分率为 89.8%,GPT4 得分率为 86.4%。但是谷歌并没有透露 Ultra 和 Pro 版本的具体参数规模。
此外,谷歌还基于 Gemini 模型开发了专业的代码模型 AlphaCode 2。与前一代相比,AlphaCode 2 的性能提升了至少 50% 以上。
谷歌表示计划通过谷歌云将 Gemini 授权给客户,供他们在自己的应用程序中使用。从12 月 13 日开始,开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。