Google 推出Gemini 1.0,Google声称这是目前为止最强大、最通用的模型,而且经过许多基准测试都展现先进的性能,而且依照不同模型的大小进行最佳化分为Ultra、Pro和Nano。
Gemini是Google跨部门大型合作的成果,包括Google Research团队的成员也参与其中。从一开始,Google就把Gemini设计为多模态的模式,不仅能够通用化并流畅地理解、操作和结合包括文字、图像、音讯、视讯和程式码在内的不同类型资讯,而且可以应用在资料中心、行动装置等各种平台,并针对不同规模进行最佳化:
.Gemini Ultra:规模最大、功能最强大的模型,专为高度复杂的任务而设计。
.Gemini Pro:最适合扩展、横跨各种类型的任务。
.Gemini Nano:处理装置上的任务最有效率的模型。
Google不断对Gemini模型进行严格的测试,评估Gemini在处理各种任务上的表现。从理解自然图像、音讯和视讯,到数学推理;我们发现Gemini Ultra在大型语言模型(LLM)研究和开发中广泛采用的32个学术基准测试中,有30个取得了超越了当前的最先进基准的效能。
Google透过32个在研究和开发大型语言模型(LLM)的时候会采用的学术基准,去测试Gemini Ultra从理解自然图像、音讯和视讯到数学推理的表现,而从其中30 个测试基准得到的结果,都超越目前最先进的模型。
在MMLU(大规模多任务语言理解;massive multitask language understanding)的测试里,结合了包括数学、物理、历史、法律、医学和伦理学等57 个主题,去测试模型对世界的理解还有解决问题的能力;而Gemini Ultra以90.04%的高得分,成为第一个在MMLU测试里超越人类专家的模型。
Google以新的MMLU衡量方法,让Gemini能够利用它的推理能力在回答难题前更仔细地思考,相比仅使用第一印象的评估方式有显著进化。
此外,基础测试还具有多模态的任务,跨越不同的领域,要完成的话需要刻意的去推理,而Gemini Ultra也在MMMU的基准测试里得到59.4% 的领先分数。
光学字元识别(object character recognition, OCR)系统,会协助模型从影像撷取出文字讯息,再近一步处理;但是在我们的图像基准测试里,Gemini Ultra在没有使用OCR的情况下,还超越了先前的最先进模型。这些基准测试,突显出Gemini原生多模态的特性,也初步展现了Gemini具备更复杂的推理能力。
Gemini设计成原生就是多模态的模型,一开始就在不同的模态上进行预先的训练。接着,我们透过额外的多模态资料进行微调,进一步提升效能。这样可以帮助Gemini从一开始就能顺畅地理解和推理各种输入的资讯,效能远比现有的多模态模型来得好,并几乎在所有的领域都展现出最先进的能力。
成熟的推理能力
Gemini 1.0成熟的多模态推理能力,有助于理解复杂的书面和视觉讯息,也因此使得Gemini具备了独特的技能,可以从大量资料中整理出难以理解的知识。
Gemini在阅读、筛选和理解资讯方面的能力相当令人惊艳,能够从数十万份文件中撷取出观点,能够更快速地帮助许多领域带来新的突破,从科学到金融都是。
理解文字、图像、音讯等更多资讯
Gemini 1.0所受的训练,是同时识别和理解文字、图像和音讯等资讯,所以能进一步的理解更细微的资讯,并回答涉及复杂主题的问题。这也让Gemini 在解释、推理像是数学和物理这样复杂的问题上,表现特别出色。
进阶的程式设计能力
第一个版本的Gemini能够理解、解释世界上最常用的程式语言 ,像是Python、Java、C++和Go,并且生成高品质的程式码。能够跨语言工作、解读复杂资讯的能力,更让Gemini成为世界数一数二的程式设计基础模型。
Gemini Ultra在几个程式设计的基准测试中表现出色,包括程式设计业界衡量成效标准的HumanEval测试,以及截留(held-out)验证资料集,用的是程式设计者自己生成的来源,而不是来自网路的资讯。
Gemini也可以当作引擎,来驱动更进阶的程式生成系统。两年前,Google推出了AlphaCode,是第一个在程式设计竞赛当中能够达到有竞争实力的AI 程式码生成系统。
透过一个专门版本的Gemini,Gooogle建立了更进阶的程式码生成系统AlphaCode 2。这个系统除了擅长程式设计,还能处理和数学与理论电脑科学相关、复杂的竞技程式设计的问题。
当与AlphaCode在相同的平台上进行评估时,AlphaCode 2展现出大幅度的进步,解决的问题数量几乎是两倍。我们评估AlphaCode 2的表现超过85%的参赛者,相较于AlphaCode只赢过50%左右的参赛者,有所提升。而且,如果程式设计师和AlphaCode 2协作,协助定义程式码需要遵循的特定属性时,表现甚至更好。