AI模型Google Gemini报到！将挑战GPT4.0霸权

　　Google 推出Gemini 1.0，Google声称这是目前为止最强大、最通用的模型，而且经过许多基准测试都展现先进的性能，而且依照不同模型的大小进行最佳化分为Ultra、Pro和Nano。

　　Gemini是Google跨部门大型合作的成果，包括Google Research团队的成员也参与其中。从一开始，Google就把Gemini设计为多模态的模式，不仅能够通用化并流畅地理解、操作和结合包括文字、图像、音讯、视讯和程式码在内的不同类型资讯，而且可以应用在资料中心、行动装置等各种平台，并针对不同规模进行最佳化：

　　.Gemini Ultra：规模最大、功能最强大的模型，专为高度复杂的任务而设计。

　　.Gemini Pro：最适合扩展、横跨各种类型的任务。

　　.Gemini Nano：处理装置上的任务最有效率的模型。

　　Google不断对Gemini模型进行严格的测试，评估Gemini在处理各种任务上的表现。从理解自然图像、音讯和视讯，到数学推理;我们发现Gemini Ultra在大型语言模型(LLM)研究和开发中广泛采用的32个学术基准测试中，有30个取得了超越了当前的最先进基准的效能。

　　Google透过32个在研究和开发大型语言模型(LLM)的时候会采用的学术基准，去测试Gemini Ultra从理解自然图像、音讯和视讯到数学推理的表现，而从其中30 个测试基准得到的结果，都超越目前最先进的模型。

　　在MMLU(大规模多任务语言理解;massive multitask language understanding)的测试里，结合了包括数学、物理、历史、法律、医学和伦理学等57 个主题，去测试模型对世界的理解还有解决问题的能力;而Gemini Ultra以90.04%的高得分，成为第一个在MMLU测试里超越人类专家的模型。

　　Google以新的MMLU衡量方法，让Gemini能够利用它的推理能力在回答难题前更仔细地思考，相比仅使用第一印象的评估方式有显著进化。

　　此外，基础测试还具有多模态的任务，跨越不同的领域，要完成的话需要刻意的去推理，而Gemini Ultra也在MMMU的基准测试里得到59.4% 的领先分数。

　　光学字元识别(object character recognition, OCR)系统，会协助模型从影像撷取出文字讯息，再近一步处理;但是在我们的图像基准测试里，Gemini Ultra在没有使用OCR的情况下，还超越了先前的最先进模型。这些基准测试，突显出Gemini原生多模态的特性，也初步展现了Gemini具备更复杂的推理能力。

　　Gemini设计成原生就是多模态的模型，一开始就在不同的模态上进行预先的训练。接着，我们透过额外的多模态资料进行微调，进一步提升效能。这样可以帮助Gemini从一开始就能顺畅地理解和推理各种输入的资讯，效能远比现有的多模态模型来得好，并几乎在所有的领域都展现出最先进的能力。

　　成熟的推理能力

　　Gemini 1.0成熟的多模态推理能力，有助于理解复杂的书面和视觉讯息，也因此使得Gemini具备了独特的技能，可以从大量资料中整理出难以理解的知识。

　　Gemini在阅读、筛选和理解资讯方面的能力相当令人惊艳，能够从数十万份文件中撷取出观点，能够更快速地帮助许多领域带来新的突破，从科学到金融都是。

　　理解文字、图像、音讯等更多资讯

　　Gemini 1.0所受的训练，是同时识别和理解文字、图像和音讯等资讯，所以能进一步的理解更细微的资讯，并回答涉及复杂主题的问题。这也让Gemini 在解释、推理像是数学和物理这样复杂的问题上，表现特别出色。

　　进阶的程式设计能力

　　第一个版本的Gemini能够理解、解释世界上最常用的程式语言，像是Python、Java、C++和Go，并且生成高品质的程式码。能够跨语言工作、解读复杂资讯的能力，更让Gemini成为世界数一数二的程式设计基础模型。

　　Gemini Ultra在几个程式设计的基准测试中表现出色，包括程式设计业界衡量成效标准的HumanEval测试，以及截留(held-out)验证资料集，用的是程式设计者自己生成的来源，而不是来自网路的资讯。

　　Gemini也可以当作引擎，来驱动更进阶的程式生成系统。两年前，Google推出了AlphaCode，是第一个在程式设计竞赛当中能够达到有竞争实力的AI 程式码生成系统。

　　透过一个专门版本的Gemini，Gooogle建立了更进阶的程式码生成系统AlphaCode 2。这个系统除了擅长程式设计，还能处理和数学与理论电脑科学相关、复杂的竞技程式设计的问题。

　　当与AlphaCode在相同的平台上进行评估时，AlphaCode 2展现出大幅度的进步，解决的问题数量几乎是两倍。我们评估AlphaCode 2的表现超过85%的参赛者，相较于AlphaCode只赢过50%左右的参赛者，有所提升。而且，如果程式设计师和AlphaCode 2协作，协助定义程式码需要遵循的特定属性时，表现甚至更好。