谷歌发布原生多模态大模型Gemini

　　12月6日，谷歌正式向公众发布新一代大语言模型(LLM)Gemini，号称谷歌迄今为止“最大、也最全能的AI模型”，有万亿参数，训练所用的算力甚至达到GPT-4的五倍。32种基准指标中，Gemini有30项都领先GPT。而在MMLU(大规模多任务语言理解)测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家。MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目，用于测试世界知识和解决问题的能力。

　　针对MMLU，谷歌新的基准测试方法让Gemini能够利用其推理能力在回答困难问题之前更加仔细地思考，从而比仅凭第一印象就直接回答问题有显著的改善。在新的MMMU基准测试中，Gemini Ultra也取得了得分率为59.4%的优异成绩，该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。

　　在谷歌的图像基准测试中，Gemini Ultra在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下，表现优于以前最好的模型。这些基准测试凸显了Gemini的原生多模态性，并显示出了Gemini具有更复杂推理能力的潜力。

　　Gemini原生多模态设计，在几乎各领域都拥有最先进能力。到目前为止，创建多模态模型的标准方法是分别训练不同模态的组件，然后将它们拼接在一起，以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务，但在概念性更强、更复杂的推理方面却显得力不从心。

　　谷歌将Gemini设计为原生多模态，从一开始就在不同模态上进行预训练。然后，谷歌利用额外的多模态数据对其进行微调，以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理，远远优于现有的多模态模型，其能力几乎各个领域都是最先进的。Gemini 1.0具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。

　　这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息，从数十万份文件中提取见解的卓越能力，将有助于在从科学到金融等多个领域以数字化速度实现新的突破。Gemini 1.0经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。

　　这就让它尤其擅长解释数学和物理等复杂科目中的推理。谷歌的第一代Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。我们认为，Gemini的发布，代表多模态大模型的发展进入了新时期，未来AI在各行业商业落地有望持续加速。