12月6日,谷歌正式向公众发布新一代大语言模型(LLM)Gemini,号称谷歌迄今为止“最大、也最全能的AI模型”,有万亿参数,训练所用的算力甚至达到GPT-4的五倍。32种基准指标中,Gemini有30项都领先GPT。而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,首次超过了人类专家。MMLU综合使用了数学、物理、历史、法律、医学和伦理等57个科目,用于测试世界知识和解决问题的能力。
针对MMLU,谷歌新的基准测试方法让Gemini能够利用其推理能力在回答困难问题之前更加仔细地思考,从而比仅凭第一印象就直接回答问题有显著的改善。在新的MMMU基准测试中,Gemini Ultra也取得了得分率为59.4%的优异成绩,该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。
在谷歌的图像基准测试中,Gemini Ultra在不使用对象字符识别(OCR)系统来提取图像中的文本进行下一步处理的情况下,表现优于以前最好的模型。这些基准测试凸显了Gemini的原生多模态性,并显示出了Gemini具有更复杂推理能力的潜力。
Gemini原生多模态设计,在几乎各领域都拥有最先进能力。到目前为止,创建多模态模型的标准方法是分别训练不同模态的组件,然后将它们拼接在一起,以粗略模拟某些功能。这些模型有时可以很好地完成描述图像等特定任务,但在概念性更强、更复杂的推理方面却显得力不从心。
谷歌将Gemini设计为原生多模态,从一开始就在不同模态上进行预训练。然后,谷歌利用额外的多模态数据对其进行微调,以进一步提高其有效性。这有助于Gemini从最初阶段就能对输入的各种内容顺畅地进行理解和推理,远远优于现有的多模态模型,其能力几乎各个领域都是最先进的。Gemini 1.0具有复杂的多模态推理能力,可帮助理解复杂的书面和视觉信息。
这使得它具有独特的技能,可以在海量的数据中发掘难以辨别的知识内容。它拥有通过阅读、过滤以及理解信息,从数十万份文件中提取见解的卓越能力,将有助于在从科学到金融等多个领域以数字化速度实现新的突破。Gemini 1.0经过训练,可以同时识别并理解文本、图像、音频等,因此它能更好地理解具有细微差别的信息,回答与复杂主题相关的问题。
这就让它尤其擅长解释数学和物理等复杂科目中的推理。谷歌的第一代Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。它能够跨语言工作并对复杂信息进行推理,这些能力使其成为世界领先的编码基础模型之一。我们认为,Gemini的发布,代表多模态大模型的发展进入了新时期,未来AI在各行业商业落地有望持续加速。