谷歌语言模型Gemini发布：多模态能力是否真的超越GPT-4

　　12月6日当地时间，谷歌近宣布推出一款名为Gemini的大型语言模型。据谷歌称，Gemini是迄今为止规模最大、功能最强大的AI模型，共有三种不同版本(Ultra、Pro、Nano)，可以适用于不同的场景。Gemini在32项广泛使用的大语言模型基准测试中有30项领先于GPT-4，而在大规模多任务语言理解(MMLU)测试中，Gemini Ultra以90.0%的高分首次超过了人类专家。Gemini计划的一部分是在设计之初考虑了多模态，因此它在理解视频和音频、并与之交互方面具有明显优势，能够概括并无缝地理解、操作和组合不同类型的信息。

　　Gemini

　　Gemini技术报告

　　Gemini技术报告提供了深入的分析和评测，展现了Gemini模型的核心特点和功能。Gemini技术报告的结论非常可能，就数学逻辑等基础学科能力而言，Gemini Ultra可能并不如GPT 4。但在多模态能力方面，它应该要比GPT-4V强。谷歌发布的Gemini技术报告有60页，没有透露具体技术细节，大部分是评测，作者列表包含超过700人，接近OpenAI员工总数。

　　Gemini技术报告

　　Gemini模型结构与训练

　　Gemini是几种模态一起联合从头训练的，包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样。技术报告说Gemini应该是Decoder only的模型结构，针对结构和优化目标做了优化，现在支持32K上下文。从硬件描述来看，使用了前所未有的TPU集群。其训练可能分成多个阶段，最后阶段提高了领域数据的混合配比。AlphaCode2就是在Gemini pro基础上，使用编程竞赛的数据fine-tune出来的。

　　Google

　　模型能力排名

　　Gemini Nano包含两个版本，分别面向低端手机和高端手机，最终转换成为一个维线性输入，让模型预测next token。根据学科能力测试数据，GPT-4略微强于Gemini Ultra。目前大模型能力很可能顺序如下：GPT 4 略微强于Gemini ultra> Claude 2> inflection-2> GPT 3.5= Grok 1 >Llama2。10.多模态能力方面，Gemini Ultra在几乎所有测试数据上要比GPT 4V强一些。11.命令理解方面：采用多模态instruct数据进行SFT+RM+RLHF三阶段。

　　Gemini包含3个版本

　　Gemini模型的多模态能力

　　Gemini技术报告给出了深入的分析和评测，揭示了Gemini模型的核心特点和功能。从多个角度全面展现了Gemini模型的优势和潜力，将为人工智能技术的发展带来新的思路和可能性。同时，也提出了Gemini模型在一些领域需要进一步优化和提升的地方，为未来的改进提供了宝贵的参考。Gemini模型的发布将为人工智能领域的研究和应用带来新的机遇和挑战，预示着人工智能技术的迅速发展和不断完善。