谷歌双子座Gemini大模型，技术和评测结果解读

　　谷歌新的大模型Gemini有何不同?遥遥领先?

　　谷歌新的大模型Gemini和ChatGPT有什么不一样?真的像很多自媒体说的”遥遥领先”吗?本期视频就为大家做个解读。

　　由于Gemini也是封闭模型，从他的技术报告能找到的相关介绍基本可以概括在这一张图里。和GPT一样的是都使用Transtormer作为基础模型，不一样的是GPT-4V使用语言模型、图像模型、语音模型，分别处理这几种模态，然后再把它们整合在一起提供多模态能力。

　　而Gemini毕竟是原生面向多模态的，它使用一个统一的模型来提供各种模态相关能力。文本、语音、音频、视频是在统一做了token化之后输入给Transformer的，算是一种真正的多模态模型。

　　模型性能方面，谷歌在发布Gemini时重点宣传的是MMLU基准的测试结果，不仅超越了当前最好的模型，也就是GPT-4，甚至还超越了人类水平。这个结果到底该怎么看?

　　先看看MMLUrage，这是一个包括理工、人文、

　　·第五个是学科等领域57个学科任务的测试基准，用来评估AI的知识掌握和问题解决能力，是当前非常主流的评测基准。拿它来说确实没什么问题，但是这里与人类的对比结果89.8%和90.0%0.2%的差距，在评测过程稍微有点误差就不止这个数，所以这个差距至少是不值得大书特书的。

　　·第六个是与GPT-4的对比，这里有个小提示，请注意之前的SOTA模型使用不同的提示技术。原来Gemini的测试结果是基于CoT@32，而之前GPT-4的结果是基于5-shot。CoT@32的意思是在询问模型的时候使用思维链提示做32次尝试，然后综合给出最优结果。

　　Gemini is the first model to MMLU(Massive Multitask)，而5-shot是在提示词里加上5个示例来优化回答。这完全是两种不同的提示方法，结果本身就会有差异，直接拿来对比其实是不合适的。

　　我们在技术报告里深挖一下，找到了这个测试的第一手数据，原来90%这个结果不仅采用了思维链提示，还合并使用了谷歌自己开发的不确定性路由。这个策略是它把测试结果从单用思维链提示的84.99%提升到了90.04%。如果不用这个策略，不管有没有思维链提示，GPT-4的结果都比Gemini要好。

　　所以在这张图里，谷歌为了”遥遥领先”还真的费尽心机。其实大模型的评测基准有很多，谷歌自己也公布了与GPT-4V在多个基准上直接PK的结果。这是文本方面的对比结果，这是多模态方面的对比结果。Gemini在大多数测试里都是优于GPT-4V的，虽然领先优势没有那么大，但完全没必要去过度粉饰。

　　还有一个值得注意的点是，谷歌把Gemini分成了中杯、大杯、超大杯。在所有这些测试里，超越GPT-4V的都是超大杯Gemini Ultra，中杯和大杯都比不上GPT-4V，而Gemini Ultra要到明年才能用上。所以谷歌暂时的领先其实是打时间差带来的。到了明年，GPT5很有可能会发布，到时孰强孰弱还有的一比。

　　最后总结一下，Gemini对比GPT还谈不上遥遥领先，只能算追赶上了GPT的脚步，达到与GPT相当的水平。当然能做到这点也很不容易，迄今为止发布的所有大模型，开源的闭源的都算上，能追上GPT的谷歌还是第一个。