卡耐基梅隆大学评测：谷歌Gemini的实力有多强？

　　谷歌Gemini的实力究竟有多强?

　　卡耐基梅隆大学进行了一次第三方的客观对比。为了公平起见，所有的模型都采用了同样的提示，产生的参数也是一致的。

　　而不是在谷歌的正式新闻发布会上，使用的是 CoT@32对比5-shot了。

　　一句话评测： Gemini Pro版本接近但略逊于GPT-3.5 Turbo，GPT-4还是遥遥领先。

　　而且他还注意到了 Gemini的一些奇怪之处，比如选择题喜欢选D……这项测试具体比较了6大任务，分别选用相应的数据集：

　　知识问答：MMLU

　　推理：BIG-Bench Hard

　　数学：GSM8k、SVAMP、ASDIV、MAWPS

　　代码：HumanEval、ODEX

　　翻译：FLORES

　　上网冲浪：WebArena

　　但是它免费!

　　CMU副教授Graham Neubig承认了这项研究的一些局限性。

　　基于API的模型行为可能随时变化

　　只尝试了有限数量的提示，对不同模型来说适用的提示词可能不一样

　　无法控制测试集是否泄露

　　周登勇是谷歌大型模型推理团队负责人，他说将Gemini的温度设为0可以提升5到10个百分点。

　　在这个测试中，除了拥有 GPT系列的 Gemini，还有一种最近备受瞩目的混合源码的 MoE模型—— Mixtral。

　　但是，增强学习方面的专家Noam Brown相信， Mixtral的研究成果可以被忽视，因为它使用的是一个非正式的、第三方的 API。

　　Mistral AI的创建者也来给团队提供了官方版调用权限，希望能够获得更好的测试效果。

　　总的来说， Gemini Pro的性能并没有 GPT-3.5那么好，但也有一个好处，那就是每分钟调用不超过60次就免费。

　　所以还是有不少个人开发者已经转换了阵营。

　　目前Gemini最高版本Ultra版尚未发布，到时CMU团队也有意继续这项研究。