谷歌Gemini的实力究竟有多强?
卡耐基梅隆大学进行了一次第三方的客观对比。为了公平起见,所有的模型都采用了同样的提示,产生的参数也是一致的。
而不是在谷歌的正式新闻发布会上,使用的是 CoT@32对比5-shot了。
一句话评测: Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。
而且他还注意到了 Gemini的一些奇怪之处,比如选择题喜欢选D……这项测试具体比较了6大任务,分别选用相应的数据集:
知识问答:MMLU
推理:BIG-Bench Hard
数学:GSM8k、SVAMP、ASDIV、MAWPS
代码:HumanEval、ODEX
翻译:FLORES
上网冲浪:WebArena
但是它免费!
CMU副教授Graham Neubig承认了这项研究的一些局限性。
基于API的模型行为可能随时变化
只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样
无法控制测试集是否泄露
周登勇是谷歌大型模型推理团队负责人,他说将Gemini的温度设为0可以提升5到10个百分点。
在这个测试中,除了拥有 GPT系列的 Gemini,还有一种最近备受瞩目的混合源码的 MoE模型—— Mixtral。
但是,增强学习方面的专家Noam Brown相信, Mixtral的研究成果可以被忽视,因为它使用的是一个非正式的、第三方的 API。
Mistral AI的创建者也来给团队提供了官方版调用权限,希望能够获得更好的测试效果。
总的来说, Gemini Pro的性能并没有 GPT-3.5那么好,但也有一个好处,那就是每分钟调用不超过60次就免费。
所以还是有不少个人开发者已经转换了阵营。
目前Gemini最高版本Ultra版尚未发布,到时CMU团队也有意继续这项研究。