0°

卡耐基梅隆大学评测:谷歌Gemini的实力有多强?

  谷歌Gemini的实力究竟有多强?

  卡耐基梅隆大学进行了一次第三方的客观对比。为了公平起见,所有的模型都采用了同样的提示,产生的参数也是一致的。

  而不是在谷歌的正式新闻发布会上,使用的是 CoT@32对比5-shot了。

  一句话评测: Gemini Pro版本接近但略逊于GPT-3.5 Turbo,GPT-4还是遥遥领先。

  而且他还注意到了 Gemini的一些奇怪之处,比如选择题喜欢选D……这项测试具体比较了6大任务,分别选用相应的数据集:

  知识问答:MMLU

  推理:BIG-Bench Hard

  数学:GSM8k、SVAMP、ASDIV、MAWPS

  代码:HumanEval、ODEX

  翻译:FLORES

  上网冲浪:WebArena

  但是它免费!

卡耐基梅隆大学评测:谷歌Gemini的实力有多强?

  CMU副教授Graham Neubig承认了这项研究的一些局限性。

  基于API的模型行为可能随时变化

  只尝试了有限数量的提示,对不同模型来说适用的提示词可能不一样

  无法控制测试集是否泄露

  周登勇是谷歌大型模型推理团队负责人,他说将Gemini的温度设为0可以提升5到10个百分点。

  在这个测试中,除了拥有 GPT系列的 Gemini,还有一种最近备受瞩目的混合源码的 MoE模型—— Mixtral。

  但是,增强学习方面的专家Noam Brown相信, Mixtral的研究成果可以被忽视,因为它使用的是一个非正式的、第三方的 API。

  Mistral AI的创建者也来给团队提供了官方版调用权限,希望能够获得更好的测试效果。

  总的来说, Gemini Pro的性能并没有 GPT-3.5那么好,但也有一个好处,那就是每分钟调用不超过60次就免费。​

  所以还是有不少个人开发者已经转换了阵营。

  目前Gemini最高版本Ultra版尚未发布,到时CMU团队也有意继续这项研究。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论