0°

谷歌Gemini刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑

  谷歌憋了许久的大招,双子座Gemini大模型终于发布!其中一图一视频最引人注目:

  一图,MMLU多任务语言理解数据集测试,Gemini Ultra不光超越GPT-4,甚至超越了人类专家。

  一视频,AI实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。

  然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的60页技术报告时,却发现不妥之处。

  (没错,没有论文,OpenAICloseAI你开了个什么坏头啊)

  MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。

  而作为对比的GPT-4,却是无提示词技巧给5个示例,这个标准下Gemini Ultra其实并不如GPT-4。

  以及原图比例尺也有点不厚道了,90.0%与人类基准89.8%明明只差一点,y轴上却拉开很远。

  HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图,这样展示更公平恰当:

  每到这种时候,总少不了做表情包的老哥飞速赶到战场:

  但好在,同样使用思维链提示技巧+32次尝试的标准时,Gemini Ultra还是确实超越了GPT-4的。

  Jeff Dean在一处讨论中对这个质疑有所回应,不过大家并不买账。

  另外,对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。

  机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论