谷歌翻盘了!
在 Gemini开放 API之后的一个星期内,包括港中文在内的一些组织已经完成了评估,并共同发表了一份128页的评估报告。
Gemini-Pro在37项视觉理解测试中的表现与GPT-4V不相上下。
而Gemini-Pro在多模专利评测中的“感知与认知”性能,更是达到了1933.4,超过了GPT-4V (1926.6)。
在此之前, CMU测试表明,Gemini-Pro的性能与 GPT-3.5相当。
而现在,Gemini-Pro又重新夺回了它的优势。
到底是怎么回事?
这次评测的重点在于评测Gemini-Pro系统在视觉理解方面的表现。
本研究共分为四个部分,分别是基本知觉、高级认知、具有挑战性的视觉任务以及各类专业技能。
量化评价是在针对多模态大数据建模的 MME上进行的。
首先来看定量测试结果。
MME上综合表现比GPT-4V强
MME测试包括两个主要的任务类型。
其中一个是知觉,包括物体存在性判定,物体计数,位置关系,颜色判定, OCR识别,海报识别,名人识别,场景识别,地标识别,艺术鉴定等等。
一种是认知,包括常识推理,数字计算,文本翻译,编码推理。
以下是结果:
可以说,“Gemini-Pro”与“GPT-4V”“各有所长”。
分数上,“Gemini- Pro”的总分是1933.4,略高于GPT-4V (1926.6)。
具体来说:
1、Gemini-Pro在文字翻译,颜色/地标/人脸识别, OCR识别等方面有较好的性能;
2、由于不愿回答有关名人的问题,GPT-4V在名人再认中的得分为0;
3、 Gemini和GPT-4V的定位精度均较差,说明其对空间定位的敏感性较低;
4、开放源码模式 SPHINX与GPT-4V、 Gemini相比,在感知任务方面平齐,甚至优于GPT-4V,但是在认知能力方面, SPHINX还存在很大的距离。