谷歌翻盘了！Gemini-Pro完成128页专利评测

　　谷歌翻盘了!

　　在 Gemini开放 API之后的一个星期内，包括港中文在内的一些组织已经完成了评估，并共同发表了一份128页的评估报告。

　　Gemini-Pro在37项视觉理解测试中的表现与GPT-4V不相上下。

　　而Gemini-Pro在多模专利评测中的“感知与认知”性能，更是达到了1933.4，超过了GPT-4V (1926.6)。

　　在此之前， CMU测试表明，Gemini-Pro的性能与 GPT-3.5相当。

　　而现在，Gemini-Pro又重新夺回了它的优势。

　　到底是怎么回事?

　　这次评测的重点在于评测Gemini-Pro系统在视觉理解方面的表现。

　　本研究共分为四个部分，分别是基本知觉、高级认知、具有挑战性的视觉任务以及各类专业技能。

　　量化评价是在针对多模态大数据建模的 MME上进行的。

　　首先来看定量测试结果。

　　MME上综合表现比GPT-4V强

　　MME测试包括两个主要的任务类型。

　　其中一个是知觉，包括物体存在性判定，物体计数，位置关系，颜色判定， OCR识别，海报识别，名人识别，场景识别，地标识别，艺术鉴定等等。

　　一种是认知，包括常识推理，数字计算，文本翻译，编码推理。

　　以下是结果：

　　可以说，“Gemini-Pro”与“GPT-4V”“各有所长”。

　　分数上，“Gemini- Pro”的总分是1933.4，略高于GPT-4V (1926.6)。

　　具体来说：

　　1、Gemini-Pro在文字翻译，颜色/地标/人脸识别， OCR识别等方面有较好的性能;

　　2、由于不愿回答有关名人的问题，GPT-4V在名人再认中的得分为0;

　　3、 Gemini和GPT-4V的定位精度均较差，说明其对空间定位的敏感性较低;

　　4、开放源码模式 SPHINX与GPT-4V、 Gemini相比，在感知任务方面平齐，甚至优于GPT-4V，但是在认知能力方面， SPHINX还存在很大的距离。