Gemini 超越 GPT-4 靠作弊？谷歌承认：是的，演示视频经过了剪辑

　　谁能想到，一夜之间，人们对于谷歌 Gemini 的看法竟发生了 180° 转变。

　　昨天，谷歌在 X 上展示 Gemini 原生多模态能力的 6 分半钟视频下，几乎是清一色的赞扬：

　　而到了今天，Gemini 还是那个 Gemini，但网友已经不买账了：

　　发生了什么，才会让人们的态度一夜转变?原因在于那个 6 分半的 Gemini 演示视频：它是假的，是经过剪辑的，甚至在被质疑后，谷歌还承认了!

　　Gemini 的视频演示效果，是假的

　　相信看过 Gemini 演示视频的人，多数都对它的“多模态能力”印象深刻。例如，Gemini 看到一只鸭子从草图到填色的整个过程，可实时给出解释和反馈，还能在换杯游戏中追踪纸团、辨别各种手势、重新排列行星草图等——短短 6 分半的视频，Gemini 给人的感觉是：仿佛可以实时观察周围世界并及时做出反应，还能与人类进行流畅的语音对话。

　　对于 Gemini 如此强大的能力，谷歌给出的解释是：Gemini 是 AI 的新品种，即“原生多模态”。

　　“我们将 Gemini 设计为原生多模态，从一开始就针对不同模式进行了预训练。然后我们使用额外的多模态数据对其进行微调，以进一步完善其有效性，这有助于 Gemini 从头开始无缝地理解和推理各种输入，因此远远优于现有的多模式模型。此外，Gemini 的多模态功能几乎在每个领域都是最先进的。”

　　听起来似乎有理有据，于是当一众网友都沉浸于 Gemini 的强大、好奇它能否真正超越 GPT-4 的时候，彭博社作家 Parmy Olsen 突然发出了一个“不太和谐”的声音：Gemini 的视频演示效果，是假的。

　　一石激起千层浪!好在 Parmy Olsen 并没有吊人胃口，很干脆地将谷歌的作假手法和证据全部公开：Gemini 并不能像视频中那样实时语音回答——它看到的只是视频片段中的静态图像，其语音也只是在读出人类给它的文本提示，且响应时间比视频中展示的要长。

　　背后的人工提示过程，全部省略

　　举个例子，Gemini 演示视频中有一段识别动态手势的片段：通过观察左边不断变化的手势，Gemini 回答道，“我知道你在干嘛!你在玩石头剪刀布!”

　　这段视频乍看之下，你是不是以为可以实时向 Gemini 展示不同的东西，并与它交流?但事实并非如此：Gemini 仅支持文本交流，并不能进行语音对话。

　　根据谷歌公布的文档内容显示，这段视频显然是经过“加工”的：

　　(1)先给 Gemini 陆续展示三张单个手势的图片，问它分别看到了什么;

　　(2)再把三张手势图片一起发给 Gemini，问它这是在干什么，并提示是一个“游戏”;

　　(3)通过以上一步步的提示和引导，Gemini 最终给出了答案：你在玩石头剪刀布。

　　针对以上步骤，一位谷歌发言人解释道：“为了测试 Gemini 在各种挑战中的能力，我们通过捕捉录像来制作演示。然后我们使用录像中的静态图像帧提示 Gemini，并通过文本进行提示。”

　　Parmy Olsen 将其简单翻译了一下：“谷歌拍下了那双手做很多事情的画面，然后一张一张地向 Gemini 展示了这些镜头的照片。所以根本没有语音对话，而是跟 ChatGPT 和 Bard 一样的文本交流。”

　　此外，谷歌发言人还补充称，用户的配音都是从实际提示中摘录的真实内容，用于生成随后的Gemini输出结果——对此，Parmy Olsen 的翻译是：“你在视频中听到的声音，只是在朗读文字提示。”

　　也就是说，谷歌所展示的 Gemini 演示视频，是省略了所有引导提示、跳过了等待响应的时间、并用配音合成的最终结果。

　　都是真实的，只是“为了简洁”剪辑视频

　　当然，Gemini 可能也真的做到了在视频中展示的所有事情，但这两种表现形式完全不同：

　　以文字形式，通过人工提示分步骤直接展示其多模态效果，对于 Gemini 的能力没有过多修饰;

　　以视频形式，经过剪辑、省略其背后大量引导过程的视频来呈现，极大暗示了 Gemini 的实时高效。

　　由于 Parmy Olsen 的曝光，网友对于 Gemini 的态度瞬间改变，并发出了无数质疑。而对于被质疑造假的这个视频，谷歌 DeepMind 研究副总裁 Oriol Vinyals 今天给出了回应：

　　“视频中的所有用户提示和输出都是真实的，只是为了简洁起见进行了缩短。该视频展示了使用 Gemini 构建的多模态用户体验可能是什么样子，我们制作该视频是为了激发开发人员的灵感。”

　　换句话说，Oriol Vinyals 承认 Gemini 演示视频经过了剪辑，原因是“为了简洁”。不论其剪辑初衷是否真的只是为了“简洁”，但不得不说：在谷歌没明确说明视频经过剪辑之前，多数人对于 Gemini 的速度、准确性以及与交互的基本模式，都产生了误解。

　　如果在这个视频开头，谷歌就说“这是我们研究人员测试过的 Gemini 交互的理想化表现”，那网友就会有心理预期：哦，那这个视频一半是现实，一半是理想化——但事实上，该视频的开头是，“本视频重点介绍了我们与 Gemini 的一些有趣互动”，因此人们很难意识到这个视频中 Gemini 的表现是经过“加工”的。

　　网友：“这就是虚假和误导”

　　于是意料之中，Oriol Vinyals 的回应并没有受到网友的理解，其 X 帖子下多是谴责谷歌虚假、夸大营销：

　　“如果你想激励开发者，那为什么不发布真实的内容呢?提示不可能既‘真实’又‘缩短’，这就是虚假和误导。”

　　如今的 AI 初创公司，不就是像你们这样夸张的演示来骗取资金的吗?

　　“‘真实，缩短’，真的吗?只是营销罢了。”

　　另外值得一提的是，还有网友指出，谷歌 Gemini 对比 GPT-4 的测试基准也并不相同：“在 MMLU 测试中，Gemini 下面有个灰色小字标 CoT@32，即使用了思维链提示技巧、选取了 32 次中的最好结果，GSM8K 的性能也是用 Maj1@32 与 GPT-4 的 5-Shot CoT 进行对比的。”

　　那么对于谷歌声称 Gemini 超越 GPT-4 的说法，你又有何看法呢?