CMU 最新研究：Gemini 综合不敌 ChatGPT，谷歌还需努力

　　最近谷歌发布的 Gemini 格外引人注目，其号称是第一个在各种任务中可与 OpenAI 的 ChatGPT 相媲美的大模型。

　　报道显示，Gemini 的“Ultra”版本在各种任务上都优于 GPT-4，而 Gemini 的“Pro”版本则与 GPT-3.5 不相上下。

　　针对两个当红炸子鸡的较量，美国卡内基梅隆大学近日展开了一项研究，深入探讨了谷歌 Gemini 的语言理解和生成能力，并将其与 OpenAI 的 GPT 系列作了对比，得到了有趣的结论——谷歌 Gemini 的综合性能与 ChatGPT 仍有较大差距。

　　论文地址：https://arxiv.org/pdf/2312.11444.pdf

　　Gemini 仅媲美 GPT-3.5 Turbo

　　CMU 的这项研究主要探讨了两个问题：

　　其一，对 OpenAI GPT 和 Google Gemini 模型的能力进行了第三方客观比较，并提供了可重现的代码和完全透明的结果;

　　其二，对结果进行了更深入的研究，找出两类模型中某一类模型分别拥有的优势领域。

　　研究团队对测试各种语言能力的 10 个数据集进行了分析，包括推理、回答基于知识的问题、解决数学问题、语言间翻译、生成代码以及充当指令遵循代理。

　　在所有的基准测试任务基础上，CMU 团队分析发现：

　　Gemini Pro 模型在模型大小和类别上与 GPT 3.5 Turbo 相当，其准确度一般与 GPT 3.5 Turbo 相当，但略逊于 GPT 3.5 Turbo，比 GPT 4 差很多。

　　Gemini Pro 的平均性能略低于 GPT 3.5 Turbo，尤其是在多选题的回答顺序偏差、多位数数学推理、过早终止智能体任务以及因激进的内容过滤而导致回答失败等方面存在问题。

　　在特别长和复杂的推理任务中，Gemini 的表现优于 GPT 3.5 Turbo，包括生成非英语语言以及处理更长、更复杂的推理链。而在不对回答进行过滤的任务中，Gemini 也善于使用多种语言。

　　图为基准测试的主要结果(最佳模型以粗体显示，次佳模型以下划线显示。Mixtral 只对部分任务进行了评估。)

　　大模型关键能力分析

　　在大模型的几项关键能力上，团队的具体研究结果如下：

　　知识图谱问答能力：

　　在大模型的问答能力层面，从上图中可以看出每个模型在部分代表性任务上的表现，与 GPT 3.5 相比，Gemini Pro 在大多数任务上表现不佳，思维链提示降低了各子任务之间的差异。

　　团队又深入研究 Gemini Pro 性能低于/优于 GPT 的任务3.5 的差距，得出结论：

　　1)Gemini Pro 在 human_sexuality(社会科学)、formal_logic(人文科学)、elementary_mathematics(STEM)和 professional_medicine(专业领域)方面落后于 GPT 3.5。

　　2)在 Gemini Pro 优于 GPT 3.5 Turbo 的两项任务中，Gemini Pro 只取得了微弱的优势。

　　推理能力

　　在推理能力层面， Gemini Pro 的整体准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo，但Gemini Pro 在更长、更复杂的问题上表现不佳，而 GPT 模型对此则更为稳健。

　　文中亦给出了 GPT 3.5 Turbo 性能超过 Gemini Pro 最多的任务：

　　数学能力

　　从数学推理的总体结果可以看出，在包含多种语言模式的 GSM8K、SVAMP 和 ASDIV 任务中，Gemini Pro 的准确率略低于 GPT 3.5 Turbo，远低于 GPT 4 Turbo。

　　在 MAWPS 任务中，所有模型的准确率都超过了 90%，但 Gemini Pro 仍略逊于 GPT 模型。

　　代码生成能力

　　代码能力生成方面，在英语任务中，Gemini Pro 在较长的输入和输出方面表现较强。分析结果可以发现，在大多数使用库的情况下，如 mock、pandas、numpy 和 datetime，Gemini Pro 的性能比 GPT 3.5 差。

　　不过，在 matplotlib 的情况下，它的性能要优于 GPT 3.5 和 GPT 4，这表明 Gemini 在通过代码执行绘图可视化时具有更强的能力。

　　机器翻译能力

　　在翻译能力上，Gemini Pro 有 8 种语言的性能优于 GPT 3.5 Turbo 和 GPT 4 Turbo。相比之下，Gemini Pro 在 20 种语言中的 8 种语言上的表现优于 GPT 3.5 Turbo 和 GPT 4 Turbo，并在 4 种语言上取得了最佳表现。不过，Gemini Pro 在大约 10 种语言对中表现出强烈的阻塞响应趋势。