0°

世界上最好的人工智能模型: 谷歌 DeepMind 的Gemini已超越 GPT-4

  几小时前,Google 和 Google DeepMind 宣布了备受期待的 AI 模型 Gemini。虽然目前还没有太多关于其实际表现的使用反馈,但据报道,其性能表现相当出色。

  本文对我们目前所了解的信息进行了快速概述,并分成易于阅读的几个部分,同时也包括我从阅读中得出的第一印象(尚未对模型进行测试)。随着我们对 Gemini 的功能、构建方式(希望能获得更多信息)、工作原理以及对未来人工智能发展的影响有了更深入的了解,我将在接下来的几天深入探讨。

  以下是概述:

  Gemini 规格、型号(Ultra、Pro、Nano)和可用性。

  Gemini Ultra 相较于 GPT-4 的卓越性能。

  Gemini 天生支持多模态。

  我对目前信息的第一印象。

  Gemini规格、型号(Ultra、Pro、Nano)和可用性

  Gemini 是一个包含三种型号的模型系列:Ultra、Pro和Nano。以下是技术报告中关于 Gemini 各型号及其规格的摘要。

  Gemini Ultra 是一款达到了最新技术水平(SOTA)并在各项基准测试中超越了 GPT-4 的版本(我们很快将看到具体成果)。它设计用于在数据中心运行,因此无法在个人计算机上安装。尽管仍在进行安全审查,但预计将在2024年初在 Google 的新聊天机器人 Bard Advanced 的新版本上推出。

  Gemini Pro 相当于GPT-3.5(尽管并非总是更好),并且经过了“成本和延迟”的优化。如果您不需要最高级别的性能,并且成本是一个限制因素,那么 Pro 可能比 Ultra 更适合(就像 ChatGPT与 GPT-3.5 免费相比,对于大多数任务而言,比支付每月20美元的 GPT-4 更好)。 Gemini Pro已经在 Bard 上提供(“迄今为止最大的升级”),在使用英语国家中覆盖了170个国家(不包括EU/英国)。Google 计划在以后扩大在其他国家和语言的使用范围。

  Gemini Nano 是针对设备的模型。虽然Google并未披露Ultra和Pro的参数数量,但我们知道Nano分为两个层次,Nano 1(1.8B)和Nano 2(3.25B),适用于低内存和高内存设备。 Gemini Nano 已经内置在 Google Pixel 8 Pro 上,这将成为一款全面采用AI增强技术的智能手机。Gemini还将“在更多我们的产品和服务中可用,如Search、Ads、Chrome和Duet AI”,但并未具体说明是哪个型号或何时推出。

  所有这些型号都具有 32K 的上下文,明显小于其他大模型,Claude 2 为200K,GPT-4 Turbo为128K。关于上下文窗口的最佳大小很难确定(显然取决于任务),因为有报道称,如果窗口太大,模型往往会忘记大部分上下文知识。据报道,Gemini 模型“有效利用其上下文长度”。

  鉴于当今人工智能领域对紧密度的普遍偏好,我们对训练或微调数据集一无所知(除了数据集包含“来自Web文档、书籍和代码的数据,包括图像、音频和视频数据”),也不清楚模型的架构(除了它们“建立在 Transformer 解码器的基础上”并且“通过架构和模型优化的改进进行增强”)。

  有点滑稽的是,我们将不得不等到Meta发布其下一个模型,才能更多了解。如果有一个开源的Llama 3,并且在性能上与 GPT-4 和 Gemini 有所比较,将为我们提供关于这些模型构建方式和训练内容的一些线索。

  最后需要注意的是,Google DeepMind 还在 Gemini 之上发布了 AlphaCode 2。它解决的问题比前身 AlphaCode 多1.7倍,并且优于85%的竞争对手。虽然这主要与竞技编程有关,但在这里也值得一提。

  Gemini Ultra优于GPT-4

  在科学和商业层面上,这可能是最重要的消息。在将近一年的时间里,一个 AI 模型首次超越了 GPT-4。Gemini Ultra 在32个“广泛使用的学术基准测试”中取得了 SOTA 的成绩。从博客文章中了解到:

  Gemini Ultra 以90.0%的得分成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型。MMLU 使用 57 个学科(如数学、物理、历史、法律、医学和伦理学等)的组合,测试对世界知识和解决问题能力的理解… Gemini Ultra 在新的 MMMU 基准测试中取得了59.4%的最新成绩,该测试包含跨不同领域的多模态任务,需要刻意的推理。

  Gemini Ultra 在下面显示的18个基准测试中,包括 MMLU(90%对86.4%,使用一种新的思维链方法)和新的多模态基准测试 MMMU(59.4%对56.8%)中,超越了 GPT-4。有趣的是,Gemini 并没有比 GPT-4 好太多。我认为这揭示了要改进这些系统的难度,不仅仅是因为谷歌无法与 OpenAI 竞争。以下是这些和其他文本和多模态基准测试的比较:

  deepmind

  deepmind

  如果您想了解更多关于 Gemini 在现实测试中的能力(例如推理和理解、解决数学和编码问题等),我建议您观看 Google DeepMind 互动博客文章中的视频,以及 Sundar Pichai 首席执行官在X上发布的这个全面的演示(两者都非常值得观看,以更好地理解上述数字的含义)。

  我认为这已经足够关于 Google 在 Gemini 性能上的宣传了,直到我们真正测试出它的能力为止。我将在这里留下技术报告结论的摘录,以防您错误地认为 Gemini 已经解决了困扰现代AI系统的所有问题——幻觉和高层次的推理问题仍未解决:

  尽管它们具有令人印象深刻的功能,但我们应该注意到在 LLMs 的使用中存在一些局限性。对于由 LLMs 生成的“幻觉”,仍然需要进行持续的研究和开发,以确保模型的输出更可靠和可验证。LLMs 在需要高层次推理能力的任务上也存在困难,例如因果理解、逻辑演绎和反事实推理,尽管它们在考试基准上表现出色。

  Gemini是天生支持多模态的

  这里要注意的关键词是“天生”,但首先让我们回顾一下多模态。在关于多模态重要性的文章中介绍。多模态AI可以处理不同的数据类型,与仅接受文本输入和生成文本输出的语言模型形成对比。以下是文章中的简要解释:

  为了具体说明AI中的多模态是什么样子,我们可以说,在光谱的最弱一侧,我们有视觉+语言。 DALL-E 3(以文本为输入并生成图像为输出)和GPT-4(以文本或图像为输入并生成文本)是弱多模态的杰出例子。最强大的一侧仍未被探索,但原则上,AI可以获得人类拥有的每一种感官模态(以及更多),包括提供动作能力的模态(例如,用于机器人学的本体感知和平衡感)。

  截至目前,Gemini 是多模态光谱上最强大的模型,包括文本、代码、图像、音频和视频。从技术报告中得知:

  Gemini 模型经过训练,可以处理与文本输入交错的各种音频和视觉输入,如自然图像、图表、屏幕截图、PDF和视频,并能生成文本和图像输出。

  deepmind

  多模态性是深入理解世界的必要条件。一些人认为,当语言模型尝试通过处理文本数据中的统计相关性来预测下一个单词时,它们会形成内部世界模型,但如果是真的,那是非常有限的。随着科学家构建可以解析更多信息模态的模型,它们的内部表示变得更丰富 — 在极端情况下,它们可能与我们的内部表示相匹配。

  然而,有两种不同的构建多模态AI的方式。在这里,Gemini 的独特天生多模态设计就显得很突出。第一种方式在以前已经多次尝试过,包括添加能够处理不同输入/输出的不同模块。这在表面上可以工作,但不能为系统提供编码更丰富的多模态世界模型的手段。这是 Google DeepMind 首席执行官Demis Hassabis 在博客文章中对此的描述:

  直到现在,创建多模态模型的标准方法涉及为不同的模态训练单独的组件,然后将它们组合在一起,粗略模拟出一些功能。这些模型有时在执行某些任务方面表现出色,比如描述图像,但在更概念性和复杂的推理方面则表现出困难。

  第二种方式,消息称只有 Gemini 采用,需要从头开始将AI系统构建为多模态。与 GPT-4 不同,Gemini 是在多模态数据上进行了预训练,然后进行了微调 — 从一开始就是如此。以下是Hassabis对这种新方法的看法:

  我们设计 Gemini 从一开始就天生多模态,通过不同的模态进行预训练。然后,我们使用额外的多模态数据对其进行微调,以进一步提高其效果。这有助于 Gemini 从基础开始对各种输入进行无缝理解和推理,比现有的多模态模型更出色 — 其能力在几乎所有领域都是最先进的。

  第二种多模态方法更类似于人脑如何通过对我们的多模态世界进行多感觉接触学习。如果有一种实现真正的通用智能的方式(或至少是人类水平的智能,这与通用智能不同),那就是通过这种默认的多模态性。视频演示清楚地展示了天生多模态性赋予的令人印象深刻的能力。

  接下来的步骤,正如我在最近的文章中所辩论的那样,是规划和机器人技术:

  AI公司开发出可以使用外部信息和知识看、听、说、创造、移动、规划和做出合理决策的系统只是时间问题。谷歌 DeepMind 的 Gemini 和 OpenAI的Q*都可能迈向这个方向(特别是通过学习和搜索解决规划问题)。

  Google DeepMind 首席执行官 Demis Hassabis 向 Platformer 的 Casey Newton 确认,他们“在思考…代理系统和规划系统方面投入了很多精力”。在与 Wired 的 Will Knight 的对话中,他对将 Gemini 与机器人技术结合的愿景表达了类似的看法:“要真正实现多模态,您会希望包括触觉和触觉反馈…将这些基础型模型应用于机器人技术是非常有希望的,我们正在深入研究这个领域。”

  我对已有信息的第一印象

  谷歌实现了它的隐含承诺:Gemini 在几乎所有基准测试中都优于GPT-4。单单这一点使其价值连城,可能花费了数百万美元;这是四年来有人第一次从 OpenAI 手中夺取领先地位。无论如何,在我们过于炒作 Gemini 之前,我们应该等待谷歌在2024年初宣布 Bard Advanced 以测试它与 GPT-4 Turbo 的对比,从而决定哪个更好。也许接下来问题是:Gemini 能否借助其架构在时间上更快地改进,胜过GPT?当然,我们不知道答案。

  值得注意的是,如果您仔细查看基准评估中报告的数字,Gemini 仅在最多几个百分点的范围内击败了 GPT-4(请记住,GPT-4于2022年完成训练)。我认为这证明了用目前的方法让模型变得更好是非常困难的,而不是证明 Google DeepMind 的研究人员比 OpenAI 的研究人员“更糟糕” — 这两家公司拥有世界上最优秀的AI人才,因此这实际上是人类在AI上能做的巅峰。他们在开始探索其他范例吗?我感觉事物正在发生变化,我们即将告别基于Transformer 语言模型的霸权。

  更值得注意的事情 — 是谷歌 DeepMind 的开放性(就像OpenAI和Anthropic一样)。他们没有分享有关训练或微调数据集的有价值信息,也没有关于架构的有价值的信息。这表明从严格意义上说,Gemini 更像是一个商业产品而不是科学项目。这本身并不是坏事(取决于您是研究人员还是用户),只是并不是 DeepMind 一直以来的真正目标。就像2019年Microsoft收购 OpenAI 迫使他们转向生产和产品市场适应战略一样,谷歌正在同样程度上利用 DeepMind 实现这一目标。

  回到科学领域。接下来是规划、代理和机器人技术。我预测在未来几个月/年里,我们在这些更大的挑战上会看到较慢的进展,这比我们在语言建模上看到的进展要慢(记住莫拉维克悖论)。Hassabis 认为 Gemini 将展示出以前未见过的能力,但我认为这些将不会是真正的突破(在大局中),而是与 OpenAI 已经取得的成果相比。Hassabis与Newton的对话证实了这一点,所以我仍然感到兴奋:“我认为我们将看到一些新的能力。这只是Ultra测试的一部分。我们目前处于测试阶段 — 对其进行安全性检查,负责任检查,但也看看它还能被如何微调。”

  最后,尽管Sundar Pichai将这一发布称为“Gemini时代”的开始,我认为对谷歌来说真正的价值在于恢复他们每年失去的信任,当一个有800名员工的初创公司屡次设法将他们甩在身后时。这是谷歌对所有声称他们根本无法推出产品的人的最强回击。这是它对 OpenAI 以及围绕 ChatGPT 和 GPT-4 无可挑剔的营销的回击。我们将看到它是否对他们起作用,更重要的是它会持续多久。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论