谷歌发布AI模型Gemini：小公主还没长大，被逼出阁

　　在OpenAI公司高调发布GPT-4之前数月，业界就疯传谷歌的人工智能公司DeepMind坐不住了，终于要把深藏“闺中”很久的Gemini模型拿出来了。

　　当地时间12月6日，谷歌召开了Gemini发布会，也是这家公司迄今为止在人工智能领域召开的规格最高的发布会，正式向竞争对手OpenAI和微软宣战，争夺人工智能霸主地位。

　　Gemini模型在各种功能上都是同类最佳的——正如一位观察者所说，它是一台“万物机器”。

　　“这种模型天生更有能力。” 谷歌及其母公司Alphabet的首席执行官桑达尔·皮查伊告诉《麻省理工技术评论》，“这是一个平台。人工智能是一个深刻的平台转变，比网络或移动更大。因此，它代表着我们前进了一大步。”

　　皮查伊(Sundar Pichai)之前负责Chrome和Android，以痴迷于产品而闻名。在2016年担任首席执行官的第一封创始人信中，他预测“我们将从移动第一走向人工智能第一的世界”。自那以后的几年里，皮查伊将人工智能深深融入了谷歌的所有产品中，从安卓设备一直到云。

　　这对谷歌来说确实是一大步，但对整个领域来说，倒看不出有巨大的飞跃。

　　谷歌DeepMind公司称，Gemini在32项标准性能指标中有30项超过了GPT-4——然而，它们之间的差距很小。谷歌DeepMind把目前最好的功能都整合到一个强大的软件包中，从演示视频来看，它在很多方面都做得很好，但很少有我们以前没有见过的。

　　但关于Gemini的炒作确实是我们在这个领域不曾见过的，就几个月来到处能听到的“AI界马上要发生一件大事”的传言来说，Gemini可能是我们已经达到人工智能炒作顶峰的标志。至少目前是这样。

　　华盛顿大学专门研究在线搜索的教授Chirag Shah将此次发布会比作苹果每年推出的新款iPhone。他说：“这并没有给我们留下太多印象，因为我们最近看到了太多。”

　　与GPT-4一样，Gemini是多模式的，这意味着它被训练来处理多种输入：文本、图像和音频。它可以将这些不同的格式结合起来，回答从家务到大学数学再到经济的所有问题。

　　Gemini在昨天的记者会上进行了现场演示，拿给它看一张图表，它在用新数据分析数百页的研究后，用新的信息更新了图表。在另一个例子中，给Gemini看了一张平底锅中煎蛋饼的照片，说话问它煎蛋饼是否已经煮熟，它回答说：“它还没做好，因为鸡蛋还流着水。”

　　然而，大多数人目前仍然不能够完整地体验Gemini。今天推出的版本是为谷歌基于文本的搜索聊天机器人Bard的后台，为其提供更高级的推理、规划和理解能力。

　　在接下来的几个月里，新的Gemini增强版Bard会在170多个国家提供英语版本的首发，不包括欧盟和英国。谷歌负责Bard的副总裁Sissie Hsiao表示，这是因为公司需要与当地监管机构“接轨”。

　　Gemini还有三种级别的产品型号：Ultra、Pro和Nano。Nano是直接在设备上可运行的，例如谷歌的新款Pixel手机。从12月13日开始，开发者和企业将可以访问Gemini Pro，这是可以在有限计算资源基础上运行的。最强大的型号Gemini Ultra是全功率版本，谷歌高管在一次新闻电话会议上告诉记者，经过“广泛的信任和安全检查”，将于“明年初”上市。

　　皮查伊说Gemini代表了谷歌DeepMind在人工智能方面取得的进展：“我认为这是人工智能模型的Gemini时代，它将永远代表我们在人工智能技术方面取得进展的前沿。”

　　和GPT的技术较量

　　OpenAI最强大的模型GPT-4被视为行业的黄金标准。虽然谷歌吹嘘Gemini的表现优于OpenAI的前一个模型GPT 3.5，但公司高管回避了该模型超过GPT-4的程度的问题。

　　但该公司特别强调了一个基准，称为MMLU(大规模多任务语言理解)。这是一组旨在衡量模型在涉及文本和图像的任务中的表现的测试，包括阅读理解、大学数学以及物理、经济和社会科学的多项选择题测验。

　　皮查伊说，在纯文本问题上，Gemini的得分为90%，人类专家的得分约为89%。GPT-4在这类问题上的得分为86%。在多模式问题上，Gemini得分为59%，而GPT-4得分为57%。皮查伊暗示Gemini早在GPT-4之前就已经第一名。

　　“很明显，Gemini是一个非常复杂的人工智能系统。” 新墨西哥州圣达菲研究所的人工智能研究员Melanie Mitchell说，谷歌这一模型对于基准数据集的表现非常令人印象深刻，“但是在我看来，Gemini并没有明显比GPT-4更有能力。”

　　斯坦福大学基础模型研究中心主任Percy Liang表示，虽然该模型有很好的基准分数，但由于我们不知道训练数据中有什么，很难知道如何理解这些数字。

　　利用人类测试人员的反馈，谷歌DeepMind训练Gemini更准确地回答事实，在被要求时给出归因，在面对无法回答的问题时进行对冲，而不是胡言乱语。华盛顿大学计算语言学教授Emily Bender对谷歌宣传的“万能机器”一说表示质疑，称该公司正在使用狭窄的基准来评估预计用于这些不同目的的模型，“这意味着无法对其进行有效的彻底评估”。

　　人工智能走到哪一步了?

　　今年3月OpenAI发布GPT人工智能模型并推出其支持的付费聊天AI机器人ChatGPT。这对谷歌来说压力很大。

　　谷歌已经耗费数年投入巨资在人工智能领域的研究，凭借其得天独厚的数据资源，遥遥领先于业界发展。却没想到被OpenAI弯道超车。

　　4月，迫于投资方的巨大压力，谷歌必须拿出证明，自己不比OpenAI差，于是宣布将负责人工智能研究的Google Brain，与母公司Alphabet位于伦敦的人工智能研究实验室DeepMind合并，并在今年接下来的时间里弄出了Gemini这个模型来回应GPT-4的挑战。

　　谷歌高管透露，谷歌一直在犹豫是否推出公众可以使用的工具，是不想糊弄大家(实际上还不够智能到普遍性应用)，并有安全方面的顾虑(这也是GPT公司宫斗的导火索)。

　　“谷歌对向公众发布这些东西一直非常谨慎，”杰弗里·辛顿在4月份离开公司时告诉《麻省理工技术评论》，“可能发生的坏事太多了，谷歌不想破坏自己的声誉。”面对看似不可信或不可销售的技术，谷歌谨慎行事，直到错过了更大的风险。

　　谷歌在过去的发展历史中吃过很多次苦头，推出有缺陷的产品，对公司发展来说，会适得其反——比如为了应对ChatGPT支持的竞争对手Bard时，急急忙忙在2月份推出Bard。但是Bard的一次小小失误，使其股价蒸发了1000亿美元。

　　5月，谷歌宣布在其大部分产品中植入生成型人工智能，比如谷歌邮箱和其他软件，但结果并没有给批评者留下深刻印象，比如聊天机器人还是傻乎乎的告诉你，来了一封电子邮件，实际上却根本没有。

　　大型语言模型都会有这样的问题。尽管生成型人工智能系统，似乎能像人类那样说话，也能写出很像人类写的文本，但它最擅长的其实是说假话……这并非现在这类模型的唯一问题。它们也很容易被洗脑，而且充满了偏见，而当大众使用它们的时候，也会被它们污染。

　　谷歌既没有解决这些问题，也没有解决幻觉问题。

　　AI幻觉是人工智能发展的另一个拦路虎。它是指包括ChatGPT在内的全世界的各种大语言模型(LLM)自信地编造事实，并将编造的事实与多个段落的连贯性和一致性编织在一起，且指称为真实信息的普遍发生的情况。

　　谷歌Gemini解决后一个问题的方法是使用一种工具，让人们使用谷歌搜索来仔细检查聊天机器人的答案，但这取决于在线搜索结果本身的准确性。

　　Gemini可能是这一波生成型人工智能的顶峰。但目前尚不清楚基于大型语言模型的人工智能下一步会走向何方。一些研究人员认为，下一个高峰未必从这些模型起步，或许会出现在别处。

　　皮查伊自然是不同意的。“随着我们教这些模型更多地推理，将会有越来越大的突破。”在这一点上，他显然和奥特曼达成了共识。