在OpenAI公司高调发布GPT-4之前数月,业界就疯传谷歌的人工智能公司DeepMind坐不住了,终于要把深藏“闺中”很久的Gemini模型拿出来了。
当地时间12月6日,谷歌召开了Gemini发布会,也是这家公司迄今为止在人工智能领域召开的规格最高的发布会,正式向竞争对手OpenAI和微软宣战,争夺人工智能霸主地位。
Gemini模型在各种功能上都是同类最佳的——正如一位观察者所说,它是一台“万物机器”。
“这种模型天生更有能力。” 谷歌及其母公司Alphabet的首席执行官桑达尔·皮查伊告诉《麻省理工技术评论》,“这是一个平台。人工智能是一个深刻的平台转变,比网络或移动更大。因此,它代表着我们前进了一大步。”
皮查伊(Sundar Pichai)之前负责Chrome和Android,以痴迷于产品而闻名。在2016年担任首席执行官的第一封创始人信中,他预测“我们将从移动第一走向人工智能第一的世界”。自那以后的几年里,皮查伊将人工智能深深融入了谷歌的所有产品中,从安卓设备一直到云。
这对谷歌来说确实是一大步,但对整个领域来说,倒看不出有巨大的飞跃。
谷歌DeepMind公司称,Gemini在32项标准性能指标中有30项超过了GPT-4——然而,它们之间的差距很小。谷歌DeepMind把目前最好的功能都整合到一个强大的软件包中,从演示视频来看,它在很多方面都做得很好,但很少有我们以前没有见过的。
但关于Gemini的炒作确实是我们在这个领域不曾见过的,就几个月来到处能听到的“AI界马上要发生一件大事”的传言来说,Gemini可能是我们已经达到人工智能炒作顶峰的标志。至少目前是这样。
华盛顿大学专门研究在线搜索的教授Chirag Shah将此次发布会比作苹果每年推出的新款iPhone。他说:“这并没有给我们留下太多印象,因为我们最近看到了太多。”
与GPT-4一样,Gemini是多模式的,这意味着它被训练来处理多种输入:文本、图像和音频。它可以将这些不同的格式结合起来,回答从家务到大学数学再到经济的所有问题。
Gemini在昨天的记者会上进行了现场演示,拿给它看一张图表,它在用新数据分析数百页的研究后,用新的信息更新了图表。在另一个例子中,给Gemini看了一张平底锅中煎蛋饼的照片,说话问它煎蛋饼是否已经煮熟,它回答说:“它还没做好,因为鸡蛋还流着水。”
然而,大多数人目前仍然不能够完整地体验Gemini。今天推出的版本是为谷歌基于文本的搜索聊天机器人Bard的后台,为其提供更高级的推理、规划和理解能力。
在接下来的几个月里,新的Gemini增强版Bard会在170多个国家提供英语版本的首发,不包括欧盟和英国。谷歌负责Bard的副总裁Sissie Hsiao表示,这是因为公司需要与当地监管机构“接轨”。
Gemini还有三种级别的产品型号:Ultra、Pro和Nano。Nano是直接在设备上可运行的,例如谷歌的新款Pixel手机。从12月13日开始,开发者和企业将可以访问Gemini Pro,这是可以在有限计算资源基础上运行的。最强大的型号Gemini Ultra是全功率版本,谷歌高管在一次新闻电话会议上告诉记者,经过“广泛的信任和安全检查”,将于“明年初”上市。
皮查伊说Gemini代表了谷歌DeepMind在人工智能方面取得的进展:“我认为这是人工智能模型的Gemini时代,它将永远代表我们在人工智能技术方面取得进展的前沿。”
和GPT的技术较量
OpenAI最强大的模型GPT-4被视为行业的黄金标准。虽然谷歌吹嘘Gemini的表现优于OpenAI的前一个模型GPT 3.5,但公司高管回避了该模型超过GPT-4的程度的问题。
但该公司特别强调了一个基准,称为MMLU(大规模多任务语言理解)。这是一组旨在衡量模型在涉及文本和图像的任务中的表现的测试,包括阅读理解、大学数学以及物理、经济和社会科学的多项选择题测验。
皮查伊说,在纯文本问题上,Gemini的得分为90%,人类专家的得分约为89%。GPT-4在这类问题上的得分为86%。在多模式问题上,Gemini得分为59%,而GPT-4得分为57%。皮查伊暗示Gemini早在GPT-4之前就已经第一名。
“很明显,Gemini是一个非常复杂的人工智能系统。” 新墨西哥州圣达菲研究所的人工智能研究员Melanie Mitchell说,谷歌这一模型对于基准数据集的表现非常令人印象深刻,“但是在我看来,Gemini并没有明显比GPT-4更有能力。”
斯坦福大学基础模型研究中心主任Percy Liang表示,虽然该模型有很好的基准分数,但由于我们不知道训练数据中有什么,很难知道如何理解这些数字。
利用人类测试人员的反馈,谷歌DeepMind训练Gemini更准确地回答事实,在被要求时给出归因,在面对无法回答的问题时进行对冲,而不是胡言乱语。华盛顿大学计算语言学教授Emily Bender对谷歌宣传的“万能机器”一说表示质疑,称该公司正在使用狭窄的基准来评估预计用于这些不同目的的模型,“这意味着无法对其进行有效的彻底评估”。
人工智能走到哪一步了?
今年3月OpenAI发布GPT人工智能模型并推出其支持的付费聊天AI机器人ChatGPT。这对谷歌来说压力很大。
谷歌已经耗费数年投入巨资在人工智能领域的研究,凭借其得天独厚的数据资源,遥遥领先于业界发展。却没想到被OpenAI弯道超车。
4月,迫于投资方的巨大压力,谷歌必须拿出证明,自己不比OpenAI差,于是宣布将负责人工智能研究的Google Brain,与母公司Alphabet位于伦敦的人工智能研究实验室DeepMind合并,并在今年接下来的时间里弄出了Gemini这个模型来回应GPT-4的挑战。
谷歌高管透露,谷歌一直在犹豫是否推出公众可以使用的工具,是不想糊弄大家(实际上还不够智能到普遍性应用),并有安全方面的顾虑(这也是GPT公司宫斗的导火索)。
“谷歌对向公众发布这些东西一直非常谨慎,”杰弗里·辛顿在4月份离开公司时告诉《麻省理工技术评论》,“可能发生的坏事太多了,谷歌不想破坏自己的声誉。”面对看似不可信或不可销售的技术,谷歌谨慎行事,直到错过了更大的风险。
谷歌在过去的发展历史中吃过很多次苦头,推出有缺陷的产品,对公司发展来说,会适得其反——比如为了应对ChatGPT支持的竞争对手Bard时,急急忙忙在2月份推出Bard。但是Bard的一次小小失误,使其股价蒸发了1000亿美元。
5月,谷歌宣布在其大部分产品中植入生成型人工智能,比如谷歌邮箱和其他软件,但结果并没有给批评者留下深刻印象,比如聊天机器人还是傻乎乎的告诉你,来了一封电子邮件,实际上却根本没有。
大型语言模型都会有这样的问题。尽管生成型人工智能系统,似乎能像人类那样说话,也能写出很像人类写的文本,但它最擅长的其实是说假话……这并非现在这类模型的唯一问题。它们也很容易被洗脑,而且充满了偏见,而当大众使用它们的时候,也会被它们污染。
谷歌既没有解决这些问题,也没有解决幻觉问题。
AI幻觉是人工智能发展的另一个拦路虎。它是指包括ChatGPT在内的全世界的各种大语言模型(LLM)自信地编造事实,并将编造的事实与多个段落的连贯性和一致性编织在一起,且指称为真实信息的普遍发生的情况。
谷歌Gemini解决后一个问题的方法是使用一种工具,让人们使用谷歌搜索来仔细检查聊天机器人的答案,但这取决于在线搜索结果本身的准确性。
Gemini可能是这一波生成型人工智能的顶峰。但目前尚不清楚基于大型语言模型的人工智能下一步会走向何方。一些研究人员认为,下一个高峰未必从这些模型起步,或许会出现在别处。
皮查伊自然是不同意的。“随着我们教这些模型更多地推理,将会有越来越大的突破。”在这一点上,他显然和奥特曼达成了共识。