谷歌希望通过释出Gemini追赶OpenAI

　　说到当前这轮人工智能热潮背后的支持技术，Alphabet旗下的谷歌其实是发明者，但其产品的受欢迎程度却明显滞后。谷歌希望透过发布备受期待的Gemini来改变这种局面，这是该公司迄今为止构建的“规模最大、功能最强的工人智能模型”。

　　自从OpenAI去年凭借其对话式聊天机械人ChatGPT取得巨大成功以来，越来越多的公司一直在尝试产生式人工智能，这种技术可以根据用户的要求自动执行编码、总结报告或建立营销活动等任务。在12月6日发布这款产品前的一次演示会上，谷歌强调，Gemini是其构建的最灵活的模型，因为它有不同规模的版本，包括一个可以直接在智能手机上执行的版本。这使它有别于其他竞争对手。

　　这款人工智能模型是一个用于支持各种产生式人工智能应用程序的系统，它有三个不同的版本：Gemini Ultra、Gemini Pro和Gemini Nano。谷歌DeepMind部门产品副总裁柯林斯(Eli Collins)表示，这种多样性意味着Gemini“能够在从流动装置到大型数据中心的所有装置上执行”。

　　“长期以来，我们一直希望构建新一代人工智能模型，其灵感来自于人们理解这个世界并与其互动的方式——这种人工智能感觉更像是一个助人为乐的合作者，而不是一款智慧软件，”柯林斯在接受电话采访时说道，“Gemini让我们离这个愿景又靠近了一步。”

　　在这款模型发布前，该公司对Gemini进行了一系列标准的行业基准检验，并表示，在八项测试中有六项结果显示，Gemini Pro的表现优于OpenAI的GPT-3.5。谷歌称，在对通用语言理解、推理、数学和编码进行的八项基准检验中，Gemini有七项结果优于OpenAI通用模型的最新版本GPT-4。与此同时，谷歌估计，该公司最新的可解释和产生程序代码的产生式人工智能产品AlphaCode 2在竞争性程序设计领域超过了85%的竞争对手。该公司将发布一份技术报告，更深入地解释Gemini的模型架构、训练过程和评估情况。

　　从12月6日开始，想要为智能手机和平板计算机编写Gemini支持的应用程序的Android开发人员将能够注册使用这款人工智能模型的“nano”版本，该版本可以直接在此类装置上执行。谷歌还表示，将立即在其旗舰手机Pixel 8 Pro上启用Gemini，它将支持新的产生式人工智能功能，例如从电话录音中总结要点。下周，谷歌将透过其Vertex AI和AI Studio平台向云客户提供Gemini Pro。

　　Gemini Ultra是最大版本的谷歌人工智能模型，最初将在面向开发者和企业公司的抢先体验计划中推出，有关该计划的详细信息将于下周公布。这个版本将于明年早些时候向公众广泛推出。

　　Gemini还能透过Bard与谷歌的大量应用程序和服务整合在一起，Bard是该公司的对话式聊天机械人，是ChatGPT的竞争对手。此前，Bard使用的是谷歌的PaLM 2模型，这是该公司在5月份的年度开发者大会上宣布的大型语言模型。

　　在过去一年中，谷歌一直面临压力，既要重塑其核心搜寻业务，又要应对产生式人工智能程序兴起的浪潮。尽管该公司长期以来一直被视为人工智能研究领域的先驱，但一些人批评其管理层在人工智能产品营销方面反应迟缓，尤其是在ChatGPT和影像产生器Dall-E等产品大获成功之后。自OpenAI于3月份发布GPT-4以来，谷歌一直在努力重申其在该领域的领导地位，包括将这项新技术注入其成熟的搜寻业务。

　　Gemini就是该公司面对这种市场压力给出的答案。谷歌表示，人工智能模型是“天然多模式”，这意味着它从一开始就经过预先训练，可以处理使用者给出的基于文字和影像的提示。例如，在一则影片演示中，谷歌展示了家长可以透过上传某道某数学题的影像以及在草稿纸上尝试解题的步骤照片，来帮助孩子完成家庭作业。

　　在演示影片中，谷歌的软件工程师阿普尔鲍姆表示：“Gemini不仅能解出这些题目，还可以阅读这些答案并理解哪些是对的，哪些是错的，并对需要进一步澄清的概念作出解释。”该公司还表示，其“搜寻产生体验”——谷歌利用其产生式人工智能技术构建的实验版本的搜索引擎——将在明年融入Gemini的新功能。

　　尽管如此，该公司的代表警告说，Gemini仍然容易“产生幻觉”，也就是产生式人工智能产生的虚假或捏造的信息。柯林斯称这种现象为“一个未解决的研究问题”。该公司向记者展示的演示影片是预先录制的。

　　柯林斯说，Gemini“在谷歌所有人工智能模型中拥有最全面的安全评估”。他说，为了评估Gemini的安全性，谷歌对这款人工智能模型进行了对抗性测试，也就是模仿一位试图利用该程序的坏人给出提示。此次测试包括“真实毒性提示”，这是艾伦人工智能研究所开发的一项测试，其中包含从网上提取的10万多个提示，旨在帮助人工智能研究人员检查大型语言模型中是否存在仇恨言论和政治偏见。

　　谷歌还强调，这项工具的速度将会很快。该公司表示，Gemini使用了一种新的底层超级计算器架构和更新的处理芯片，使其比早前较小的模型执行得更快。谷歌正在使用一种新版本的云芯片——Cloud Tensor Processing Units (简称TPUs)，这是一种内部设计的芯片，和前代产品相比，它训练现有模型的速度要快2.8倍。谷歌机器学习副总裁阿明·瓦赫达特说，这种方法让谷歌“对未来标准人工智能基础设施有了新的认识”。他补充说，该公司仍然会使用第三方人工智能芯片来执行其Gemini模型。

　　Gemini将被整合到3月份推出的谷歌产生式人工智能聊天机械人Bard当中，使其能够利用该公司最受欢迎的服务，包括Gmail、地图、档案(Docs)和YouTube。此次推出将分为两个不同的阶段进行：从12月6日开始，Bard将由Gemini Pro提供支持，它将实现高阶推理、规划、理解和其他功能。它将能够在170个国家和地区以英语执行，但值得注意的是，不包括欧洲或英国，该公司表示它正在和当地监管机构协商。

　　明年初，该公司打算发布Bard Advanced，这款产品将由功能更强大的Gemini Ultra模型提供支持。谷歌表示，它很快将推出一个值得信赖的测试程序，以便在向公众广泛推出之前改进Bard Advanced。谷歌负责Bard产品的副总裁Sissie Hsiao表示，“有了Gemini的加持，Bard正在进行迄今为止最大、最好的升级，它将为人们开启创作、互动和协作的新方式。”