谷歌(Google)周三推出其认为规模最大、功能最强大的人工智能模型,该公司面临的压力越来越大,需要回答如何将人工智能商业化的问题。
大型语言模型Gemini将包括三种不同尺寸的套件:最大、功能最强的Gemini Ultra;Gemini Pro,它可以扩展各种任务;以及将用于特定任务和移动设备的Gemini Nano。
目前,该公司正计划通过谷歌云将Gemini授权给客户,让他们在自己的应用程序中使用。从12月13日开始,开发者和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。Android开发者也可以使用Gemini Nano进行开发。Gemini还将用于支持谷歌的产品,如巴德聊天机器人和搜索生成体验(Search Generative Experience),后者试图用对话式文本回答搜索查询(SGE尚未广泛使用)。
谷歌表示,企业可以通过聊天机器人和产品推荐,将该模型用于更高级的客户服务,以及为希望宣传产品的公司识别趋势。如果公司想要创建营销活动或博客内容,Gemini也可以用于内容创建,并可用于总结会议或为开发人员生成代码等。
该公司给出了一些例子,包括展示Gemini能够截取图表的截图,分析数百页的研究结果,然后更新图表。另一个例子是分析一个人的数学作业的照片,找出正确的答案并指出错误的答案。
该公司周三在一篇博客文章中表示,Gemini Ultra是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等57个学科来测试世界知识和解决问题的能力。据说它可以理解复杂主题的细微差别和推理。
谷歌首席执行官桑达尔•皮查伊周三在一篇博客文章中写道:“Gemini是谷歌各团队大规模合作的结果,包括谷歌研究部门的同事。”“它从头开始构建为多模式,这意味着它可以概括和无缝理解,跨操作和组合不同类型的信息,包括文本,代码,音频,图像和视频。”
此外,谷歌的聊天机器人巴德将使用Gemini Pro来帮助实现高级推理、规划、理解和其他功能。该公司高管本周表示,明年初,该公司将推出采用Gemini Ultra技术的“巴德高级”(Bard Advanced)产品。这是对其类似ChatGPT的聊天机器人巴德的最大更新。
这次更新是在搜索巨头谷歌首次推出巴德八个月之后,也是OpenAI在GPT-3.5上推出ChatGPT一年之后。今年3月,这家由山姆•奥特曼(Sam altman)领导的初创公司推出了GPT-4。高管们周二表示,Gemini Pro的表现优于GPT-3.5,但回避了与GPT-4相比如何的问题。
然而,根据谷歌周三发布的白皮书,Gemini Ultra在一些基准测试中表现优于GPT-4。当被问及谷歌是否计划对“Bard Advanced”的访问收费时,谷歌的巴德总经理Sissie Hsiao表示,谷歌将专注于创造良好的体验,目前还没有任何盈利细节。
在新闻发布会上,当被问及与当前一代语言模型相比,Gemini是否有什么新颖的功能时,谷歌DeepMind产品副总裁Eli Collins回答说:“我怀疑有。”但该公司仍在努力了解Gemini Ultra的新颖功能。
值得注意的是,谷歌推迟了Gemini的发布,这让人想起了该公司今年年初推出人工智能工具时遇到的困难。
当被询问延迟的原因,Collins回答说,测试更先进的型号需要更长的时间。Collins表示,Gemini是该公司打造的经过最严格测试的人工智能模型,它拥有谷歌所有模型中“最全面的安全评估”。
Collins说,尽管是其最大的型号,但Gemini Ultra的服务成本要低得多。“它不仅功能更强,效率也更高。我们仍然需要大量的计算来训练Gemini,但就训练这些模型的能力而言,我们的效率要高得多。”