谷歌发布Gemini模型，30 项性能测试得分超过 GPT-4

　　21世纪经济报道见习记者肖潇北京报道

　　传闻中谷歌重点研发的Gemeni模型，今日终于正式露面。

　　当地时间12月6日，谷歌官网发文介绍“我们有史以来最大、最强的AI模型Gemini”，其包含了三个套件：

　　Gemini Ultra——谷歌参数量最大、性能最强的模型，适用于高度复杂的任务;

　　Gemini Pro——可扩展各种任务的模型;

　　Gemini Nano——高效的设备端任务模型。

　　Gemini系列模型主打多模态、灵活性两个能力。官网将Gemini定义为一款“原生多模态”(natively multimodal)模型。可以理解为，Gemini的出厂设置就是“全科发展”，多种感官在模型内统一学习，而不是单独学习再拼接到一起——后者是GPT等模型采用的标准做法，有可能带来“偏科”问题，也就是更擅长处理文字或者图片。

　　这就意味着Gemini可以直接理解不同类型的信息，包括文本、代码、音频、图像和视频，不需要额外的转换，各种模态的性能也更为平衡。

　　官网介绍，原生多模态能力让Gemeni能够“回答更复杂的问题”，“特别擅长解释数学和物理等复杂学科的推理”。官网强调了MMLU(大规模多任务语言理解)的测试结果——MMLU测试旨在衡量模型处理文本和图像的能力，包括大学数学、物理、经济学、社会科学等一系列问题。Gemini Ultra 的得分高达 90.0%，首次超越了人类专家。

　　值得一提的是，在32 项性能测试标准中，Gemini有30 项得分超过了 GPT-4，不过大多差距很小。

　　灵活性方面，谷歌推出了更多模型应用的选择。比如Gemini Nano作为最轻的模型，适用于内存空间有限的移动设备。该模型将在12月首次内置于谷歌手机Pixel 8 Pro，支持录音自动摘要、键盘智能回复两项功能，未来预计将更多功能置于安卓手机离线运行。谷歌CEO桑达·皮采还表示，Gemini 将出现在更多的产品和服务中，例如谷歌搜索、广告营销、Chrome浏览器和 Duet AI。

　　“我们确实看到Gemini全面开辟了新的领域。”谷歌 DeepMind 产品副总裁在近日一场的电话会议中表示，但他也承认大模型仍然存在不可小觑的幻觉、偏见、滥用问题。真正直指GPT-4的Gemini Ultra模型目前还在接受内部、外部的红队安全测试，预计明年年初才会上线。

　　需要保持关注的是，即将由Gemini Ultra模型支持的对话机器人Bard，会迎来最大的一次更新。更新后的Bard计划在 170 多个国家、地区提供服务，但没有包括欧盟和英国。负责Bard的谷歌副总裁表示，这是为了让公司与当地监管机构继续“接触”。