12月7日凌晨,谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文,宣布最新多模态大模型Gemini 1.0(双子星)版本正式上线,其性能有望超过OpenAI GPT-4 模型。
Gemini号称是目前最强大、最通用的模型,第一版Gemini 1.0能够理解和操作包括文字、图象、音频、视频、代码在内不同类型信息。
Gemini原生设计成多模态模型,一开始就在不同模态上预训练,接着通过额外的多模态数据进行微调、提升性能。目前,Gemini 1.0所受的训练是同时识别和理解文字、图象、音频、视频、代码等不同类型信息,并可回答涉及复杂主题的问题,这也让Gemini在解释、推理如数学和物理这样复杂的问题时表现出色。
不只如此,Gemini 1.0能够理解和解释世界上常用的程序语言如Python、Java、C++和Go,并且产生高品质的代码。值得一提的是,Google DeepMind 2年前推出AI代码生成系统AlphaCode,现在通过一个专门版本的Gemini,建立更进阶的AlphaCode 2,不仅擅长程序设计,还能处理与数学、理论计算机科学相关的竞技程序设计问题。
Google DeepMind团队使用Google自行研发、用于加速机器学习的TPU v4和v5e(Tensor Processing Unit),有规模地训练Gemini 1.0。依照模型大小有Ultra、Pro、Nano三种。
其中中端型号的Gemini Pro能够击败GPT-3.5,可扩展多种任务;Gemini Nano用于特定任务和移动设备。
而Gemini Ultra则是规模最大、功能最强大的模型,专为高度复杂任务所设计,Gemini Nano则是处理装置上任务最有效率的模型。
Google DeepMind团队不断对Gemini模型进行严格测试,从理解自然图象、音频、视频,再到数学推理,其中发现Gemini Ultra在大型语言模型研究和开发广泛采用的32项学术基准测试中,有30个取得领先成绩。
其中Gemini Ultra以90%的高得分成为第一个在MMLU(massive multitask language understanding,大规模多任务语言理解)测试里超越人类专家的模型,而在新的MMMU基准测试里也得到59.4%领先分数,两项测试皆超越OpenAI所开发的GPT-4模型。
截至目前Google所有AI模型中,Gemini在偏误、数据毒性(toxicity)等方面都接受最全面的安全性评价。在网络攻击、说服能力、自主性等可能存在风险的领域,Google DeepMind团队都进行最新研究,也运用Google Research的对抗测试技巧,在部署Gemini前率先找出关键的安全问题。
Google将在多项产品中导入Gemini,包括软件方面的Bard、以及有关硬件Pixel 8 Pro。从12月13日起,开发者和企业客户可以透过Google AI Studio或Google Cloud Vertex AI的Gemini API使用Gemini Pro。Android开发者也能透过AICore,在开发作业中运用Gemini Nano。
在ChatGPT推出后Google内部宣布「红色警戒」,从那时起被认为在AI竞赛急起直追。Gemini可说是Google多年来一直苦心建立的模型,也被外界视为能一举挑战OpenAI的关键利器。接下来我们将在越来越多Google产品看见Gemini身影,及其驱动的强大功能。