谷歌发布多模态大模型Gemini，性能超GPT-4！

　　12月7日凌晨，谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，宣布最新多模态大模型Gemini 1.0(双子星)版本正式上线，其性能有望超过OpenAI GPT-4 模型。

　　Gemini号称是目前最强大、最通用的模型，第一版Gemini 1.0能够理解和操作包括文字、图象、音频、视频、代码在内不同类型信息。

　　Gemini原生设计成多模态模型，一开始就在不同模态上预训练，接着通过额外的多模态数据进行微调、提升性能。目前，Gemini 1.0所受的训练是同时识别和理解文字、图象、音频、视频、代码等不同类型信息，并可回答涉及复杂主题的问题，这也让Gemini在解释、推理如数学和物理这样复杂的问题时表现出色。

　　不只如此，Gemini 1.0能够理解和解释世界上常用的程序语言如Python、Java、C++和Go，并且产生高品质的代码。值得一提的是，Google DeepMind 2年前推出AI代码生成系统AlphaCode，现在通过一个专门版本的Gemini，建立更进阶的AlphaCode 2，不仅擅长程序设计，还能处理与数学、理论计算机科学相关的竞技程序设计问题。

　　Google DeepMind团队使用Google自行研发、用于加速机器学习的TPU v4和v5e(Tensor Processing Unit)，有规模地训练Gemini 1.0。依照模型大小有Ultra、Pro、Nano三种。

　　其中中端型号的Gemini Pro能够击败GPT-3.5，可扩展多种任务;Gemini Nano用于特定任务和移动设备。

　　而Gemini Ultra则是规模最大、功能最强大的模型，专为高度复杂任务所设计，Gemini Nano则是处理装置上任务最有效率的模型。

　　Google DeepMind团队不断对Gemini模型进行严格测试，从理解自然图象、音频、视频，再到数学推理，其中发现Gemini Ultra在大型语言模型研究和开发广泛采用的32项学术基准测试中，有30个取得领先成绩。

　　其中Gemini Ultra以90%的高得分成为第一个在MMLU(massive multitask language understanding，大规模多任务语言理解)测试里超越人类专家的模型，而在新的MMMU基准测试里也得到59.4%领先分数，两项测试皆超越OpenAI所开发的GPT-4模型。

　　截至目前Google所有AI模型中，Gemini在偏误、数据毒性(toxicity)等方面都接受最全面的安全性评价。在网络攻击、说服能力、自主性等可能存在风险的领域，Google DeepMind团队都进行最新研究，也运用Google Research的对抗测试技巧，在部署Gemini前率先找出关键的安全问题。

　　Google将在多项产品中导入Gemini，包括软件方面的Bard、以及有关硬件Pixel 8 Pro。从12月13日起，开发者和企业客户可以透过Google AI Studio或Google Cloud Vertex AI的Gemini API使用Gemini Pro。Android开发者也能透过AICore，在开发作业中运用Gemini Nano。

　　在ChatGPT推出后Google内部宣布「红色警戒」，从那时起被认为在AI竞赛急起直追。Gemini可说是Google多年来一直苦心建立的模型，也被外界视为能一举挑战OpenAI的关键利器。接下来我们将在越来越多Google产品看见Gemini身影，及其驱动的强大功能。