Google多模态原生模型Gemini提前发布

　　12月2日，据The Information信息，由于”无法可靠地处理一些非英语查询”，Google原定于下周举行的一系列 Gemini 发布会取消，模型的发布推迟到24年1月。

　　12月6日，Google官方Blog突然宣布Gemini发布。延续了PaLM 2定下的多种参数基调，Gemini分为：1)Gemini Ultra，最大、最有能力的模型，适用于高度复杂的任务;2)Gemini Pro，可扩展各种任务的最佳模型;3)Gemini Nano，高效的终端任务模型。

　　模型性能：Gemini在32 个学术基准中的 30 个上达到SOTA，并以90%高分成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型。

　　训练方法和能力：不同于多个多模态组件的”拼接“，Gemini是多模态原生模型，从一开始就针对不同模态进行预训练和微调，可以同时识别和理解文本、图像、音频等。

　　训练硬件：使用的是 Google自研的TPU v4 和 v5e，并在其AI优化基础设施上大规模训练 Gemini 1.0。

　　安全部署：应用Google Research对抗性测试、安全分类器、安全人工智能框架(SAIF)等技术，实现模型安全部署。

　　下一代大模型赋能应用与终端：当下应用遇到瓶颈，原因之一是基础模型能力尚未有本质性迭代。Google Gemini的发布，刷新了现有模型的测评结果，且原生支持多模态，为应用的跃升打下基础。此外，Google一方面延续了PaLM 2定下的多参数模型路线，另一方面在新机Pixel 8系列中加入多种AI应用，再次印证了大模型与终端结合的趋势。

　　Gemini多项任务测试表现优异。大型语言模型Gemini将包括三种不同的套件:最大、功能最强的Gemini Ultra; Gemini Pro，它可以扩展各种任务; 以及将用于特定任务和移动设备的Gemini Nano;1)Gemini Ultra是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型，该模型结合了数学、物理、历史、法律、医学和伦理学等57个学科来测试世界知识和解决问题的能力。根据齐木公众号，2)Gemini Nano，旨在在Android设备上本地离线运行。3)Gemini Pro，它将很快为许多谷歌AI服务提供动力，从今天开始就是Bard的支柱。

　　海外大模型进展提速，相关产业链持续受益。根据AI赋能实验室，1)Gemini被设计为天生的多模态模型，从一开始就在不同模态上进行预训练，然后通过额外的多模态数据进行微调，以进一步提高其有效性。这使得Gemini能够从根本上更好地理解和推理各种输入。2)在新的，更复杂的多模态多任务测试里面，gemini的优势更加明显。特别是在对视频和音频的理解上，要远胜于GPT-4V。3)从今天开始，Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。4)另外，谷歌还将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机。在接下来的几个月里，Gemini 将出现在更多谷歌产品和服务中，如搜索、广告、Chrome 和 Duet AI。