12月2日,据The Information信息,由于”无法可靠地处理一些非英语查询”,Google原定于下周举行的一系列 Gemini 发布会取消,模型的发布推迟到24年1月。
12月6日,Google官方Blog突然宣布Gemini发布。延续了PaLM 2定下的多种参数基调,Gemini分为:1)Gemini Ultra,最大、最有能力的模型,适用于高度复杂的任务;2)Gemini Pro,可扩展各种任务的最佳模型;3)Gemini Nano,高效的终端任务模型。
模型性能:Gemini在32 个学术基准中的 30 个上达到SOTA,并以90%高分成为第一个在 MMLU(大规模多任务语言理解)上超越人类专家的模型。
训练方法和能力:不同于多个多模态组件的”拼接“,Gemini是多模态原生模型,从一开始就针对不同模态进行预训练和微调,可以同时识别和理解文本、图像、音频等。
训练硬件:使用的是 Google自研的TPU v4 和 v5e,并在其AI优化基础设施上大规模训练 Gemini 1.0。
安全部署:应用Google Research对抗性测试、安全分类器、安全人工智能框架(SAIF)等技术,实现模型安全部署。
下一代大模型赋能应用与终端:当下应用遇到瓶颈,原因之一是基础模型能力尚未有本质性迭代。Google Gemini的发布,刷新了现有模型的测评结果,且原生支持多模态,为应用的跃升打下基础。此外,Google一方面延续了PaLM 2定下的多参数模型路线,另一方面在新机Pixel 8系列中加入多种AI应用,再次印证了大模型与终端结合的趋势。
Gemini多项任务测试表现优异。大型语言模型Gemini将包括三种不同的套件:最大、功能最强的Gemini Ultra; Gemini Pro,它可以扩展各种任务; 以及将用于特定任务和移动设备的Gemini Nano;1)Gemini Ultra是第一个在MMLU(大规模多任务语言理解)上超越人类专家的模型,该模型结合了数学、物理、历史、法律、医学和伦理学等57个学科来测试世界知识和解决问题的能力。根据齐木公众号,2)Gemini Nano,旨在在Android设备上本地离线运行。3)Gemini Pro,它将很快为许多谷歌AI服务提供动力,从今天开始就是Bard的支柱。
海外大模型进展提速,相关产业链持续受益。根据AI赋能实验室,1)Gemini被设计为天生的多模态模型,从一开始就在不同模态上进行预训练,然后通过额外的多模态数据进行微调,以进一步提高其有效性。这使得Gemini能够从根本上更好地理解和推理各种输入。2)在新的,更复杂的多模态多任务测试里面,gemini的优势更加明显。特别是在对视频和音频的理解上,要远胜于GPT-4V。3)从今天开始,Bard 将使用 Gemini Pro 的微调版本进行更高级的推理、计划、理解等。这是 Bard 自推出以来最大的升级。4)另外,谷歌还将 Gemini 引入 Pixel。Pixel 8 Pro 是第一款搭载 Gemini Nano 的智能手机。在接下来的几个月里,Gemini 将出现在更多谷歌产品和服务中,如搜索、广告、Chrome 和 Duet AI。