继此前在今年6月举行的I/O开发者大会上,首次披露全新的大模型项目Gemini后。日前谷歌方面正式发布大模型Gemini 1.0,并表示这是其迄今为止规模最大,性能最强的大模型。
据了解,Gemini 1.0上下文窗口为32k,基于谷歌自家的TPUs v4和v5e进行大规模训练,同时也是全球第一款原生多模态大模型,可以同时识别和理解文本、图像、音频、视频、代码等多种内容形式,而且在输入阶段就能对各种内容进行快速理解并推理。
在谷歌方面的演示场景中显示,当测试者使用简笔画视频的方式输入信息后,Gemini 1.0能根据简笔画的每一笔改变,实时对最新的画面内容作出解读与描述。而当测试者提供一张充满阳光的房间照片后,Gemini 1.0可以推理出来这个房间的朝向,并对房间里的植物给出照顾建议。
对此谷歌DeepMind CEO Demis Hassabis表示,“Gemini可以像我们一样,理解我们周围的世界”。
值得一提的是,此次谷歌方面还针对不同场景发布了三种不同版本的Gemini 1.0模型,分别是适用于处理高度复杂任务的最强、最大的模型Gemini Ultra、适用于多任务的最佳通用模型Gemini Pro、适用于特定任务和端侧的Gemini Nano。其中,Gemini Nano还进一步细分为Nano-1(18亿参数)和 Nano-2(32.5亿参数)两种型号,分别针对低内存和高内存设备。
在性能方面,据谷歌公布的测评结果显示,从自然图像、音频和视频理解到数学推理,在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准上,Gemini Ultra的性能在30项上都超过了当前最先进的模型。而且在MMLU(大规模多任务语言理解)任务上,Gemini Ultra的得分高达90.0%,是首个超越人类专家的模型。此外在最新版本的MMMU测试集中,Gemini Ultra 也取得了得分为59.4%的最佳成绩。
据了解,即日起谷歌旗下的产品将基于Gemini 1.0进行全面升级。例如,谷歌此前推出的类ChatGPT产品Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务,这也是Bard自推出以来最大的升级。据悉,升级版Bard将在170多个国家/地区提供英语版本,并且在不久的将来会扩展到更多模态,以及支持更多种语言。
未来几个月中,Gemini 1.0将陆续接入在谷歌更多的产品和服务中,包括搜索、广告、Chrome、Duet AI等。据谷歌方面透露,其已经在搜索中试验了Gemini 1.0,它使用户的搜索生成体验(SGE)速度更快,延迟减少了40%,同时质量也得到了提升。
对于开发者而言,自2023年12月13日开始,开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。而Gemini Ultra目前正处于信任和安全检查阶段,期间谷歌方面会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra,供其进行早期实验和反馈,然后在明年初向开发人员和企业客户推出。