谷歌发布首个原生态多模态大模型Gemini 1.0

　　继此前在今年6月举行的I/O开发者大会上，首次披露全新的大模型项目Gemini后。日前谷歌方面正式发布大模型Gemini 1.0，并表示这是其迄今为止规模最大，性能最强的大模型。

　　据了解，Gemini 1.0上下文窗口为32k，基于谷歌自家的TPUs v4和v5e进行大规模训练，同时也是全球第一款原生多模态大模型，可以同时识别和理解文本、图像、音频、视频、代码等多种内容形式，而且在输入阶段就能对各种内容进行快速理解并推理。

　　在谷歌方面的演示场景中显示，当测试者使用简笔画视频的方式输入信息后，Gemini 1.0能根据简笔画的每一笔改变，实时对最新的画面内容作出解读与描述。而当测试者提供一张充满阳光的房间照片后，Gemini 1.0可以推理出来这个房间的朝向，并对房间里的植物给出照顾建议。

　　对此谷歌DeepMind CEO Demis Hassabis表示，“Gemini可以像我们一样，理解我们周围的世界”。

　　值得一提的是，此次谷歌方面还针对不同场景发布了三种不同版本的Gemini 1.0模型，分别是适用于处理高度复杂任务的最强、最大的模型Gemini Ultra、适用于多任务的最佳通用模型Gemini Pro、适用于特定任务和端侧的Gemini Nano。其中，Gemini Nano还进一步细分为Nano-1(18亿参数)和 Nano-2(32.5亿参数)两种型号，分别针对低内存和高内存设备。

　　在性能方面，据谷歌公布的测评结果显示，从自然图像、音频和视频理解到数学推理，在大型语言模型(LLM)研发中使用的32个广泛使用的学术基准上，Gemini Ultra的性能在30项上都超过了当前最先进的模型。而且在MMLU(大规模多任务语言理解)任务上，Gemini Ultra的得分高达90.0%，是首个超越人类专家的模型。此外在最新版本的MMMU测试集中，Gemini Ultra 也取得了得分为59.4%的最佳成绩。

　　据了解，即日起谷歌旗下的产品将基于Gemini 1.0进行全面升级。例如，谷歌此前推出的类ChatGPT产品Bard将使用Gemini Pro的微调版本来执行更高级的推理、规划、理解等任务，这也是Bard自推出以来最大的升级。据悉，升级版Bard将在170多个国家/地区提供英语版本，并且在不久的将来会扩展到更多模态，以及支持更多种语言。

　　未来几个月中，Gemini 1.0将陆续接入在谷歌更多的产品和服务中，包括搜索、广告、Chrome、Duet AI等。据谷歌方面透露，其已经在搜索中试验了Gemini 1.0，它使用户的搜索生成体验(SGE)速度更快，延迟减少了40%，同时质量也得到了提升。

　　对于开发者而言，自2023年12月13日开始，开发人员和企业客户可以通过Google AI Studio或Google Cloud Vertex AI中的Gemini API访问Gemini Pro。而Gemini Ultra目前正处于信任和安全检查阶段，期间谷歌方面会先向部分客户、开发人员、合作伙伴以及安全和责任专家提供Gemini Ultra，供其进行早期实验和反馈，然后在明年初向开发人员和企业客户推出。