Google呕心沥血推出的Gemini是「原生」多模态AI模型,可以同时无缝理解、操作包括文字、代码、声音、图片、影片等多元形式的内容,像是理解图片方面,Google宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤,就能直接理解图片内容。
理解能力到底有强?
Google就用了一个图中很简单的例子,拿了两张非常简单的手绘汽车图问Gemini哪台比较快,Gemini 回答:右边比较快,因为它比较符合空气力学!
Google强调,Gemini最大型的版本Gemini Ultra在32项AI测试中,有30项的评分超越了OpenAI的GPT-4V,同时也是在所谓MMLU(大规模多任务语言理解,包括数学、物理、历史、法律、医学和伦理学等57项科目)测试中,第一个达到90%水平并超越人类专家的大型自然语言模型。
Google也表示Gemini可以理解、产生Python、Java、C++和Go等广受使用的程式语言,同时Google也使用Gemini推出新一代的AI生成代码系统AlphaCode 2,解决问题数量几乎是一代的两倍。
为了满足从数据中心等级到移动设备等不同使用环境需求,Gemini一共推出Ultra、Pro、Nano大中小三个版本。 最大型的Ultra正在进行一系列的安全性测试,将会释出少量试用版给企业客户与开发者,估计明年推出正式版。
Pro则是即日起就提供给英文版的聊天机器人Bard使用,另外将会在12月13日在Google Cloud的Vertex AI、AI Studio上提供API供人使用; 最小的Nano则是准备直接给Pixel 8 Pro使用。
Bard接下来在170多个国家和地区提供英语版本,将逐渐扩展给不同地区以及支持不同语系,并且预告还会有使用Ultra的Bard Advanced。 同时像是 Google 广告、Chrome 和 Duet AI 等产品也会陆续引入 Gemini。 而最重要的本家产品搜索引擎则是已经开跑,导入搜索生成体验(SGE)延迟少了40%。
Google说明Gemini使用自家所设计芯片TPU v4和v5e训练,且反过来Gemini在TPU上也比之前的AI模型表现更佳; Google也同时发布了新的芯片TPU v5p供云端使用。