Google新发布的Gemini真的是太强大了

　　Google呕心沥血推出的Gemini是「原生」多模态AI模型，可以同时无缝理解、操作包括文字、代码、声音、图片、影片等多元形式的内容，像是理解图片方面，Google宣称Gemini Ultra可以直接跳过从图片中使用OCR理解文字的步骤，就能直接理解图片内容。

　　理解能力到底有强?

　　Google就用了一个图中很简单的例子，拿了两张非常简单的手绘汽车图问Gemini哪台比较快，Gemini 回答：右边比较快，因为它比较符合空气力学!

　　Google强调，Gemini最大型的版本Gemini Ultra在32项AI测试中，有30项的评分超越了OpenAI的GPT-4V，同时也是在所谓MMLU(大规模多任务语言理解，包括数学、物理、历史、法律、医学和伦理学等57项科目)测试中，第一个达到90%水平并超越人类专家的大型自然语言模型。

　　Google也表示Gemini可以理解、产生Python、Java、C++和Go等广受使用的程式语言，同时Google也使用Gemini推出新一代的AI生成代码系统AlphaCode 2，解决问题数量几乎是一代的两倍。

　　为了满足从数据中心等级到移动设备等不同使用环境需求，Gemini一共推出Ultra、Pro、Nano大中小三个版本。最大型的Ultra正在进行一系列的安全性测试，将会释出少量试用版给企业客户与开发者，估计明年推出正式版。

　　Pro则是即日起就提供给英文版的聊天机器人Bard使用，另外将会在12月13日在Google Cloud的Vertex AI、AI Studio上提供API供人使用; 最小的Nano则是准备直接给Pixel 8 Pro使用。

　　Bard接下来在170多个国家和地区提供英语版本，将逐渐扩展给不同地区以及支持不同语系，并且预告还会有使用Ultra的Bard Advanced。同时像是 Google 广告、Chrome 和 Duet AI 等产品也会陆续引入 Gemini。而最重要的本家产品搜索引擎则是已经开跑，导入搜索生成体验(SGE)延迟少了40%。

　　Google说明Gemini使用自家所设计芯片TPU v4和v5e训练，且反过来Gemini在TPU上也比之前的AI模型表现更佳; Google也同时发布了新的芯片TPU v5p供云端使用。