背水一战狙击GPT-4，谷歌Gemini终发布，听说读写全能选手

　　最有希望超越GPT-4的模型来了——美国硅谷时间12月6日上午，谷歌CEO劈柴正式宣布，“大杀器”Gemini 1.0，正式上线。

　　Gemini是一个原生多模态大模型，谷歌在今年5月的I/O大会宣布开始研发后，Gemini的传说不断：将谷歌大脑和DeepMind部门合并，数百人攻坚，几乎耗尽谷歌内部计算资源……如此种种，只为和OpenAI一战。

　　但一直等到大半年后，OpenAI的GPT-4上线，GPT商店也把硅谷炸了一圈，Gemini才在千呼万唤中面世。

　　△图源：谷歌

　　一个月前，英伟达的资深科学家Jim Fan就为Gemini捏了把汗：“人们对谷歌Gemini的期望高得离谱!”

　　他表示，Meta要惊艳世界的话，只要让Llama 3开源就好了。但谷歌想要重夺当年AlphaGo的辉煌，Gemini不仅要100%达到GPT-4的能力，还要在成本或速度上比GPT-4更好。

　　△图源：X

　　这次发布中，Gemini终于揭开了面纱——展现了其文本、图像、视频、音频和代码的五大能力，一口气推出了大中小三个版本，从云上到手机、平板都可以跑。

　　并且，Gemini还有大量的酷炫用例：AI对一段视频可以做出准确反应，AI能和你玩你画我猜……简单来说，越来越像一位真正的人类助手了。

　　Gemini 1.0上下文窗口为32k，基于谷歌自家的TPUs v4 和 v5e进行大规模训练。这次，谷歌顺势推出了新的TPU 系统 Cloud TPU v5p，希望为训练AI模型的客户提供支持。

　　△Google 数据中心内，一排 Cloud TPU v5p AI 加速器超级计算机

　　AI圈子里，也是一片相爱相亲的景象。Gemini官宣发布后，甚至不少OpenAI的研究员也都发文祝贺谷歌：

　　△来源：X

　　听说读写样样行，多项性能超越GPT-4，有任务首次超越人类

　　“Gemini，从第一天起就是多模态大模型——跨越文本、图像、视频、音频和代码的无缝推理。”谷歌官网上，这是介绍Gemini的第一句话。

　　这是Gemini 1.0最重要的特点：一位更强大的“全科选手”。

　　如果和OpenAI做对比，OpenAI的GPT-3.5一开始是纯文字的大语言模型，到GPT-4才上了视觉等多模态能力，更像是组件的拼装，好比先学了语文，再学数学。

　　但Gemini从第一天起就设计成原生多模态结构，相当于“所有科目一起学”。这其实也是人类认识世界的方式。这意味着，Gemini可以抽象和理解、操作和组合不同类型的信息，包括文本、代码、音频、图像和视频等等。

　　一个直观的例子是，在理解图像信息时，Gemini基于图像就可以马上进行理解。但如果是非原生多模态结构模型上，就需要先借助OCR(光学字符识别技术)先“认出来”图里是什么——转成文本，再放到语言模型中进行语义理解。