最有希望超越GPT-4的模型来了——美国硅谷时间12月6日上午,谷歌CEO劈柴正式宣布,“大杀器”Gemini 1.0,正式上线。
Gemini是一个原生多模态大模型,谷歌在今年5月的I/O大会宣布开始研发后,Gemini的传说不断:将谷歌大脑和DeepMind部门合并,数百人攻坚,几乎耗尽谷歌内部计算资源……如此种种,只为和OpenAI一战。
但一直等到大半年后,OpenAI的GPT-4上线,GPT商店也把硅谷炸了一圈,Gemini才在千呼万唤中面世。
△图源:谷歌
一个月前,英伟达的资深科学家Jim Fan就为Gemini捏了把汗:“人们对谷歌Gemini的期望高得离谱!”
他表示,Meta要惊艳世界的话,只要让Llama 3开源就好了。但谷歌想要重夺当年AlphaGo的辉煌,Gemini不仅要100%达到GPT-4的能力,还要在成本或速度上比GPT-4更好。
△图源:X
这次发布中,Gemini终于揭开了面纱——展现了其文本、图像、视频、音频和代码的五大能力,一口气推出了大中小三个版本,从云上到手机、平板都可以跑。
并且,Gemini还有大量的酷炫用例:AI对一段视频可以做出准确反应,AI能和你玩你画我猜……简单来说,越来越像一位真正的人类助手了。
Gemini 1.0上下文窗口为32k,基于谷歌自家的TPUs v4 和 v5e进行大规模训练。这次,谷歌顺势推出了新的TPU 系统 Cloud TPU v5p,希望为训练AI模型的客户提供支持。
△Google 数据中心内,一排 Cloud TPU v5p AI 加速器超级计算机
AI圈子里,也是一片相爱相亲的景象。Gemini官宣发布后,甚至不少OpenAI的研究员也都发文祝贺谷歌:
△来源:X
听说读写样样行,多项性能超越GPT-4,有任务首次超越人类
“Gemini,从第一天起就是多模态大模型——跨越文本、 图像、 视频、 音频和代码的无缝推理。”谷歌官网上,这是介绍Gemini的第一句话。
这是Gemini 1.0最重要的特点:一位更强大的“全科选手”。
如果和OpenAI做对比,OpenAI的GPT-3.5一开始是纯文字的大语言模型,到GPT-4才上了视觉等多模态能力,更像是组件的拼装,好比先学了语文,再学数学。
但Gemini从第一天起就设计成原生多模态结构,相当于“所有科目一起学”。这其实也是人类认识世界的方式。这意味着,Gemini可以抽象和理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频等等。
一个直观的例子是,在理解图像信息时,Gemini基于图像就可以马上进行理解。但如果是非原生多模态结构模型上,就需要先借助OCR(光学字符识别技术)先“认出来”图里是什么——转成文本,再放到语言模型中进行语义理解。