多年前,Google凭借AlphaGo一骑绝尘在全球掀起了一波AI浪潮,这一次,在被OpenAI的ChatGPT所引发的AI新浪潮碾压一年之久后,Google展开了绝地反击。12月6日,谷歌宣布推出多模态的Gemini,这是谷歌迄今为止功能最强大、最通用的大模型。
多模态的史诗级创新
Gemini的横空出世,让大家的目光再次聚焦在了多模态大模型上。第一个版本的Gemini1.0有3个尺寸:
1.Gemini Ultra—谷歌最大、最有能力的型号,适用于高度复杂的任务。
2.Gemini Pro—用于扩展各种任务的最佳型号。
3.Gemini Nano—最高效的设备端任务模型。
据悉,Gemini1.0具有原生多模态能力,能够处理视频、音频、图像、文本和代码等多种形式的内容,且性能优于现有的“拼接型”多模态大模型。Gemini不仅能够进行双模态之间的转换,也能处理多模态转换的复杂任务。可以说,Google这次是真的一雪前耻。
Gemini和GPT-4谁更强?
原Google AI产品负责人Eli Collins表示团队一直在对Gemini模型进行严格的测试并评估其在各种任务中的性能。从自然图像、音频和视频理解到数学推理,在被大型语言模型(LLM)研究和开发中广泛使用的32项学术基准中,Gemini Ultra的性能有30项都超过了目前最先进的水平。
根据MMLU的测试结果,Gemini Ultra的得分率为90%,是第一个在MMLU测试中超过人类专家的模型,MMLU基准使用数学、物理、历史、法律、医学和伦理学等 57 个科目的组合来测试世界知识和解决问题的能力,而GPT4得分率为86.4%。
周鸿祎表示,谷歌的商业模式靠搜索和广告,做大模型等于左手打右手,所以没有全力做,这才给了OpenAI表现的机会。现在谷歌想明白了,与其被人打死不如主动转变。从长期看谷歌赶上GPT-4绰绰有余,毕竟是做搜索出身,有数据优势,有大量的知识积累和沉淀。搜索和大模型融合,能让大模型变得更实时、知识更全面更准确,搜索本身也会变得更智能。
Gemini将带来什么影响?
Gemini的横空出世打破了OpenAI在大模型领域绝对领先的地位,我们发现多模态大模型的算力需求远高于纯文本模态。以Gemini为例,其强大的多模态能力背后,是庞大的算力需求。大模型的良性竞争也将进一步推动各类AI应用落地,并带来更大算力需求,算力基础设施长期景气度将持续。