谷歌新的大模型Gemini有何不同?遥遥领先?
谷歌新的大模型Gemini和ChatGPT有什么不一样?真的像很多自媒体说的”遥遥领先”吗?本期视频就为大家做个解读。
由于Gemini也是封闭模型,从他的技术报告能找到的相关介绍基本可以概括在这一张图里。和GPT一样的是都使用Transtormer作为基础模型,不一样的是GPT-4V使用语言模型、图像模型、语音模型,分别处理这几种模态,然后再把它们整合在一起提供多模态能力。
而Gemini毕竟是原生面向多模态的,它使用一个统一的模型来提供各种模态相关能力。文本、语音、音频、视频是在统一做了token化之后输入给Transformer的,算是一种真正的多模态模型。
模型性能方面,谷歌在发布Gemini时重点宣传的是MMLU基准的测试结果,不仅超越了当前最好的模型,也就是GPT-4,甚至还超越了人类水平。这个结果到底该怎么看?
先看看MMLUrage,这是一个包括理工、人文、
·第五个是学科等领域57个学科任务的测试基准,用来评估AI的知识掌握和问题解决能力,是当前非常主流的评测基准。拿它来说确实没什么问题,但是这里与人类的对比结果89.8%和90.0%0.2%的差距,在评测过程稍微有点误差就不止这个数,所以这个差距至少是不值得大书特书的。
·第六个是与GPT-4的对比,这里有个小提示,请注意之前的SOTA模型使用不同的提示技术。原来Gemini的测试结果是基于CoT@32,而之前GPT-4的结果是基于5-shot。CoT@32的意思是在询问模型的时候使用思维链提示做32次尝试,然后综合给出最优结果。
Gemini is the first model to MMLU(Massive Multitask),而5-shot是在提示词里加上5个示例来优化回答。这完全是两种不同的提示方法,结果本身就会有差异,直接拿来对比其实是不合适的。
我们在技术报告里深挖一下,找到了这个测试的第一手数据,原来90%这个结果不仅采用了思维链提示,还合并使用了谷歌自己开发的不确定性路由。这个策略是它把测试结果从单用思维链提示的84.99%提升到了90.04%。如果不用这个策略,不管有没有思维链提示,GPT-4的结果都比Gemini要好。
所以在这张图里,谷歌为了”遥遥领先”还真的费尽心机。其实大模型的评测基准有很多,谷歌自己也公布了与GPT-4V在多个基准上直接PK的结果。这是文本方面的对比结果,这是多模态方面的对比结果。Gemini在大多数测试里都是优于GPT-4V的,虽然领先优势没有那么大,但完全没必要去过度粉饰。
还有一个值得注意的点是,谷歌把Gemini分成了中杯、大杯、超大杯。在所有这些测试里,超越GPT-4V的都是超大杯Gemini Ultra,中杯和大杯都比不上GPT-4V,而Gemini Ultra要到明年才能用上。所以谷歌暂时的领先其实是打时间差带来的。到了明年,GPT5很有可能会发布,到时孰强孰弱还有的一比。
最后总结一下,Gemini对比GPT还谈不上遥遥领先,只能算追赶上了GPT的脚步,达到与GPT相当的水平。当然能做到这点也很不容易,迄今为止发布的所有大模型,开源的闭源的都算上,能追上GPT的谷歌还是第一个。