谷歌发布大模型“Gemini 1.0”,市场ChatGPT等AI概念走强
12月7日,谷歌发布多模态的预训练大模型“Gemini 1.0”,并配备三个不同尺寸的版本“Gemini Nano”、“Gemini Pro”和“Gemini Ultra”,分别对应端侧设备、聊天机器人Bard和更加复杂的任务。
据谷歌称,Gemini 1.0是谷歌规模最大、能力最强的AI模型,其中端侧、Bard上已经上线该模型。明年初将推出Bard的进阶版本“Bard Advanced”,该产品将使用 Gemini Ultra。
“过去8年,谷歌都将AI作为优先战略,现在我们正在与Gemini一起迈出下一步。”谷歌及其母公司Alphabet(NASDAQ:GOOGL)CEO桑达尔·皮查伊(Sundar Pichai)在谷歌声明中称。
谷歌将Gemini对标OpenAI今年3月发布的GPT-4模型。在官方博客中,谷歌选取了尚未上线的最强版本“Gemini Ultra”与GPT-4进行对比,“Gemini Ultra”在综合能力、推理能力、数学能力、代码能力、图像理解的榜单中几乎全面超过GPT-4,不过双方分数差距仅为个位数,并不显著。
谷歌称,Gemini Ultra在32个基准测试中的30个中取得了“最先进”的结果,其中,在12个流行文本和推理基准测试中,10个达最先进,全部9个图像理解基准测试、全部6个视频理解基准测试以及5个语音识别和语音翻译基准测试达最先进。谷歌还称,Gemini Ultra是第一个在MMLU上实现了“人类专家性能”的模型。MMLU是一套著名基准,包含一系列考试测试知识和推理。
除了文本,Gemini Ultra在挑战多模态推理任务方面取得了显著进展。例如,对于需要大学水平知识和深思熟虑推理的多学科任务中的图像问题,Gemini Ultra达到了62.4%的新最高分,与之相较,GPT-4的得分为56.8%。
在演示视频中,谷歌展示了Gemini Ultra对手写图文的理解。面对一道学生手写的物理题的回答,Gemini能够正确识别所有手写内容并验证推理,指出学生的答案中的错误。它还可以理解问题设置,并给出正确答案。
此外,Gemini Ultra还能识别自然图像、图表、截图、pdf和视频等不同格式的文件,输出文本和图像。而已上线Bard的版本“Gemini Pro”距离GPT-4还有一定差距。
谷歌发布的技术论文显示,5样本(5-shot)的MMLU测试中,GPT-4得分为86.4%,而“Gemini Pro”得分仅为71.8%,这一成绩与2022年11月初代ChatGPT使用的GPT-3.5模型的得分(70%)相当,甚至落后于此前发布的PaLM 2-L(78.4%)。
而多模态Gemini模型的正式发布,一方面可以拓宽应用场景,另一方面能带来算力需求的持续升级。
与此同时,市场上ChatGPT等AI概念走强,拓尔思、开普云、信雅达等股价大涨。近期有关人工智能的信息较多,除谷歌推出多模态大模型Gemini外,海外AI+应用落地案例越来越多,国内大模型也在加速落地。随着AI大模型进一步迭代升级,需要更多算力来支持,市场对算力的需求也比较强劲。