12月6日当地时间,谷歌近宣布推出一款名为Gemini的大型语言模型。据谷歌称,Gemini是迄今为止规模最大、功能最强大的AI模型,共有三种不同版本(Ultra、Pro、Nano),可以适用于不同的场景。Gemini在32项广泛使用的大语言模型基准测试中有30项领先于GPT-4,而在大规模多任务语言理解(MMLU)测试中,Gemini Ultra以90.0%的高分首次超过了人类专家。Gemini计划的一部分是在设计之初考虑了多模态,因此它在理解视频和音频、并与之交互方面具有明显优势,能够概括并无缝地理解、操作和组合不同类型的信息。
Gemini
Gemini技术报告
Gemini技术报告提供了深入的分析和评测,展现了Gemini模型的核心特点和功能。Gemini技术报告的结论非常可能,就数学逻辑等基础学科能力而言,Gemini Ultra可能并不如GPT 4。但在多模态能力方面,它应该要比GPT-4V强。谷歌发布的Gemini技术报告有60页,没有透露具体技术细节,大部分是评测,作者列表包含超过700人,接近OpenAI员工总数。
Gemini技术报告
Gemini模型结构与训练
Gemini是几种模态一起联合从头训练的,包括文本、图片、音频、视频等。这与目前通常的多模态做法不太一样。技术报告说Gemini应该是Decoder only的模型结构,针对结构和优化目标做了优化,现在支持32K上下文。从硬件描述来看,使用了前所未有的TPU集群。其训练可能分成多个阶段,最后阶段提高了领域数据的混合配比。AlphaCode2就是在Gemini pro基础上,使用编程竞赛的数据fine-tune出来的。
模型能力排名
Gemini Nano包含两个版本,分别面向低端手机和高端手机,最终转换成为一个维线性输入,让模型预测next token。根据学科能力测试数据,GPT-4略微强于Gemini Ultra。目前大模型能力很可能顺序如下:GPT 4 略微强于Gemini ultra> Claude 2> inflection-2> GPT 3.5= Grok 1 >Llama2。10.多模态能力方面,Gemini Ultra在几乎所有测试数据上要比GPT 4V强一些。11.命令理解方面:采用多模态instruct数据进行SFT+RM+RLHF三阶段。
Gemini包含3个版本
Gemini模型的多模态能力
Gemini技术报告给出了深入的分析和评测,揭示了Gemini模型的核心特点和功能。从多个角度全面展现了Gemini模型的优势和潜力,将为人工智能技术的发展带来新的思路和可能性。同时,也提出了Gemini模型在一些领域需要进一步优化和提升的地方,为未来的改进提供了宝贵的参考。Gemini模型的发布将为人工智能领域的研究和应用带来新的机遇和挑战,预示着人工智能技术的迅速发展和不断完善。