财联社12月7日讯,近日美国科技巨头谷歌宣布推出其认为规模最大、功能最强大的AI智能模型Gemini。
此次谷歌发布的Gemini模型可实现多模态,性能大幅提升,Gemini是基于Transformer decoder构建的多模态模型,这种技术能够处理视频、音频和文本等不同内容形式的信息。最新的Gemini模型对比之前的技术,能够进行更复杂的推理,理解更加细微的信息。它通过阅读、过滤和理解信息,可以从数十万份文件中提取要点,将有助于在从科学到金融的许多领域实现新的突破。
Gemini模型根据体量大小可分为Gemini Ultra、Gemini Pro、以及Gemini Nano三个版本,都支持上下文32K理解,其中:
1)Ultra版本是性能最强的版本,在对应的TPU基础设施中能够展现出最高效率,在多项测试中Ultra版本性能超过GPT4V;
2)Pro版本是性价比优化的版本,在推理、多模态等方面也有较强能力,Pro版本具有良好延展性,可以在几周内完成预训练,在多项测试中仅次于GPT4V,强于PaLM2、Claude2、LLaMA2、GPT3.5等主流大模型;
3)Nano:是通过对其他模型蒸馏得来的4位模型,有1.8B和3.25B两个版本,分别针对低内存和高内存设备,支持在本地部署
Gemini模型作为谷歌以及全球范围内最先发布的多模态模型,支持在云端以及边缘测运行。相关测试数据表面,Gemini Ultra 在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,横向对比来看多个任务性能超过GPT-4。
民生证券表示:通过在超过50个基准测试中对Gemini模型系列进行评估,随着模型规模的增加,Gemini模型家族在推理、数学/科学、摘要和长文本方面持续提高了质量。在所有六种能力中,Gemini Ultra是最优秀的模型。而Gemini Pro作为Gemini模型家族中第二大的模型,在性能上也非常有竞争力,并且在提供服务时更加高效。
民生证券指出:Gemini训练过程也可对基础设施、算法、数据集进行创新;
基础设施方面:Gemini由谷歌TPUV5e和TPUV4训练,并在训练过程中展现出工程化创新,如将4096个TPUV4每个芯片连接到一个专用的光学交换机,可以在大约10秒内动态重新配置4x4x4芯片立方体为任意的3D环形拓扑结构的超级节点,对Gemini Ultra还有热维护等功能的针对性部署。针对Ultra版本需要的高额片间互联速率,谷歌运用了OCS光交换等多个专利技术,文中暂未给出最终速率。
算法方面:使用单控制算法、XLA编译器等技术优化训练过程,还通过预防SDC等问题实现稳定训练。
数据集方面:通过分词技术提高Gemini训练和推理速度,还通过一系列过滤方法保证用于训练的数据的高质量
此次谷歌最新版本的计算芯片TPU v5p同步发布,TPU v5p是之前TPU v4版本的改进,与TPU v4相比,TPU v5p的浮点运算性能提升了两倍,它训练大语言模型的速度比TPU v4快2.8倍。中信证券认为,多模态Gemini模型的正式发布,一方面可以拓宽应用场景的拓展,另一方面能够带来算力需求的持续升级。民生证券持续看好后续AI产业的前景,认为后续GPT-5等模型的发布亦将带来更多的催化。
中信证券表示:在当前的搜索场景中,Gemini能够降低大约40%的延迟。对整个产业来讲,谷歌产品化、商业化的推进亦将带来行业整体的变化,同时伴随GPT-5等模型的推出,预计将看到:1)多模态模型带来的算力需求增长以及 ;2)越来越多的AI场景与产品的出现。
Gemini的发布将进一步带来对多模态模型的更多期待,对产业而言,多模态料将带动算力需求的提升;而在中长期来看,预计多模态模型的升级将丰富相关产品的使用场景,叠加硬件升级、算法优化带来的成本优化,2C产品的进展值得期待。