“ Google的多模态AI新星Gemini来袭!12月6日,Google隆重开场,正式发布3款多模态大模型,并向业界宣告:我能全能,超越GPT!如今第一个超越人类的智能模型已经面世,这对AI产业无疑是重磅级的里程碑事件!那究竟这位“机器集万千长处于一身”的Gemini有何惊人之处呢?”
Gemini家族架构一览
Gemini包含三个版本:Ultra、Pro和Nano,分别应用于不同的使用场景。三者如下:
(一)Gemini Ultra
性能堪比GPT-4,可以应对非常复杂的多模态交互任务。Google计划2024年推出能充分利用Ultra性能的Bard搜索服务。堪称多模态界的“至强者”!
(二)Gemini Pro
性能约当GPT-3.5。支持文字,图像,语音的输入解析。可以在现阶段的Bard中使用,是首批落地应用的主力。相当于多模态AI的“实用派”。
(三)Gemini Nano
面向移动端应用的轻量级模型,主打语音交互功能。能进行简单对话,并根据语境生成回复。堪称最强大脑的“手机版”!
“多面手”模型,目前最强
Gemini在业界通用的多项AI能力测试中表现脱颖而出,多项指标成功击败目前最强大脑GPT-4。可以说完全“碾压式的战胜”!
重点来看Gemini在大规模语言理解评测MMLU上的突出表现,其评测分已直逼满分,达到了90分! 远超GPT-4的86.4分。在语言和多领域任务上都游刃有余,完胜人类专家级水平。
Gemini 的推理能力更是人脑的数倍,32项学术测试中27项稳居榜首。无论从理论上还是实践角度,都将极大推进AI技术的发展。
AI界的“全能战士”
Gemini最大的优势在于多模态处理能力。无论输入图像、文本、音频或视频,都能进行解析、理解、联想和创造,展现几乎“无所不能”的可能。
我们可以与Gemini进行绘画游戏互动、语音指令控制;Gemini也能自动处理海量数据,解析论文内容,甚至自动编写程序,成为充当数学老师和编程帮手的最佳人选。
Gemini的效率更是超乎想象,不到一秒就能整理好海量信息。比如从数十万篇论文中挑选数据、在海量代码中自动修改错误。可以说是第一个真正意义上的“通用AI”。