为了能够让Gemini更加吸引人,虽然谷歌发布的demo受到各种造假和过分夸大的质疑,但是仍然受到部分国内大模型研究人员的关注。
Gemini最大的特点,是能够让大模型通过视觉和声音去理解世界。虽然在演示视频中,Gemini需要谷歌员工提供的提示词才能够生成回复,但这也是其原生多模态特性的体现。与目前市面上所使用的‘拼接’多模态大模型相比,Gemini的原生多模态被多数业界人士认为是未来的发展方向。
谷歌选择原生多模态作为大模型的发展方向,并非偶然。这与谷歌本身的业务有着密切的关系。谷歌通过谷歌搜索业务,可以获取大量的文字和其他模态对齐的数据,使谷歌在训练原生多模态大模型时,占有得天独厚的优势。
一些有幸提前体验Gemini Pro的研究人员发现,Gemini Pro在以图搜物和精准搜图方面的能力吊打了GPT-4v,让人惊艳。虽然在一些性能上Gemini 跟GPT还有一些差距,但是Gemini 成为可以比肩GPT的对手,已成为不争的事实。
Gemini的出现,无疑也在国内大模型研究领域掀起了波澜。虽然可能不会改变国内企业的大模型研发思路,但是却给他们带来了紧迫感,可能会迫使他们加快研发速度。同时,出于安全以及美国限制等原因,国内有实力和资源的企业也可能会在原生多模态大模型投入更多的资源。