谷歌在12月6日正式发布备受期待的Gemini大语言模型,这一发布让人瞩目,被谷歌首席执行官皮查伊誉为目前为止谷歌能力最强的通用人工智能模型。Gemini被定位为原生多模态打造的下一代大模型,被寄予厚望的同时,也带来了许多令人惊叹的特性。

Gemini的发布版本包括Ultra、Pro和Nano,分别针对不同需求,其中Ultra版本被誉为能力最强、复杂度最高的,可处理各种困难任务,而Pro则适用于多任务处理,Nano更专注于端侧处理能力。这样的多样性使Gemini在不同场景中展现出极大的灵活性。

与传统的大语言模型不同,Gemini的多模态模型推理能力是其独特之处。在教育领域,Gemini能够通过推理能力深度思考问题,相较于单纯第一印象的回答,Gemini的表现有显著提升。这种全新的思维方式为Gemini在各个领域展示出前所未有的潜力打下了基础。

Gemini在模型架构方面仍采用了Transformer架构,但在效率上进行了提升,支持32k的上下文长度。虽然Ultra和Pro的具体参数规模尚未公开,但有传言称Ultra的规模达到了万亿级别,训练所用算力更是超过了GPT-4的5倍以上。这使Gemini在性能和规模上都有了明显的优势。

谷歌特意与GPT-4进行了多方面能力对比,结果显示Gemini在文本处理、推理、数学、代码等方面的得分均超过GPT-4。在多模态方面,Gemini更是全面超越了GPT-4,包括图像、视频、音频等各个方面。

不仅如此,Gemini的发布还引起了业界的高度关注,被认为是对抗GPT-4的一次重要动作。Gemini的成功推出使得OpenAI在人工智能领域的领先地位受到了挑战,谷歌对Gemini进行的直接对比也显示了双方竞争愈发白热化。Gemini的问世,将为大型语言模型领域带来新的思考和探索,预示着这一领域的竞争正进入一个新的篇章。