Gemini：超越人类专家的大模型来了

　　12月6日，谷歌宣布推出其最强人工智能模型Gemini(/dʒɛmɪnaɪ)，诞生快一年的GPT4终于迎来了第一个挑战。

　　还没看过演示的，建议搜搜人类和Gemini互动的演示视频。演示中，Gemini带摄像头，可以输出文字、图像和声音。

　　概要说下Gemini的三大关键特性。

　　原生多模态

　　原生多模态就是大模型一开始训练的时候就同时支持文本、语音、图像、视频等不同类型的输入。与之相对应的就是单模态，比如只支持文字输入输出。

　　更直白的说，Gemini是一个更像人类的大模型，像是有人眼和耳朵一样，可以理解图像和声音。要特别注意，它对于声音的理解是原生的。就是说Gemini可以听得懂原生声音，而不是把声音翻译成文字去理解。所以，它可以理解你声音的语调甚至情绪。而对于视频的理解也是GPT4都不具备的能力。

　　重磅来了，Gemini是第一个在大规模多任务语言理解上超越人类专家的大模型。虽然只超越了一点点，但是仍然是首个。

　　多种规格

　　Gemini将包括三种不同的套件：Gemini Ultra，Gemini Pro和Gemini Nano，性能依次递减。

　　Gemini Ultra：最大、最有能力处理高度复杂任务的型号，略胜对标的GPT-4，但目前并未对外推出。

　　Gemini Pro：在各种任务中扩展的最佳模型，大幅领先对标的GPT-3.5，Bard 已经部署使用，12 月 13 日起开发者可以访问 API。

　　Gemini Nano：高效的设备端任务模型，用于在手机端侧运行。

　　超越GPT4

　　Gemini是不是比GPT4更强呢?这可能是大家最关心的点。先说我的判断，半斤八两，不同领域各有所长。

　　来看下比较受认可的测评，在大部分领域里面，Gemint Ultra表现略优于GPT-4。这个模型使用了数学、物理、历史、法律、医学、伦理等57个学科的组合。

　　英文看不了就看这个中文的。

　　Gemini Ultra略优于GPT4，尤其在编程方面，大幅优于GPT4。Google不愧是传统老牌码农圣地。Gemini ultra 是全网最强码农。Gemini Pro则大幅超越GPT3.5。

　　Gemini现在还无法体验。

　　如果你连GPT4或者GPT3.5都还没有体验过，那真的有点落后时代了。赶紧上“无涯助理” wx晓城序体验一下吧。

　　几点感悟

　　Gemini和GPT谁更强，还会有持续的争论。上面的视频确实有修饰成分。但是无可争议的是，除了OpenAI之外，终于有一家公司研发出来可以和GPT4并驾齐驱的大模型。说明，大模型是一条可见有多路径实现成功的方向。

　　原生多模态天生就优于单模态，从方案来说，Gemini就超过了GPT。原生多模态应该会是大厂重点发力的方向。

　　谷歌的Gemini是基于google自研的TPU训练的，也就是说谷歌是在没有英伟达的帮助下完成的大模型。这才叫大厂呀，芯片都自己开发的。国内的大厂，差距真的有点远呀。只有华为有一战之力。

　　大模型仍然在飞速前进，很多创业公司的投入注定是收不回成本的。蛋糕的大部分大概率仍然是几个寡头的。

　　大模型已经火爆一年多，总是说要颠覆现在的各大行业，但是总是让人感觉差那么点，有希望但是感受还不明显。但是Gemini让我更加确认，大模型还差一个奇点时刻，一旦突破就会横扫。而且这个奇点越来越近的。就像Gemini更像人了，我们离通用人工智能又近了一步。