0°

Gemini 开启大模型路线之争,新战场将“数流成河”

  谷歌上演了一出“ 那些没有杀死我的,将使我更强大”。

  互联网高速发展了几十年, 但全世界超过10亿用户的业务或者应用一共没超过20个, 而谷歌拥有6个。在绝大很多网民心目中,Google是人类历史上最伟大的公司,没有之一,而且在人工智能方面的先发优势不可撼动。

  这一信念嘎然而止在2022年11 月 20 号 ChatGPT发布的历史性时刻,众人纷纷倒向新观点“像ChatGPT这样的人工智能聊天机器人将像搜索引擎杀死黄页一样摧毁谷歌”(Gmail的创始人Paul Buchheit语)。谷歌Bard发布当天,市值下跌千亿美金,似乎正好印证了这个论断。

  但Gemini的发布惊艳世人,改变了大模型领域ChatGPT独领风骚的局面。

  Gemini 不仅在很多性能上超过了ChatGPT 4,它同时带来了另一种可能性:具有原生数据优势的互联网巨头,可能在多模态大模型竞争中占据优势。这意味着,谷歌、马斯克、Meta以及中国的腾讯、抖音、阿里、百度等公司都有可能在Gemini 开创的路线上加速迭代大模型。

  大模型战局,进入第二阶段。第一阶段只用一年时间,就搅翻了整个全球互联网和人工智能,在摩尔定律的加持下,第二个阶段,又将是怎样突破人类的想象力?

  史诗级的一年

  从2022年11 月 20 号 ChatGPT发布之后这一年,几乎日日充斥“奇点时刻”的惊爆与 “AI下半场”的狂欢,GPTs 和GPT4 Turbo 也意料之外情理之中地发布了。还有一系列 Sam Altman作为CEO 被OpenAI董事会开除、又王者归来的桥段出现,吃瓜群众应接不暇。

  然而即便是在这样的乱世里,由Google + DeepMind用尽洪荒之力推出的 AGI 里程碑“双子星 Gemini”发布仍然可以算是核弹级的。为什么?不妨让从资本市场这个最敏感的仪表盘看看大模型的史诗级影响:

  1、投资 OpenAI 百亿美金的大赢家微软市值大涨 50% 来到3万亿美元,无疑成AI最大受益者。

  2、大模型淘金热的万卡起步,让英伟达股价飙升了 245%,市值解锁 万亿后停不下来,已突破1.2万亿美元,超过Facebook母公司Meta或特斯拉,跻身所谓“七巨头”。

  3、作为登上巅峰后迄今为止在互联网搜索领域的完全统治地位的 Google,这一年天天度日如年,这一年内讨论 Google 被颠覆话题占有史以来的99%以上,如果谷歌输掉这场AI之战会怎么样?二级市场已经给出了回答。Bard发布当天的一次回答错误,就让Google母公司Alphabet市值减少了1000亿美元。

  然而就在上周 ChatGPT 一周年庆之后,Google高调发布“史上功能最强的通用人工智能大模型”,据称通过大型语言模型领域中广泛使用的32个基准测试,几乎全部(其中30 个)表现出了“最先进的性能”,不仅击败了OpenAI的GPT-4,甚至在MMLU(大规模多任务语言理解)基准测试中,成为第一个超越人类专家的模型。

  如果这是真的,意味着什么?“这巨大飞跃将影响几乎所有的Google产品。” 要知道 Google是(至少目前还是)全球最大的互联网公司、搜索引擎的绝对霸主,而搜索无处不在,仍是绝大多数人获取信息的第一方式;Google母公司Alphabet的名字也说明了它的产品布局是无孔不入的。

  2020 年GPT-3以来的标志性大模型产品

  谷歌的洪荒之力

  那么,姗姗来迟的 Google AGI,Gemini,究竟有没有力挽狂澜的底气?

  实际上,Gemini项目需溯源至 2023年4月20日,是 Google 吹响了“红色警报”之后的关键战略抉择。那天,谷歌选择将Google Brain与DeepMind合并,成立了Google DeepMind,并宣布将公司在AI领域的世界级人才、计算能力及 TPU基础设施等资源加以结合,创新研发大模型以对标OpenAI的GPT-4,可谓押上了全部赌注,殊死背水一战。

  “Gemini是Google的下一代多模态大模型”的战书已下,让外界对Gemini关注度持续升高、好奇心拉满。7月,辞职已有四年的谷歌联合创始人Sergey Brin(谢尔盖·布林)重返谷歌,其回归无疑是助阵Gemini系统,也让业界预感“Gemini将会是下半年大模型赛道的焦点。”

  Gemini特征有如下三个:

  1、原生多模态、多语言多国度、从海量云存储数据中做预训练

  在谷歌给出的长达60页的Gemini技术报告中,最值得关注的是,Gemini模型的训练数据集既多模态又多语言。其中,前期训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据等。

  “Google拿自家海量云存储的图片进行了预训练,确实把模型的多模态能力拉升了一大截。”谷歌在Gemini技术报告中写到,“当模型多模态能力被真正探索出来时,会提供更多细节。”

  实际搭载Gemini Pro的Bard与GPT-4进行的对比测试表明:通过识别不同图片中的人物、地点、文字、动物甚至其中可能蕴含的科学知识,综合对比,Gemini Pro的多模态能力确实足以抗衡GPT-4,前者的响应速度也“快很多”,另外,前者可以免费使用,但后者已经有了“3小时40次的限制”。

  2、 多尺寸、分场景,发挥Google 布局生态优势

  Gemini分Ultra、Pro和Nano三种不同尺寸和万能应用场景的设计,其中Ultra版可用于大型数据中心等,属于处理高复杂度任务的模型;Pro版则用于各种扩展任务,属于日常使用模型,且已搭载于谷歌的对话机器人Bard中;Nano版则是应用于智能手机等移动设备终端上的模型。

  Google 在多年的布局中,早就通过收购拥有了 TPU 计算集群、YouTube内容入口、Andriod 移动操作系统等无处不在的生态优势,若 Gimini 能堪与GPT-4在AGI 能力上“掰手腕”的大任,那么胜负的天平无疑将反过来倒向 守成者Google 一边

  3、人海战术

  前面提及长达60页的Gemini技术报告,最令其惊讶的是光报告的作者就多达9页,“每页90人,八百余人,超过OpenAI公司的总人数。”

  要知道,OpenAI员工总数目前不足800人,虽然在 AI 人才争夺战中 OpenAI 虹吸了不少来自各个巨头 AI 部门的大咖,当然 Google Brain 和 Deepmind也不会幸免,在其中贡献了最大比例。

  OpenAI 人才来源

  数据统计来自Leadgenious Punks & Pinstripes

  但即便如此,瘦死的骆驼比马大,Google Brain内部仍然人才济济,仍然有超过800位以上来自世界各地的顶尖科学家;DeepMind目前拥有大约1000名员工,而且高薪养人,平均每名员工工资接近47万英镑,相当于人民币400万。

  两者合并得到 Gemini,这也不难看出谷歌在Gemini模型开发与技术创新方面投入的AI人才之多。更何况 Google 毕竟是一个拥有将近 20 万员工的巨无霸,AI 巅峰之战提到最高议事日程上以后,内部优势兵力一定会向主战场汇集。

  Gemini带来的,是“路线之争”

  但这是否表明Gemini 的发布已经形势占优,甚至对GPT-4形成了“全面超越”?由于目前还无法完成全面的测评,只能为大家提供以下重要参考:

  1、Gemini在中文识别理解能力上,相较GPT-4略逊一筹,也就是说“Gemini仍无法可靠处理‘非英语’的任务。”

  2、谷歌专门针对测试相关领域进行了优化,Gemini只在既定领域中的指标表现好,并不能够说明模型真正的泛化能力强。“至于真正能力,需要在更多的数据集上进行测评。”

  演示视频被质疑夸大造假,而且是用尚未发布的 Ultra 而不是可测的 Pro版本,一时间招致很多抨击,风波不断,但旋即谷歌也甩出演示视频制作的记录文章,大方承认视频经过剪辑合成。原来,在专业提示词循循善诱的前提下才调度到的多模态推理能力,这多少有些“强力粉饰”的魔术效果和心理暗示,但多模态的基础推理能力还是确实在的。

  由此可见与ChatGPT巅峰对决的难度之大!连昔日AI 绝对王者也需要做对公众先做这样的心理诱导,等不及产品的完整实用化~

  如图:发布视频中只保留了模型输出的反馈,没有充分暴露提示

  3、原生多模态训练的范式经验证能走通,那么新的训练范式的上限极高,这条技术路线将吸引大多数拥有内容数据的平台型企业追随。Google产品线积累的海量高质量多模态数据, 是后续Gemini的快速、持续迭代的保障。

  Gemini的技术报告中也有这样一段表述,“谷歌发现数据质量对于高性能模型至关重要,并认为在寻找预训练的最佳数据集分布方面,仍有许多有趣的问题。”

  为拓展多模态模型的训练数据集,谷歌还对外表示,Bard将在超过 170 个国家和地区提供 Gemini Pro 版本服务,并计划未来扩展到不同的模态,支持更多语言和地区。

  不仅明年初将推出升级的Bard Advanced版本,在接下来的几个月里,谷歌还将陆续把Gemini应用于搜索、广告、Chrome等更多的产品和服务中。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论