0°

谷歌Gemini:被神话的多模态和被低估的隐忍

  Google最强大的大模型Gemini发布了,陆续读了技术报告和一些评测/分析,周末记录和分享一下:

  一、几点值得Mark的笔记

  Gemini Ultra的得分为90.0%,是第一个在MMLU(大规模多任务语言理解)上超过人类专家的模型,类似于高考。国内外也有类似的评测基准。

  比如

  C-Eval/CMMLU/GaoKao/LucyEval/SuperClue/OpenCompass/FlagEval等等。

  2. 此次Google对Gemini宣传突出的最大亮点——多模态。“Gemini设计成原生的多模态,从一开始就在不同的模态上进行预训练。助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模态模型——其能力在几乎每个领域都是最先进的。”

  遵循 next token prediction 的方式,Gemini 把多模态数据从头训练,包括文本、图片、音频、视频等,所有模态数据转换为 token,最后变成一维线性输入(不同的模态按照颜色顺序标记),让模型预测 next token。

  3. Google一口气发布了三个规格的模型:Ultra是最大的,对标GPT4和4V、还没有开放(12月13日开放API)。Pro对标GPT3.5,在美区Bard上可以用(我试了下我的Bard,还是之前的LaMDA)。Nano是小模型,在谷歌的Pixel 8手机上可以用。

  4. 技术报告中,Google强调了算力优势:“我们宣布迄今为止最强大、高效和可扩展的TPU系统——Cloud TPU v5p ,旨在训练尖端的人工智能模型。”

  翻译成大白话,就是:微软/OpenAI/Anthropic这些公司,利润(据说70%)都被Nvidia吃了,我的利润还是自己的。(其实微软和OpenAI也在尝试自己做芯片,只是进度慢于Google。)

  5. Gemini语音识别在主要语种上有大幅提升(Bleu值比OpenAI的Wisper 2高10个点,但在其他语种上Wisper更强。机器翻译能力在WMT2023的测试集上评测的结果,也比GPT4略高)。

  二、一个简单的评测

  没用视频,用这张图试了下一些有多模态能力的模型。方法是:上传这张图,然后问:从设计上看,图中哪个车会跑得更快?

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论