看过了昨天OpenAI虽然短但是科幻感极强的发布会,相信所有人都在期待一天后的谷歌将会给出怎样的回应。
如果说前一天OpenAI的发布会是一道精致的法餐,谷歌的I/O大会绝对算得上是一道量大管饱,诚意满满的满汉全席——谷歌端出了最新的大模型,全模态AI助手,开源视觉模型,视频生成模型,再到算力芯片等等一系列AI行业中最顶级的产品和技术前来应对。
整场发布会看下来,谷歌一洗前两年发布会结束都会给自己造成公关危机的“前耻”,通过自己深厚的技术积累,强大的工程能力和丰富的产品生态,向世人展现了一个自信且目标远大的AI大厂应该有的样子。
具体来说,谷歌是唯一一家同时拥有自己的原生支持从文字到视频的多模态大模型,触及全球几十亿用户的AI应用场景,完全自主的AI算力芯片的科技大厂。谷歌在AI领域中提前下的这些“硬功夫”,一定会在未来继续奔涌的AI大潮中结出丰硕的果实。
被OpenAI截胡的Project Astra,不够惊喜但足够惊艳
纵观整个发布会,最让人眼前一亮的发布就是这个几乎和OpenAI提前一天发布的基于GPT-4o的AI个人助理一样的Project Astra。不过可惜的是,因为OpenAI的抢跑,它成为了世界上第二个多模态AI助手。
官方视频截图
我们先来看看谷歌放出的Project Astra演示效果。注意,DeepMind Hassabis专门介绍,这个视频是在真实环境中一次拍摄完成的效果。
可以看到,Project Astra也能实时的感知外部环境,并根据用户提出的问题进行非常智能的反馈。视频中,它向用户提供了包括代码编写,生活常识建议,周围环境的理解和识别,甚至能记住之前看到过的物品摆放位置。
可以说,相比OpenAI强调的自然人机交互,Project Astra的宣传视频看起来真的更智能,更加科幻。如果说OpenAI的GPT-4o是把电影《Her》中的Samantha搬进了现实,那么Project Astra真的有钢铁侠Javis那味了。
根据DeepMind CEO Hassabis的说法,Project Astra可以理解空间,处理视频输入,并且能够记忆之前处理过的内容。
官方视频截图
基于Gemini强大的原生多模态能力和超长的上下文,对于视频的理解和记忆确实让人看到了科幻电影中那种无所不能的智能助手的影子了。
不过稍显可惜的是,Project Astra依然还只是一个原型,实际的产品可能短期之内还难以上线,但是详细在技术层面厚积薄发,在产品层面又能集中力量办大事的谷歌,希望未来不会让用户们失望。
Gemini时代到来,10倍上下文10倍能效碾压OpenAI?
官方视频截图
作为谷歌AI的拳头产品,Gemini从去年底发布之后,其长达100万token的上下文长度已经吸引了全世界超过100万开发者用户。
官方视频截图
用户凭借它超强的上下文能力,可以将大量的文档和数据一次性处理,让Geimini输出复杂的结果。
而且因为Gemini原生的多模态能力,它能除了使用文字之外,在输出中还可以包括图片等多模态的结果和代码。
官方视频截图
从5月15日起,Gemini 1.5 Pro的100万token上下文能力通过谷歌的Gemini Advanced服务向全球的普通用户开放。
而未来,Gemini 1.5 Pro将陆续开放200万token的上下文能力。
而作为像谷歌这样产品众多的大公司,Gemini的除了直接服务用户,它与现有的谷歌应用结合在一起,将会迸发出更大的能量。
Gemini Flash——轻量版的Gemini Pro,价格直接打骨折
谷歌针对Gemini依然还在不断做出优化,此次推出的Gemini Flash可以看做是类似GPT-4向GPT-4Turbo的升级。
官方视频截图
而在支持的功能上,Gemini 1.5 Flash也和Gemini 1.5 Pro一样,是一个原生多模态的大模型,而且也支持100万token的上下文。
相比与Gemini Pro, Gemini Flash有着更高的推理性能和低得多的价格,但是性能几乎没有太大的下降。