北京时间5月15日凌晨,在谷歌I/O开发者大会上,谷歌CEO桑达尔·皮查伊(Sundar Pichai)发布几十款Google和AI结合产品,包括支持200万token长文本的Gemini 1.5 Pro。
据悉,全新Gemini 1.5 Pro具有原生音频理解、系统指令、JSON模式等,能够使用视频计算机视觉来分析图像(帧)和音频(语音)的视频,这使其具有人类水平的视觉感知。使用深度神经网络,Gemini 1.5可以以超人的精度识别图像(和视频帧)中的物体、场景和人物。同时,为了快速响应与成本效益,谷歌还推出更轻的模型Gemini 1.5 Flash。
同时,针对OpenAI发布的GPT-4o,谷歌也发布了对标的大模型Project Astra。此外,谷歌进一步升级开源模型Gemma 2。
过去一年,谷歌在生成式AI领域奋起直追。2023年12月,谷歌推出全球最强大、最通用的多模态通用大模型:Gemini,中文称“双子座”。在此次大会上,皮查伊透露,Gemini发布后短短3个月内就有100万+Gemini Advanced注册;20亿用户产品(user products)全部使用 Gemini;超过150万开发者使用Gemini。