就在 谷歌发布新模型的前一日,OpenAI周一刚发布了GPT-4o,其功能与谷歌新发布的AI应用颇有重叠,似乎是有意精准狙击谷歌。
1. Gemini 1.5 Flash 模型:介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,主要面向开发者。
2. Veo:全新视频生成模型。可生成高质量的1080p视频,并且依托于Imagen 3这一最新的文本到图像框架,支持生成时长超过1分钟。
这款产品被视为对OpenAI三个月前推出的文本转视频工具Sora的直接挑战。
3. 全新Gemma 2:一系列轻量级、最先进的开放式模型,依然采用与创建 Gemini 模型相同的研究和技术构建,支持270亿参数,可以在英伟达的 GPU 上运行,也可以在 Vertex AI 中的单个 TPU 主机上高效运行。
据悉,PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。而且,谷歌还使用 LLM Comparator 升级了 Responsible Generative AI Toolkit,用于评估模型响应的质量。
Gemma目前在市场中的主要竞争对手包括Meta的Llama和Mistral的开源模型。
4. 改进版Gemini 1.5 Pro:具有100万令牌上下文能力的 Gemini 1.5 Pro 也可供 Gemini Advanced 的消费者直接使用,包含 35 种语言。
5. AI助手ProjectAstra:实时、多模式的人工智能助手,通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互。类似于一款取景器应用程序,目前仍处于原型阶段,但谷歌表示计划在今年晚些时候正式推出。
6. 安卓系统深度融入Gemini大模型:包括最新的设备端模型Gemini Nano 多模态模型,它可以处理文本、图像、音频和语音,在保证存储在设备上的信息私密性的同时解锁新的体验。
7. AI Overviews:采用了先进的AI技术,使用户能够通过提问、聊天的方式进行搜索。名为Ask Photos的功能将于今年夏天推出。