谷歌2024开发者大会：全面进入Gemini时代、对标Sora、硬刚GPT-4o

　　就在谷歌发布新模型的前一日，OpenAI周一刚发布了GPT-4o，其功能与谷歌新发布的AI应用颇有重叠，似乎是有意精准狙击谷歌。

　　1. Gemini 1.5 Flash 模型：介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间，主要面向开发者。

　　2. Veo：全新视频生成模型。可生成高质量的1080p视频，并且依托于Imagen 3这一最新的文本到图像框架，支持生成时长超过1分钟。

　　这款产品被视为对OpenAI三个月前推出的文本转视频工具Sora的直接挑战。

　　3. 全新Gemma 2：一系列轻量级、最先进的开放式模型，依然采用与创建 Gemini 模型相同的研究和技术构建，支持270亿参数，可以在英伟达的 GPU 上运行，也可以在 Vertex AI 中的单个 TPU 主机上高效运行。

　　据悉，PaliGemma 是谷歌受 PaLI-3 启发的第一个视觉语言模型。而且，谷歌还使用 LLM Comparator 升级了 Responsible Generative AI Toolkit，用于评估模型响应的质量。

　　Gemma目前在市场中的主要竞争对手包括Meta的Llama和Mistral的开源模型。

　　4. 改进版Gemini 1.5 Pro：具有100万令牌上下文能力的 Gemini 1.5 Pro 也可供 Gemini Advanced 的消费者直接使用，包含 35 种语言。

　　5. AI助手ProjectAstra：实时、多模式的人工智能助手，通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互。类似于一款取景器应用程序，目前仍处于原型阶段，但谷歌表示计划在今年晚些时候正式推出。

　　6. 安卓系统深度融入Gemini大模型：包括最新的设备端模型Gemini Nano 多模态模型，它可以处理文本、图像、音频和语音，在保证存储在设备上的信息私密性的同时解锁新的体验。

　　7. AI Overviews：采用了先进的AI技术，使用户能够通过提问、聊天的方式进行搜索。名为Ask Photos的功能将于今年夏天推出。