谷歌发布双子座Gemini 1.5 pro 模型技术报告及更新 :在数百万个语境标记中实现多模态理解 。报告中介绍了 Gemini 系列的最新型号–Gemini 1.5 Pro,它是一种计算效率极高的多模态专家混合模型
Gemini 1.5 Pro 可从数以百万计的上下文标记(包括多个长文档和数小时的视频和音频)中调用细粒度信息并进行推理。Gemini 1.5 Pro 在跨模态的长语境检索任务中实现了近乎完美的召回率,提高了对信息的分析和推理能力
在长文档质量保证、长视频质量保证和ASR (长时间跨度的自动语音识别)方面,Gemini 1.5 Pro 是最先进的,在一系列广泛的基准测试中,其性能达到或超过了 Gemini 1.0 Ultra 的顶尖水平
在研究 Gemini 1.5 Pro 长文本能力的极限时,发现模型在以下方面不断改进
下一标记词预测和近乎完美的检索(准确率高达>99%),可达到至少 1,000 万个标记词,与现有模型(如 Claude 2.1 (200k) 和 GPT-4 Turbo (128k))相比,这是一个跨时代的飞跃。
报告特别指出了大型语言模型在技术前沿领域展现出的令人惊讶的新能力:当模型接触到一本 Kalamang 语法手册(Kalamang 是一种全球使用人数不足 200 人的小众语言)时,它能学会将英语翻译成 Kalamang,其翻译水平与学习相同内容的人类相媲美