谷歌Gemini免费开放了！长音频理解功能独一份,100万上下文敞开用

　　谷歌最强大模型Gemini 1.5 Pro今天起，“全面”对外开放。

　　目前完全免费，开发者可以通过API调用的方式使用，普通玩家也可以在谷歌AI Studio中直接体验。

　　(Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人，刚刚跳槽到谷歌。)

　　最让人期待的是，Gemini 1.5 Pro API首次增加了音频理解功能。

　　无论是财报电话会、电视节目还是大神演讲，不需要我们再提供字幕文档它就可以直接解读了。

　　如下图所示：

　　上传Jeff Dean长约117000+token的演讲录音，Gemini 1.5 Pro在30.8s内就完成了解析。

　　而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放，因此它可以处理的最长音频约为11小时，最长视频则为1小时，相当够用。

　　我们也赶紧实测了一把，结果是真香。

　　Gemini 1.5 Pro开放API了

　　谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。

　　它主要面向开发者，可在谷歌AI Studio中获得API密钥：

　　目前最引人注目的音频理解功能还没添加到API中，但据说很快就会补上。

　　问题不大，我们可以先在Google AI Studio中直接体验：

　　在实测中，我们上传了比尔盖茨1995年做客Late Show节目的一段音频，时长1分钟。

　　我们没有提示这段音频的任何背景信息，Gemini 1.5 Pro直接就听出来了是谁。

　　并在10s左右精准整理出了全对话的精华部分，一点“正确的废话”都没有：

　　表现令人折服。

　　接下来，来个更具挑战的，Andrej Karpathy1小时长的大模型科普教程。

　　我们提取音频文件，足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。