0°

谷歌Gemini免费开放了!长音频理解功能独一份,100万上下文敞开用

  谷歌最强大模型Gemini 1.5 Pro今天起,“全面”对外开放。

  目前完全免费,开发者可以通过API调用的方式使用,普通玩家也可以在谷歌AI Studio中直接体验。

  (Ps. 发布这则消息的谷歌工程师Logan Kilpatrick正是原来OpenAI开发者关系的负责人,刚刚跳槽到谷歌。)

  最让人期待的是,Gemini 1.5 Pro API首次增加了音频理解功能。

  无论是财报电话会、电视节目还是大神演讲,不需要我们再提供字幕文档它就可以直接解读了。

  如下图所示:

  上传Jeff Dean长约117000+token的演讲录音,Gemini 1.5 Pro在30.8s内就完成了解析。

  而由于Gemini 1.5 Pro100万的上下文窗口这次也直接对外开放,因此它可以处理的最长音频约为11小时,最长视频则为1小时,相当够用。

  我们也赶紧实测了一把,结果是真香。

  Gemini 1.5 Pro开放API了

  谷歌官方给这次免费开放的Gemini 1.5 Pro版本定义为“公开预览版”。

  它主要面向开发者,可在谷歌AI Studio中获得API密钥:

  目前最引人注目的音频理解功能还没添加到API中,但据说很快就会补上。

  问题不大,我们可以先在Google AI Studio中直接体验:

  在实测中,我们上传了比尔盖茨1995年做客Late Show节目的一段音频,时长1分钟。

  我们没有提示这段音频的任何背景信息,Gemini 1.5 Pro直接就听出来了是谁。

  并在10s左右精准整理出了全对话的精华部分,一点“正确的废话”都没有:

  表现令人折服。

  接下来,来个更具挑战的,Andrej Karpathy1小时长的大模型科普教程。

  我们提取音频文件,足足10万多个token(这种在UI里直接显示当前消耗token数量的方法也广受好评)。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论