近日,谷歌向公众和媒体推出了它声称是迄今为止最大、最强大的AI模型Gemini,并展示了一段六分钟的演示视频。这段视频显示了用户与Gemini驱动的聊天机器人的互动,以及Gemini识别并区分视觉图片和物理对象的能力。其中一些功能令人印象深刻,例如Gemini可以用声音描述一幅鸭子的画,并可以区分画上的鸭子和真实的橡皮鸭。
然而,尽管谷歌在视频描述中简短地提到“为了演示目的,减少了延迟,并缩短了Gemini的输出”,但在视频本身中并未明确声明这一点。有媒体从谷歌那里确认,这个演示并非实时进行,而是使用了静态图像和文本提示,由Gemini作出回应。媒体评论说这与谷歌所暗示的“一个人可以与Gemini进行流畅的语音对话,同时Gemini实时观察并响应周围世界”的说法有很大的出入。
谷歌周五发表声明称:“该视频是与Gemini互动可能性的示意性描述,基于测试中真实的多模态提示和输出。我们期待看到人们在12月13日开放Gemini Pro访问时创造什么。”
虽然技术产品的演示通常都会事先编辑,但谷歌这次推出的Gemini后被发现的情况,让人觉得似曾相识。就在今年早些时候,谷歌展示它的人工智能聊天机器人时,不仅被大众和媒体批评了,连它自己的员工都说这次展示做得很仓促,效果很失败。而且,这件事还正巧发生在微软计划展示它和ChatGPT合作的Bing搜索引擎的那个星期。
目前,谷歌正在与微软支持的OpenAI的GPT-4展开激烈的竞争。GPT-4一直是迄今为止最先进、最成功的模型。本周,谷歌发布了一份白皮书,声称其最强大的Gemini模型“Ultra”在几个基准测试中超过了GPT-4,尽管优势不大。
谷歌推出Gemini及其相关演示视频的做法引发了广泛的讨论和关注。从这一事件中,我们可以看出几个关键点。
首先,技术演示的真实性和透明度至关重要;其次,市场竞争压力可能会促使公司采取更积极的市场策略;再者,管理公众对新技术的期望是一个重要的挑战;最后,公众和专业人士的反应对于公司来说是宝贵的反馈。希望谷歌能从这次经验中吸取教训,在未来的技术演示和发布中更加注重透明度和真实性。