12月6日,谷歌发布了最新的人工智能大模型Gemini。谷歌首席执行官将其描述为“人工智能模型的一次巨大飞跃”,并表示这一创新将“最终影响谷歌的几乎所有产品”。
Gemini是谷歌在人工智能领域的一次重要突破,它拥有复杂多模态推理能力、编码能力、识别交互能力和解决问题的能力。
Gemini的复杂多模态推理能力使其能够理解和处理多种类型的数据,包括文本、图像、音频和视频等。这种强大的处理能力使Gemini能够在各种场景下都能够发挥出出色的性能,无论是在搜索引擎中提供更准确的搜索结果,还是在语音助手中提供更自然的交互体验。
它特别擅长解释数学和物理等复杂学科的推理。据悉,Gemini 能够独立批改物理作业,在正确“读懂”题目、识别凌乱手写笔迹的同时,指出学生在解题过程中的错误,并给出正确答题步骤。通过图像和语音输入,Gemini可以指导做菜,并在不同阶段提出相应的建议。
Gemini的编码能力也很强,Gemini可以理解、解释和生成世界上最流行的编程语言(如Python、Java、C++和Go)的高质量代码。同时,Gemini还可以用作更高级编码系统的引擎。
Gemini的识别交互是“多感官”模型,使其能够理解和响应用户的多模态数据,无缝连接文字、音频、图片、视频等,从而提供更加人性化的交互体验。这种能力使得Gemini在与用户的交互中能够更好地理解用户的需求,从而提供更加个性化的服务。
Gemini的问题解决能力使其能够有效地解决各种复杂的问题。据谷歌介绍,从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上领先GPT4,而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,成为第一个超过人类专家的模型。
Gemini的出现将会引领人工智能进入一个全新的篇章。这意味着,Gemini可以真正用人类的方式理解周围的世界。人类离通用人工智能更近了一步。