0°

大模型 (图片)评测:谷歌Gemini,阿里通义千问,百度文心一言

  谷歌23年12月发布原生多模态大语言模型Gemini。Gemini使用了谷歌庞大的图像、文本和代码数据集进行训练,能够处理多种模态的信息,包括文字、图像、视频和代码。

  2023年12月10日,我以普通用户视角对谷歌Gemini、阿里通义千问、百度文心一言进行了简单图片识别测试。测试图片是一张天津之眼的照片。测试结果如下:

  文心一言结果

大模型 (图片)评测:谷歌Gemini,阿里通义千问,百度文心一言

  从测试结果来看,Gemini的表现最为出色,符合人类判断逻辑,识别正确,还提供了额外信息。通义千问的表现尚可,识别正确,但不符合人类逻辑。文心一言的表现最差,识别错误,没有提供任何有用信息。

  具体来说,Gemini的识别结果符合人类的常识,即天津之眼是一座大型的摩天轮,位于天津市滨海新区。通义千问的识别结果虽然正确,但不符合人类的常识,即天津之眼位于天津市红桥区。文心一言的识别结果完全错误,认为天津之眼是一种大型游乐设施。

  总体而言,Gemini的图片识别能力最强,通义千问次之,文心一言最弱。在简单图片识别任务中,大型语言模型的表现与其训练数据的质量密切相关。Gemini使用了谷歌庞大的图像数据集进行训练,因此能够识别出复杂的图像特征,并提供更准确、更有信息量的结果。

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
0 条回复 A 作者 M 管理员
    所有的伟大,都源于一个勇敢的开始!
欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论