谷歌23年12月发布原生多模态大语言模型Gemini。Gemini使用了谷歌庞大的图像、文本和代码数据集进行训练,能够处理多种模态的信息,包括文字、图像、视频和代码。
2023年12月10日,我以普通用户视角对谷歌Gemini、阿里通义千问、百度文心一言进行了简单图片识别测试。测试图片是一张天津之眼的照片。测试结果如下:
文心一言结果
从测试结果来看,Gemini的表现最为出色,符合人类判断逻辑,识别正确,还提供了额外信息。通义千问的表现尚可,识别正确,但不符合人类逻辑。文心一言的表现最差,识别错误,没有提供任何有用信息。
具体来说,Gemini的识别结果符合人类的常识,即天津之眼是一座大型的摩天轮,位于天津市滨海新区。通义千问的识别结果虽然正确,但不符合人类的常识,即天津之眼位于天津市红桥区。文心一言的识别结果完全错误,认为天津之眼是一种大型游乐设施。
总体而言,Gemini的图片识别能力最强,通义千问次之,文心一言最弱。在简单图片识别任务中,大型语言模型的表现与其训练数据的质量密切相关。Gemini使用了谷歌庞大的图像数据集进行训练,因此能够识别出复杂的图像特征,并提供更准确、更有信息量的结果。