大模型 (图片)评测:谷歌Gemini，阿里通义千问，百度文心一言

　　谷歌23年12月发布原生多模态大语言模型Gemini。Gemini使用了谷歌庞大的图像、文本和代码数据集进行训练，能够处理多种模态的信息，包括文字、图像、视频和代码。

　　2023年12月10日，我以普通用户视角对谷歌Gemini、阿里通义千问、百度文心一言进行了简单图片识别测试。测试图片是一张天津之眼的照片。测试结果如下：

　　文心一言结果

　　从测试结果来看，Gemini的表现最为出色，符合人类判断逻辑，识别正确，还提供了额外信息。通义千问的表现尚可，识别正确，但不符合人类逻辑。文心一言的表现最差，识别错误，没有提供任何有用信息。

　　具体来说，Gemini的识别结果符合人类的常识，即天津之眼是一座大型的摩天轮，位于天津市滨海新区。通义千问的识别结果虽然正确，但不符合人类的常识，即天津之眼位于天津市红桥区。文心一言的识别结果完全错误，认为天津之眼是一种大型游乐设施。

　　总体而言，Gemini的图片识别能力最强，通义千问次之，文心一言最弱。在简单图片识别任务中，大型语言模型的表现与其训练数据的质量密切相关。Gemini使用了谷歌庞大的图像数据集进行训练，因此能够识别出复杂的图像特征，并提供更准确、更有信息量的结果。