谷歌Gemini“夺舍”文心一言，天下大模型一大抄？

　　就在字节跳动被OpenAI封号的罗生门还没落幕之时，这边谷歌的新王牌Gemini似乎也“暴雷”了。日前微博大V@阑夕爆料称，用中文向谷歌Gemini Pro提问时，其会直接表示自己是百度的文心一言。紧接着在更多的网友提问下，Gemini Pro一会认为自己是小爱同学，一会又承认自己是悟道大模型开发团队北京智源做的。

　　不仅如此，有喜欢整活的网友对Gemini Pro进行了英文提问，Gemini Pro又称自己是OpenAI训练的。此事在经过了十几个小时的发酵后，谷歌方面似乎是反应了过来，现在大家再用中文“调戏”Gemini Pro时，它已经不再承认自己与文心一言存在任何关系了。

　　其实不仅仅是谷歌的Gemini Pro，马斯克旗下xAI推出的AI聊天机器人Grok也曾在与用户对话时突然表示，“我无法完成您的请求，因为它违反了OpenAI的用例政策。”

　　如此种种反常的情况，用一句大模型出现“幻觉”现象来解释显然就有些勉强了，而是让大模型圈子流行互相借鉴可能才更加合适，也就是说这些公司不约而同的选择了互相薅羊毛。有业内人士就认为，谷歌用于训练Gemini Pro的数据大概率是使用了百度文心一言的输出结果，并以此来蒸馏自家的Gemini Pro，但也有一定的可能性是直接抓取了中文互联网的公开内容。

　　先来看看概率更高的第一种情况。目前在AI大模型赛道，后发大模型用OpenAI的GPT-4进行辅助已然成为了常规操作。原因其实很简单，毕竟用其他大模型来蒸馏自家大模型更省钱。众所周知，OpenAI的ChatGPT就是靠时薪2美元的海外外包数据清洗人员，完成了史无前例的1750亿参数量、45TB训练数据。

　　使用外包人员确实可以降低成本，但人工清洗训练集的效率太低，例如OpenAI的ChatGPT就有两年半的练习时长，但在ChatGPT一鸣惊人后，其他大模型不可能有这么长的时间去打磨。这时候利用成熟AI大模型输出的结果既省钱又有效率，对于信奉效率就是生命的互联网大厂来说，又怎么会对此无动于衷呢。

　　至于说，谷歌为什么会使用文心一言输出的结果?答案或许是这与百度掌握有大量质量较高的非公开中文语料库，有着密切的关系。比如说百度方面此前在2019年5月，就曾以“数据系统升级”为由，将2017年1月1日前所有的贴子都“藏了起来”，直接将百度贴吧用户十几年积累的数据从公开转为私有。而谷歌在训练Bard时找了ChatGPT、训练Gemini时找文心一言，何尝又不是一种路径依赖。

　　而另一种小概率的推测背后，指向的则是中文互联网语料已经开始被AI输出的内容“污染”了。得益于AI聊天机器人的高效，其诞生一年以来，数以亿计的用户完成了与ChatGPT、New Bing、文心一言，以及其他AI聊天机器人的对话，这些内容自然也开始陆续出现在互联网上。不过这一趋势也不可避免，毕竟各大厂商的大模型已经或准备商用，AI大模型与人类共享互联网世界几乎是必然的事情。

　　值得一提的是，虽然有网友认为谷歌是中文互联网大量低质量内容泛滥的受害者，但这句话其实既对、也不对。因为这种观点是默认了英文互联网世界的内容更优质，但大家以为海外的情况会好很多就大错特错了。实际情况是随着Discord的崛起，小体量互联网产品直接在Discord上向用户提供服务，已经成为了潮流。

　　所以从某种意义上来说，Discord也变得与微信、抖音等超级App越来越相似，Discord上的个人服务器几乎就与小程序没什么两样。大家也发现相比于传统的BBS，前者提供的交流环境更符合现代人的需求，直接导致海量BBS迁移到了Discord。且不提在搬迁过程中损失的数据，从公开的BBS到私有的Discord服务器，数据同样也完成了一次从公开到私有的转化。

　　其实高质量语料的匮乏是一个世界性的问题，而非中文互联网独有，而造成这一切的原因则是移动互联网的代表——App。虽然高质量语料依旧是有的，但它们比以往更分散、也更难获取了。未来握有高质量数据的互联网平台只会越来越吃香，也不仅仅只有英伟达会靠着AI大模型厂商大赚一笔，可能各大内容平台也会跟着捞上一票。

　　当然，无论哪一种猜测都无法掩盖谷歌确实丢人现眼了，直接薅文心一言的羊毛被抓现行已经很难看，更难看的情况则是Gemini的数据库被污染了。要知道谷歌可是做搜索引擎起家的，而搜索引擎的核心技术就包括了数据清洗，将爬虫抓取数据中存在的缺失值、异常值(离群点)、重复值去除，就都是数据清洗的一部分，结果在自家的明星产品Gemini上失手，这可就称得上是“打了一辈子雁，到头来被雁啄了眼睛。”