能识图能画画，被吹爆的开源多模态AI模型Mini-Gemini究竟有多好

　　AI大模型向多模态发展已经是个趋势，因其能理解和生成图像、文本等多种信息形式而备受瞩目。但是目前还没有一个开源AI大模型集成识别图像和生成的图像的功能，而刚刚由港大贾佳亚团队发布的开源多模态AI模型Mini-Gemini，不仅能理解图像，还能根据指令生成图片，甚至还能读懂梗图、复现数学函数，堪称开源版的“GPT-4 + DALL-E 3”。

　　图像识别能力比肩顶尖商业闭源模型

　　我用微软的一个AI知识点手绘图，分别测试 ChatGPT-4、Gemini 1.5 pro、Claude3-Opus目前最好的三个闭源商业模型跟Mini-Gemini对比。

　　Mini-Gemini-34B-HD

　　ChatGPT-4 Turbo 128k

　　Gemini 1.5 pro

　　Claude 3 – Opus

　　Mini-Gemini的识别结果完全正确，毫不逊色ChatGPT-4 和Gemini 1.5 pro，而 Claude3-Opus 这次偷懒识别结果不完全。

　　高清图像理解与推理

　　以往的多模态模型多局限于低分辨率图像的处理，而Mini-Gemini 则打破了这一局限，能够解析高清图像，并进行相应的推理。

　　可以从识别图片中一个微小部分的文字

　　面对复杂的烘焙步骤，Mini-Gemini 可以轻松看懂面包九宫格教程，并像一位经验丰富的烘焙师一样，对每一个步骤进行详细的讲解，帮助用户轻松掌握烘焙技巧。

　　想要进行艺术创作却缺乏灵感?Mini-Gemini 可以成为你创意的伙伴，例如，只需提供两个简单的毛线团，它就能推理并生成毛线小熊的图片，激发你的创作灵感。

　　玩梗大师：面对网络上层出不穷的梗图，Mini-Gemini 可以轻松理解其背后的幽默，并进行准确的解释。例如，一张将麦当劳标志P成健身房(GYM)的表情包，Mini-Gemini 就能准确解读其讽刺的含义。

　　数据分析师：面对复杂的数据图表，Mini-Gemini 可以化身专业的数据分析师，快速理解图表内容，并用简洁易懂的语言进行归纳总结。

　　代码助手： Mini-Gemini 能够理解数学函数曲线图，并用代码进行复现，从而节省程序员宝贵的时间和精力。

　　图像生成

　　Mini-Gemini不仅具有出色的图像理解和推理能力，还能根据推理结果生成图像。它就像 ChatGPT 和 DALL-E 3 的结合，能够理解图像中的信息，并根据指令进行推理和生成图像。

　　给它一幅图，它能理解并生成类似的图像。

　　直接给它命令，它先推理出prompt后，再生成对应的图像。

　　技术细节

　　Mini-Gemini 的强大能力，源于其独特的技术设计：

　　双编码器机制：为了高效处理高清图像，Mini-Gemini 采用了双编码器机制。它使用 ViT 作为低分辨率的 Query，并使用卷积网络(ConvNet)将高分辨率的图像编码成 Key 和 Value。通过 Transformer 中常用的 Attention 机制，Mini-Gemini 能够挖掘每个低分辨率 Query 对应的高分辨率区域，从而在保持最终视觉 Token 数目不变的情况下，提升对高清图像的响应，保证了在大语言模型(LLM)中对于高清图像的高效编码。

　　高质量数据：数据是 AI 模型的“燃料”，Mini-Gemini 采用了更高质量的训练数据，并加入了与生成模型结合的文本数据进行训练。这使得 Mini-Gemini 在仅使用 2-3M 数据的情况下，就能实现对图像理解、推理和生成的统一流程，并在各种 Zero-shot 榜单上取得优异成绩。

　　生成模型拓展：为了实现图像生成功能，Mini-Gemini 借助了 SDXL 生成模型。LLM 在进行推理后，会生成相应的文本信息，并将其与 SDXL 模型连接，从而实现图像的生成，类似于 DALL-E 3 的流程。而且Mini-Gemini还可以插拔其他的绘画模型。