大家好,又见面了,我是 GitHub 精选君!
背景介绍
随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注、视觉问答、内容生成等领域。然而,开发和训练这类高效、精确且可扩展的多模态模型仍面临巨大挑战,包括如何处理不同模态间的复杂交互、如何提高模型的理解和生成能力、以及如何处理巨大的模型尺寸和计算成本等问题。
今天要给大家推荐一个 GitHub 开源项目 dvlab-research/MiniGemini,该项目在 GitHub 有超过 2.5k Star,一句话介绍该项目:Official implementation for Mini-Gemini

项目介绍
Mini-Gemini 项目提供了一系列从 2B 到 34B 的密集型和 MoE 大型语言模型(LLMs),这些模型能够同时处理图像理解、推理和生成。Mini-Gemini 基于 LLaVA 构建,采用双重视觉编码器,提供低分辨率视觉嵌入和高分辨率候选;提出了补丁信息挖掘,以执行高分辨率区域与低分辨率视觉查询之间的补丁级挖掘;并使用 LLM 将文本与图像结合起来,同时进行理解和生成。该项目已经公开了论文、在线演示、代码、模型和数据,为研究人员和开发者提供了宝贵的资源。

以下是模型的构成:

如何使用
1、克隆仓库:
git clone https://github.com/dvlab-research/MiniGemini.git
2、安装所需包:
conda create -n minigemini python=3.10 -y
conda activate minigemini
cd MiniGemini
pip install –upgrade pip
pip install -e .
3、若进行训练案例,需安装额外包:
pip install ninja
pip install flash-attn –no-build-isolation
以下是一些命令行使用示例:

项目推介
Mini-Gemini 是多模态视觉语言模型领域的一次重要突破,它不仅涵盖了从语言到图像的综合理解和生成能力,而且通过提供预训练和微调模型,极大地简化了多模态任务的开发流程。
以下是该项目 Star 趋势图(代表项目的活跃程度):

更多项目详情请查看如下链接。
开源项目地址:https://github.com/dvlab-research/MiniGemini
开源项目作者:dvlab-research