Atom Capital: 揭秘Gemini 1.5和Sora背后的AI进化 – 视频生成自对弈及其他

　　最近AI领域的卷王们卷得风生水起，Google刚发布Gemini1.5，OpenAI就祭出了Sora炸场。Sora惊艳的效果让其在媒体舆论上占尽风头，使得Gemini 1.5一发布便“黯然失色”。但实际上，Gemini 1.5所带来的超长上下文能力意义非同小可。从两大巨头最新的发布中，我们窥见了24年AI进化的一些新线索——AGI架构的几大核心要素已逐步清晰、MoE架构将给开源世界带来更多竞争机遇、以及AI在视频生成领域的“自进化闭环”已经开启…… 这其中也蕴藏着许多新的机遇，在此跟大家一同分享和探讨。

　　01 AGI四个核心要素逐步明晰

　　随着Gemini 1.5和Sora发布，我们觉得，大模型或者说AGI的基本结构又进一步清晰。目前可以看到有四个核心要素：

　　模态层

　　模态包括语言、代码、语音、视觉等各种模态。这部分类似于representation, 其实是编解码，不同模态用不同的编解码头。这块相对浅层。背后的原因，我们推测是因为LLM作为基准，其他模态可以在此基础上做跨模态的知识迁移，因而模态部分的学习变得简单。例如，Sora 利用Transformer架构学习文本与视频之间以及视频本身的时空关系，通过将视频数据token化，实现了视频生成模型与大型语言模型(LLM)在架构上的无缝集成。Transformer架构本身跟语言关系不大，它只是在处理token之间的关系，最后再把这些token折换成语言。从这个意义上来说，不同模态的”语料“之间并没有质的区别。由于LLM是目前能力最强的模型，未来多模态模型很可能以LLM作为出发点，将LLM的认知能力迁移到其他模态，这不仅提高了其他模态的智能上限，也显著减少了对数据的依赖。

　　在Gemini 1.5里有一个例子令人印象深刻。卡拉芒语是一种全球使用人数不足200 人的语言，几乎从未在互联网上留下痕迹。把卡拉芒语语法手册放在prompt里，模型仅仅通过上下文学习(in-context learning)，就能够学会将英语翻译成卡拉芒语，质量可与使用相同材料学习的人相媲美。这意味着，长提示效果非常好，模型可以从上下文给出的信息中学习新技能，而不需要额外的微调。

　　世界模型(World Model)

　　AI落地到具体应用场景，要理解当下任务并预测未来情景，需要超越简单的文本学习，深入获取各个领域知识、领域相关的私有数据以及相关任务的“过程数据”(即领域专家是如何分解任务、产生结果的)。人类的世界模型是非常复杂的网络。目前对于Sora到底多深地真正认知物理世界，是有争议的。

　　推理能力(Reasoning)

　　指AI解决复杂问题的能力，其中涉及规划、调整、组织、反馈、执行、预测等等。只有AI具备了足够的推理能力，才能真正落地到生产环境解决真实的问题。这是智能的核心。

　　记忆和学习能力

　　Gemini 1.5带来的1M token长上下文是个非常重要的突破，意味着模型已经能够一次性处理海量信息，而且是多模态——如1小时的视频、11小时的音频、超过30,000行的代码库、或是超过700,000个单词。这说明它的session context已经是一个有效的memory了。长上下文增强了in-context learning能力(Google最近发布

　　https://arxiv.org/pdf/2402.09727.pdf，介绍了一种非常有效的in-context learning方法)。这样一来，AI的学习从pre-train阶段挪到了上下文prompt中，极大降低了学习的成本，让实时学习成为可能。最近，OpenAI也提到未来将支持cross session的long term memory。可见这是大模型发力解决的重点之一。

　　以上四个核心要素构成了基础的AI架构。其中，模态层相对简单，真正的壁垒在于其他三个要素。类比人脑，人脑也是靠浅层的多模态信息编码成更深层的神经元信号，来实现更深入的理解。除模态层外，其他三要素是通过embedding来交流的。不论什么模态的信息，最终都是抽象成跨模态通用的embedding来处理。其中，记忆和学习能力的技术相对成熟，大模型最核心的挑战还在于世界模型的构建以及推理能力的提升。

　　02 MoE架构给开源带来更多机遇

Atom Capital: 揭秘Gemini 1.5和Sora背后的AI进化 - 视频生成自对弈及其他

　　Gemini 1.5采用的是MoE架构(此前Mistral也是采用了此架构，据称GPT4也是采用此架构)。与传统的作为一个庞大的神经网络运行的Transformer不同，MoE模型由众多小型的「专家」神经网络组成。这些模型可根据不同的输入类型，学会仅激活最相关的专家网络路径。这样的专门化可以使模型效率大幅提升。随着Mistral 8X7B、Gemini 1.5等一系列业内头部大模型相继采用MoE架构，可以看到，MoE已经成为一种主流的AI大模型架构。简单地类比，MoE架构为大模型提供了类似人类大脑的脑区分工。虽然整体模型的参数量不小，但解决任何单一任务只需要运用对应的专家模型，实时调用的参数量小很多，推理效率和成本得到了很大优化。我们认为，MoE架构的普及有可能会打破目前大模型领域闭源与开源的格局，让开源大模型迎来新的发展机遇—— MoE的每个专家模型都很小，开源社区完全可以“拼齐”这些模块;或者基于开源的MoE大模型，针对一两个专家模型做对应的优化，从而提升其在某个专业领域的能力。开源模型之前的主要问题是在算力、数据和资本上比拼不过闭源巨头，而训练MoE这些小的专家模型极大降低了对这方面的资源要求，可能给竞争格局带来一些全新的变量。

　　03 Sora的启示：视频生成自对弈的“恐怖闭环”即将开启

　　这两天关于Sora大模型对于“物理世界”的模拟已经被讨论的很多，这当然是Sora最为重要的影响，鉴于很多文章阐述清晰，在此不再赘述。在我们看来，除了对于物理世界模拟之外，Sora带来的另一突破可能是开启了视频生成自对弈(self-play) 的恐怖闭环：生成视频 -> 理解视频生成文本 -> 增强文本(augment)-> 生成视频 -> …既可以用来改进每个步骤，让这个循环尽可能做成每轮生成的一样;也可以在中间通过改变text 或其它特征进行创作——这个自反馈自学习闭环的形成意味AI已经可以通过自对弈完成自学习和自进化，一旦进入这个循环，未来的AI将会以一种超乎想象的速度自我进化，不断地扩展其知识边界和创造力。对于人类而言，这意味着在视频生成这一领域，未来人类将很难与AI Agent“抢饭碗”了——正如当今的顶尖人类棋手面对AlphaGo时的处境一样。

　　04 2024年值得关注的方向

　　2024一开年，就有两大巨头的新作炸场，大模型的竞争越来越激烈，也让我们对于这一年AI技术的发展更加兴奋和期待，根据Gemini 1.5与Sora揭示的线索，在24年我们认为AI领域如下值得从业者关注，也是我们会重点关注的投资方向。

　　多模态正如我们在2023年终盘点文章(Atom Capital: AI年度回顾与展望)中所提及，我们预计随着多模态(尤其是视觉模态)的引入，大模型的智能及推理能力会再上一个台阶。主要是如下两个原因：

　　视觉在某些方面对信息的抽象能力更强，带宽比文字要大很多。举个简单的例子，一张城市地图可以把一个城市landscape表达得一清二楚，而如果用文字描述，可能花费非常多Token也解释不清。有了视觉模态，大模型与人类互动的带宽大了很多，可以更低成本、更有效地获得大量信息。

　　视觉模态引入了时间维度，这样很好地表达了因果逻辑。大量的时间序列信息将把许多因果逻辑自然地给到大模型，而这些信息如果用语言描述，将是非常庞大的工作量。我们预计这将让大模型对物理世界的认知有巨大提升，从而大幅提升它的推理能力。

　　而随着视觉模态的引入、大模型智能的提升，我们预计将有非常多全新的应用场景和应用形态被解锁，也是应用层最值得期待的变量。

　　MoE带来的开源机会

　　正如上文所提，MoE所带来的模型成本上的大幅降低，将给开源社区带来一些全新机遇。我们会持续关注由MoE所带来的大模型开源闭源生态格局的变化及其中的创投机遇。

　　Personalized Agent

　　Agent仍然会是我们关注的重点，随着AI学习能力的持续进化，在2024年我们会格外关注Personalized Agent。即Agent基于用户个人数据进行持续学习，实现个性化。这背后的核心技术就是Agent如何学习，一旦这个问题得到解决，就可以通过培训Agent来落地不同场景，实现低成本的定制化。我们相信，未来会看到AI workers、AI customers等大量出现在生活和工作中，它们会像人一样通过选育用留，成为社会的一部分。

　　视觉生成带来的元宇宙的机遇

　　Sora极大降低了构建一个”物理世界“的成本，对于元宇宙来说，这意味着”虚拟宇宙”的构建到海量内容填充在成本上的大幅下降。虽然“元宇宙”已经不是一个新概念，但我们认为Sora的到来可能才真正意义上让“元宇宙”的广泛应用变得可能。