Genie(全称:Generative Interactive Environments,生成式交互环境),是谷歌
DeepMind团队发布的一个AI模型,于2024年2月26日发布(注:相关论文发表于2月23日)。Genie是从互联网视频中训练出来的基础世界模型,可根据合成图像、照片、草图生成动作可控的2D世界。
产生背景
自2017年Vaswani等人提出里程碑式的Transformer语言模型,加之硬件方面的发展后,大数据模型得到极大发展。人们通过ChatGPT等预训练语言模型,拉开了自然语言处理研究和应用的“预训练+微调”时代。研究表明,生成式人工智能可以通过语言、图像甚至视频生成创造性内容。
发展历程
2024年2月26日,谷歌
DeepMind团队,发布了一种新的AI模型Genie,它可以接收文本提示、草图或想法,将其变成一个可以互动和玩耍的虚拟世界(注:相关论文《Genie: Generative Interactive Environments》发表于2024年2月23日)。Genie的名字来源于阿拉伯神话故事中的
灯神。
2024年12月,Google DeepMind在官网上发布了大型基础世界模型Genie 2。作为Genie模型的升级版,Genie 2能够通过单张图片和文字描述生成多种可玩3D世界,标志着AI在虚拟世界生成领域的又一次突破。
实现方法
基础架构
Genie架构中的关键组件是基于视觉Transformer(ViT)。Transformer的二次方内存成本对于视频来说是一个极大挑战,因为视频中可以包含多达 𝑂(10^4) 个token,对此,Genie团队采用了一个内存高效的ST-transformer架构,在所有模型组件中平衡模型容量与计算限制。
与传统的Transformer不同,Genie每个token都关注所有其他token,一个ST-transformer包含𝐿个时空块,其中交错有空间和时间注意力层,之后是一个标准注意力块的前馈层(FFW)。空间层中的自注意力关注每个时间步内的1 × 𝐻 × 𝑊个token,而时间层关注𝑇 × 1 × 1个token跨越𝑇个时间步。与序列Transformer类似,时间层假设一个因果结构,带有一个因果掩码。Genie架构中计算复杂度的主导因素(即空间注意力层)与帧数的增长,呈线性关系而非二次方关系。这使得它对于视频生成变得更加高效,能够在延长的交互中保持一致的动态。此外,在ST块中,Genie在空间和时间组件之后只包含一个FFW,省略了空间后的FFW,以便扩展模型的其他组件。
核心组件
Genie主要由三个部分组成:一个潜在动作模型,用于推断每对帧之间的潜在动作;一个视频分词器tokenizer,用于将原始视频帧转换为离散
token;一个动态模型,用于在给定潜在动作和过去帧token的情况下,预测视频的下一帧。Genie架构中的多个组件基于Vision Transformer (ViT) 构建而成。由于Transformer的二次内存成本较高,因此视频最多可以包含 𝑂(10^4 ) 个token。为此,谷歌在所有模型组件中采用内存高效的ST-transformer架构,以此平衡模型容量与计算约束。
潜在动作模型(Latent Action Model ,LAM),用于推理每对帧之间的潜在动作 𝒂,为了实现可控的视频生成,谷歌DeepMind将前一帧所采取的动作作为未来帧预测的条件。由于此类动作标签在互联网的视频中可用的很少,并且获取动作注释的成本很高。因此,Genie以完全无监督的方式学习潜在动作。即Genie的训练使用了大量公开的互联网视频数据集,而没有使用任何动作标签数据。
视频分词器(Tokenizer),用于将原始视频帧转换为离散token 𝒛;在之前研究的基础上,谷歌将视频压缩为离散token,以降低维度并实现更高质量的视频生成,实现过程中,谷歌使用了VQ-VAE,其将视频的 𝑇 帧𝒙1:𝑇 = (𝑥1, 𝑥2, · · · , 𝑥𝑇 ) ∈ ℝ𝑇×𝐻×𝑊×C作为输入,从而为每个帧生成离散表示:𝒛1:𝑇 = (𝑧1, 𝑧2, · · · , 𝑧𝑇 ) ∈ 𝕀𝑇×𝐷,其中𝐷是离散潜在空间大小。分词器在整个视频序列上使用标准的VQ-VQAE进行训练。
动态模型,是一个仅解码器的MaskGIT transformer,给定潜在动作和过去帧的token,用来预测视频的下一帧。
生产过程
用户首先用图像𝑥1(作为初始帧)来提示模型。使用视频编码器对图像进行标记,得到𝑧1。然后通过选择[0, |𝐴|]内的任意整数,来指定要采取的离散潜在动作𝑎1。动态模型采用帧token 𝑧1和相应的潜在动作 ̃𝑎1(通过在VQ码本中使用离散输入𝑎1进行索引而获得)来预测下一帧𝑧2。当动作继续传递给模型,重复此过程以自回归方式生成序列图片的其余部分,同时将token通过分词器解码为视频帧图片。
应用示例
Genie可以根据合成图像、照片甚至草图生成各种各样动作可控的2D世界,使人们能够与他们想象的虚拟世界互动。
产品特性
Genie允许用户通过潜在动作在生成的环境中进行交互。这些动作是通过一个因果动作模型学习得到的,这个模型允许用户通过指定潜在动作来控制视频的生成过程。用户通过潜在动作与生成的环境进行交互,从而创造出新的、动态的视频内容。这个特性,让谷歌相信,Genie是实现通用Agent的基石之作。已有研究表明,游戏环境可以成为开发AI Agent的有效测试平台,但实际情况中常常受到可用游戏数量的限制。借助 Genie,未来的AI Agent可以在新生成的世界中,进行永无休止的训练。
作为一个基础世界模型,Genie的数据集主要是大量公开的互联网视频,其中重点是2D游戏与机器人视频。但谷歌强调称,其采用的方法是通用的,适用于任何类型领域,可以扩展到更大的互联网数据集,且Genie是在没有任何动作标注的情况下进行的训练。Genie在这种情况下“自学成才”,可以专门从网上视频中学习控制细粒度:它不仅可以了解观察到哪些部分是可控的,还能推断出在生成环境中的潜在动作,这种潜在动作甚至还可以转移到真实的人类设计的环境中。
同时,Genie也可应用于机器人领域。谷歌研究人员们用来自RT1的无动作视频训练了一个较小的2.5B模型,证明Genie能够学习一致的动作空间,可以帮助训练机器人。谷歌还指出,Genie有助于实现“通用AI Agent”,有研究表明,对于AI Agent开发而言,游戏环境是有效测试平台,但这种方法难免会受到可用游戏数量的限制。Genie则可以帮助生成新世界,让AI Agent不断接受训练。
Genie 2具备从不同视角生成连贯世界的能力,生成的世界可持续时间长达一分钟,但通常维持在10到20秒之间。通过输入如“森林中的可爱人形机器人”等描述,模型可以构建一个包含机器人角色和可探索环境的动态场景,用户可以进行跳跃、游泳等互动。
研究团队
Genie研究团队的共同一作有六位,分别是Jake Bruce,Michael Dennis,Ashley Edwards,Jack Parker-Holder,Yuge( Jimmy) Shi,以及Tim Rocktäschel。其中,Yuge(Jimmy)Shi是华人,本科毕业于澳大利亚国立大学,2023年获得牛津大学机器学习博士学位。
产品评价
Genie引入了一个能从图像或文本生成整个交互式世界的时代,它将成为训练未来通才AI智能体的催化剂。(谷歌
DeepMind团队 评)
谷歌的新模型为人工智能的发展应用开辟了新的领域,也为用户带来了更多的创造性和想象力。(
每日经济新闻 评)
作为一个研究项目,Genie是否会成为真正的产品还不清楚。但重要的是其用于内容生成的潜在技术和新方法,包括通向开放世界的未标记学习。其带来的另一个重大突破是对真实世界物理的更深入理解,这可以用于训练机器人更有效地导航环境,或完成训练中没有经历过的任务。(新浪科技 评)
与Sora呈现出来的高清晰度、高真实度相比,Genie似乎不那么强调画面真实性,而是将重点放在潜在动作预测上。Genie只需一张图像就能创建全新的交互环境,为生成和进入虚拟世界的各种新路径开启了大门。(第一财经 评)
Genie作为世界模型,是人类迈向AGI的旅途中非常重要的一步。(Genie团队的负责人Tim Rocktäschel 评)
与Sora不同,Genie实际上是个能推断动作、用正确动作驱动世界模型。(英伟达科学家Jim Fan 评)