Meta表示，它的Movie Gen标志着人工智能视频生成的“真正”进步_科技快讯

　　越来越多的人工智能(AI)制作的视频是假的还是真的?

　　事实证明，有一个量化的衡量标准——或者，几乎。人类仍然需要根据自己的感知来决定视频是好是坏。

　　textarea平台的老板马克·扎克伯格周五宣布了一款名为Movie Gen的新型人工智能模型，该模型可以通过文本提示生成高清视频(1080p分辨率)。该公司表示，平均而言，这些视频比竞争对手的技术(如OpenAI的Sora文本到视频模型)生成的视频更“真实”。

　　它还可以生成同步音频，定制视频以显示一个人的脸，然后只需要一个文本提示就可以自动编辑视频，比如“给企鹅穿上维多利亚时代的衣服”，以掩盖屏幕上的企鹅。

　　在随附的论文《电影世代:媒体基础模型》中，元人工智能研究人员描述了他们如何让人类对人工智能生成的视频的真实感进行评分:

　　还有一篇配套的博客文章。

　　人类测试确定了Movie Gen与Sora以及其他三种著名的文本到视频人工智能模型(Runway Gen3、Lumalabs和Kling1.5)的输赢分数。

　　作者指出，目前还不可能以自动化的方式进行良好的比较。此外，“评估真实性和美学在很大程度上取决于人类的感知和偏好，”他们写道。

　　他们表示，不仅在现实主义方面，而且在视频中的动作有多好、是否跳过或遗漏某个动作的部分、视频对输入文本提示的忠实程度等方面，都是你无法自动化的。

　　“我们发现现有的自动化指标难以提供可靠的结果，这加强了对人工评估的需求。”

　　该基准衡量的是“人们对我们的模型结果的偏好，而不是与之竞争的行业模型”，论文提到，以百分比计算的“净胜率”。

　　他们说，对苍井空的平均胜率是11.62%。战胜其他对手的胜率要高得多。

　　“这些重大的净胜利证明了Movie Gen Video通过生成的视频来模拟现实世界的能力，这些视频尊重物理，运动既合理，又一致，没有失真。”

　　他们提供了一些视频截图样本，直接与Sora形成对比。正如作者所看到的那样，“OpenAI Sora往往会生成不太真实的视频(例如，第二行卡通袋鼠)，这些视频可能会错过文本提示中描述的运动细节(例如，底部一行不行走的机器人)。”

　　作者根据他们所谓的“基础模型”为Movie Gen构建了人工智能模型。

　　在训练阶段，来自公共和许可数据集的混合图像和视频被压缩，直到模型学会有效地再现数据的像素。正如他们所说，“我们使用时间自动编码器(Temporal Autoencoder, TAE)将RGB像素空间视频和图像编码到一个学习的时空压缩潜在空间中，并学习在这个潜在空间中生成视频。”

　　然后，该视频生成以文本输入为“条件”，以使模型能够生成与文本提示一致的视频。

　　这些部件加起来就是一个有300亿个参数的模型——以今天的训练标准来看，这并不算大。

　　第二个神经网络叫做“Movie Gen Audio”，它可以产生高保真的音频——但是用于音效和音乐，而不是语音。这是建立在一种叫做“扩散变压器”的现有方法上的，它有130亿个参数。

　　所有这些都需要大量的计算能力:“6144个H100 gpu，每个gpu的TDP为700W, HBM3为80GB，使用textarea的Grand Teton AI服务器平台。”

　　生成视频并不是Movie Gen的全部工作。在接下来的步骤中，作者还对模型进行了额外的训练，以创建“个性化”视频，其中个人的脸可以被迫出现在电影中。

　　他们还增加了最后一个组件，即仅通过文本提示即可编辑视频的功能。作者面临的问题是“视频编辑模型受到监督视频编辑数据稀缺的阻碍”，因此没有足够的例子来让人工智能模型进行训练。

　　为了解决这个问题，团队回到Movie Gen AI模型，并对其进行了几个步骤的修改。首先，他们使用图像编辑的数据来模拟编辑视频帧所涉及的过程。在进行原始的文本到视频的训练的同时，他们将其投入到模型的训练中，这样人工智能模型就具备了协调多帧视频和单个帧编辑的能力。

　　在接下来的部分中，作者给模型提供一个视频，一个文本标题，比如“一个人走在街上”，和一个编辑过的视频，并训练模型产生指令，导致从原始视频到编辑过的视频的变化。换句话说，它们迫使人工智能模型将指令与变化的视频联系起来。

　　为了测试视频编辑能力，作者基于textarea研究人员收集的51,000个视频编写了一个新的基准测试。他们还雇佣了众工来编写编辑说明。

　　为了评估视频的编辑，元团队要求人工评论者对哪个视频更好进行评分:用他们的人工智能模型制作的视频还是用现有的最先进技术制作的视频。他们还使用自动测量来比较任务前后的视频。

　　作者写道:“与所有基线相比，人类评分者更喜欢Movie Gen Edit。”

　　在所有这些步骤中，作者在协调人工智能模型的大小、数据和使用的计算量方面取得了突破性进展。“我们发现，通过Flow Matching训练的简单transformer模型的训练数据、计算和模型参数，可以产生高质量的视频或音频生成模型。”

　　然而，作者承认，人类评估有其缺陷。“使用人类评估来定义评估模型世代的客观标准仍然具有挑战性，因此人类评估可能受到许多其他因素的影响，如个人偏见、背景等。”

　　这篇论文没有就如何处理这些人类偏见提出任何建议。但textarea指出，他们将发布一个基准测试供其他人使用，但没有透露时间框架:

　　该公司还承诺在某一时刻提供其视频供公众检查:“为了在未来的作品中公平和容易地与Movie Gen Video进行比较，我们希望公开发布我们为Movie Gen Video Bench提示集生成的非精选视频。”

　　根据textarea, Movie Gen模型尚未部署。在论文的结论中，作者写道，人工智能模型“在部署之前都需要多次改进”。例如，由模型生成的视频“仍然存在一些问题，例如围绕复杂几何、对象操作、对象物理、状态转换等生成或编辑视频中的工件。”“当动作密集时，音频有时会不同步”，比如一段踢踏舞视频。

　　尽管有这些限制，Movie Gen暗示有一天会有一个完整的视频创作和编辑套件，甚至可以根据自己的形象定制视频播客。

打卡网声明：未经许可，不得转载。