VideoPoet-用于零样本视频生成的大型语言模型

VideoPoet是Google Research开发的一项突破性技术,利用大型语言模型以零样本方式生成高质量视频。这种创新的建模方法允许将任何自回归语言模型或大型语言模型(LLM)转换为强大的视频生成器。

有了VideoPoet,视频生成的潜力是无限的。通过利用语言模型的功能,它能够基于文本提示创建视频,而无需明确的训练数据。这意味着VideoPoet可以生成各种主题和场景的视频,甚至是以前从未见过的视频。

VideoPoet的优势在于它能够无缝集成多种模式,包括文本、图像、音频和视频。它使用预训练的MAGVIT V2视频标记器和SoundStream音频标记器将视频、图像和音频片段转换为离散代码序列。然后,自回归语言模型使用这些代码来预测序列中的下一个视频或音频标记,从而生成高度逼真和连贯的视频。

为了展示VideoPoet的功能,谷歌研究公司制作了一部短片,由该模型生成的各种视频片段组成。通过提供一系列文本提示,一个关于一只旅行浣熊的迷人故事栩栩如生。生成的片段无缝拼接在一起,形成了一部视觉震撼、引人入胜的短片。

有关VideoPoet的更多信息和其他示例,您可以访问谷歌研究-VideoPoet.

如果您不能正常访问官网,可能是您的网络受限!


滚动至顶部