Meta 推出全新 AI 生成器,进军视频领域

Meta 推出全新 AI 生成器,进军视频领域

DALL-E 2 和 Stable Diffusion 等人工智能文本转图像生成器今年取得了巨大的成功。在 Twitter 上浏览时,几乎不可能不看到一些根据(通常很荒谬的)书面提示生成的图像。不过,研究人员已经开始研究下一代生成器:文本转视频。

在本周发表的一篇论文中,Meta AI 的研究人员展示了一款名为 Make-A-Video 的文本转视频生成器。它接受“一只泰迪熊画肖像”或“一只穿着超级英雄服装、披着红色斗篷飞过天空的狗”等书面提示,然后返回一段简短的视频片段,描述机器学习模型重现该场景的最佳尝试。这些视频显然是人造的,但同样令人印象深刻。

除了书面提示外,Make-A-Video 还可以根据其他视频或图像制作视频。它可以为静态图像添加动作,并创建链接两幅图像的视频。

元人工智能

目前,Make-A-Video 的无声片段由 16 帧组成,输出分辨率为 64 x 64 像素,然后使用另一个 AI 模型将其放大到 768 x 768 像素。它们只有五秒钟长,只描述了一个动作或场景。虽然我们距离让 AI 从头开始​​制作一部故事片还有很长的路要走(尽管 AI 以前曾写过剧本,甚至导演过电影),但 Meta 的研究人员打算在未来的研究中努力克服其中的一些技术限制。

与最好的文本转图像生成器一样,Make-A-Video 使用一种称为“扩散”的技术。它从随机生成的噪声开始,然后逐步调整以更接近目标提示。结果的准确性在很大程度上取决于训练数据的质量。

根据宣布该功能的博客文章,Make-A-Video 的 AI 学会了“从成对的文本图像数据中了解世界是什么样子,以及从没有相关文本的视频片段中了解世界是如何移动的”。它接受了来自 LAOIN-5B 数据库的超过 23 亿个文本图像对以及来自 WebVid-10M 和 HD-VILA-100M 数据库的数百万个视频的训练。

元人工智能

Meta 声称,静态图像与配对文本足以训练文本转视频模型,因为可以从图像中推断出运动、动作和事件,例如一位女士在喝咖啡或一头大象在踢足球。同样,即使没有任何文字描述,“无监督视频也足以了解世界上不同实体如何移动和互动。” Make-A-Video 的结果表明他们是正确的。

研究人员表示,他们已经尽其所能控制训练数据的质量,过滤掉 LAOIN-5B 数据集中所有包含 NSFW 内容或有毒词汇的文本-图像对,他们承认,就像“所有使用网络数据训练的大型模型一样,[他们的]模型已经学会并可能夸大社会偏见,包括有害偏见。” 防止人工智能创造种族主义、性别歧视和其他冒犯性、不准确或危险的内容是该领域面临的最大挑战之一。

目前,Make-A-Video 仅供 Meta 的研究人员使用(尽管您可以在此处注册以获取访问权限)。尽管该团队展示的视频令人印象深刻,但我们必须承认,这些视频可能是为了以最佳方式展示算法而选择的。不过,很难不承认人工智能图像生成已经取得了多大的进展。就在几年前,DALL-E 的结果还只是有点意思——现在它们已经是照片级的了。

文字转视频对于 AI 来说无疑更具挑战性,因为要想做到准确无误,难度无疑更大。正如马克·扎克伯格在 Facebook 帖子中所说:“生成视频比生成照片困难得多,因为除了正确生成每个像素之外,系统还必须预测它们会如何随时间变化。”这些视频具有抽象、不自然、不稳定的特质,描绘的动作并不那么自然。

尽管质量较低,扎克伯格仍称该工具“取得了相当惊人的进步”。

<<:  到 2035 年,纽约州销售的新车必须实现零排放

>>:  欢迎来到沃尔玛乐园,这是零售巨头进军元宇宙的尝试

推荐阅读

制作你自己的 Instagram 滤镜

啊,Instagram——我的生活,我的爱,我的厄运。对别人的早午餐之旅垂涎不已是我的一个正式爱好,...

评价《东之伊甸:剧场版 I 伊甸之王》:一部融合悬疑与惊悚的杰作动画

《东之伊甸》剧场版 I 伊甸之王——充满神秘与希望的旅程■ 公共媒体剧院■ 原创媒体动漫原创■ 发布...

如果我们能听到地球磁场的声音,它会是这样的

随着恐怖季节的结束,太空的冰冷和黑暗为任何愿意仔细聆听的人提供了额外的恐怖氛围。丹麦林比技术大学的研...

《RWBY:雪帝国》的魅力与评价:不容错过的动作与故事

RWBY:雪之帝国 - 红宝石冰雪帝国 - 全光谱测评与推荐《RWBY:雪帝国》是一部电视动画系列,...

法拉利在其限量版 Monza 车型中融合了复古赛车设计和 V12 发动机

单座法拉利 Monza SP1 没有乘客空间。法拉利本周,法拉利宣布推出名为“Icona”的全新车型...

我们可能最终知道我们周围的“幽灵粒子”来自哪里

幽灵粒子,又称中微子,几乎无处不在——数以万亿计的中微子,每个都几乎没有质量,现在正穿过你的身体。但...

不用杀虫剂驱虫的八种方法

在水边度过这个轻松的夜晚,既不会遇到虫子,也不会闻到市售驱虫剂的化学气味。Julie Rotter/...

海贼王:螺旋岛的冒险 - 引人入胜的故事和深刻的人物发展

《航海王:螺旋岛冒险》——讲述路飞和他的朋友们激烈战斗的动人故事■ 公共媒体剧院■ 原创媒体漫画■ ...

人工智能辅助大脑和脊柱植入物帮助瘫痪男子重新控制双腿

在本月早些时候发表在《自然》杂志上的一项开创性的新研究中,一个由神经科学家和其他研究人员组成的团队详...

仅供参考:如果我将火箭燃料放入油箱中会发生什么?

如果你的车是柴油车,它就能跑起来。麻省理工学院航空航天学教授曼努埃尔·马丁内斯-桑切斯说,航天飞机主...

IBM 的 Watson 将“认知计算”引入客户服务

IBM 的 Watson 计算平台在 Jeopardy 上声名鹊起,但它逐渐在现实世界中的推广也同样...

《B:the Beginning》的魅力与评价:不容错过的悬疑动画

“B:开始”——从深渊开始2018年3月2日在Netflix上映的动画《B:The Beginnin...

定制机械键盘世界的新手指南

让我们猜猜:你在 TikTok 上看到了一段视频,视频中有人制作了声音动听、音质出色的机械键盘,你也...

彻底解析《暴力杰克:健康风版》的震撼与感动!

暴力杰克:健康之风 - 一部让永井豪的世界生动起来的杰作 OVA 1990年11月9日发售的OVA《...

《玛尼玛尼迷宫故事》:全面回顾这一系列令人着迷的动画短片!

《玛尼玛尼迷宫故事》:以综合形式描绘的三个平行世界《玛妮玛妮:迷宫物语》于 1987 年 9 月 ...