真·拿嘴做视频！Meta“AI导演”一句话搞定视频素材，网友：我已跟不上AI发展速度

发布时间：2025-07-06 02:03:38 作者：玩站小弟

我要评论

首先，根据输入文本生成图像嵌入。然后，解码器Dt生成16帧64×64的RGB图像。插值网络↑F会对初步结果进行插值，以达到理想帧率。接着，第一重超分网络会将画面的分辨率提高到256×256。第二重超分。

首先，AI导演根据输入文本生成图像嵌入。真拿嘴

然后，视频视频素材速度解码器Dt生成16帧64×64的句话RGB图像。

插值网络↑F会对初步结果进行插值，搞定以达到理想帧率。网友

接着，已跟第一重超分网络会将画面的不上分辨率提高到256×256。第二重超分网络则继续优化，发展将画质进一步提升至768×768。AI导演

基于这样的真拿嘴原理，Make-A-Video不仅能根据文字生成视频，视频视频素材速度还具备了以下几种能力。句话

将静态图像转成视频：

根据前后两张图片生成一段视频：

根据原视频生成新视频：

刷新文本视频生成模型SOTA

其实，搞定Meta的网友Make-A-Video并不是文本生成视频（T2V）的首次尝试。

比如，清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI：CogVideo，而且这是目前唯一一个开源的T2V模型。

更早之前，GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次，Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示，在FID（13.17）和CLIPSIM（0.3049）两项指标上，Make-A-Video都大幅刷新了SOTA。

此外，Meta AI的团队还使用了Imagen的DrawBench，进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video，主观评估视频与文本之间的逻辑对应关系。

结果显示，Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是，Meta发布新AI的同时，似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了，创始人兼CEO Emad放话道：

我们将发布一个比Make-A-Video更好的模型，大家都能用的那种！

而就在前几天，ICLR网站上也出现了一篇相关论文Phenaki。

生成效果是这样的：

对了，虽然Make-A-Video尚未公开，但Meta AI官方也表示，准备推出一个Demo让大家可以实际上手体验，感兴趣的小伙伴可以蹲一波了~

Tag：

我国生产安全事故总量连续10年下降持续加强防灾减灾能力建设
8月30日，中宣部举行新闻发布会，介绍新时代应急管理领域改革发展情况和取得的成效。应急管理部副部长周学文介绍，十八大以来，特别是2018年应急管理部和国家综合性消防救援队伍组建以来，我国应急管理工作在
2025-07-06
腾讯突然割肉，投资超10年！
来源：每日经济新闻曾经顶着“影视第一股”光环的华谊兄弟，如今却连亏4年。今年以来，公司实控人王忠军和王忠磊频频“吃罚单”。不仅如此，近日，华谊兄弟还遭二股东腾讯减持。8月5日晚间，华谊兄弟公告，获悉持
2025-07-06
7月出口超预期增长18% 贸易顺差1013亿美元再创新高
8月7日，海关总署发布的数据显示，今年前7个月中国进出口总值3.643万亿美元，同比增长10.4%。其中，出口2.06万亿美元，同比增长14.6%；进口1.58万亿美元，同比增长5.3%；贸易顺差48
2025-07-06
钢铁行业“最差阶段已过”？下半年供需压力有望缓解但利润仍将偏弱
炒股就看，权威，专业，及时，全面，助您挖掘潜力主题机会！财联社8月7日讯记者张良德）钢铁业在经历了去年的繁荣后，今年市场情形急转直下，受到产业链上下游同时挤压，成为上半年盈利降幅最大的行业之一，近七
2025-07-06
法拉第未来三季度亏损1亿美元，FF 91交付再延迟
盖世汽车讯 11月21日，法拉第未来Faraday Future Intelligent Electric）透露，不确定何时能完成FF 91豪华电动汽车的首批交付。据悉，该公司早些时候计划在今年第四季
2025-07-06
法国高温旱情严重百余个市镇管道中已无饮用水
新浪财经公众号 24小时滚动播报最新的财经资讯和视频，更多粉丝福利扫描二维码关注sinafinance）
2025-07-06