真·拿嘴做视频!Meta“AI导演”一句话搞定视频素材,网友:我已跟不上AI发展速度

首先,AI导演根据输入文本生成图像嵌入。真拿嘴
然后,视频视频素材速度解码器Dt生成16帧64×64的句话RGB图像。
插值网络↑F会对初步结果进行插值,搞定以达到理想帧率。网友
接着,已跟第一重超分网络会将画面的不上分辨率提高到256×256。第二重超分网络则继续优化,发展将画质进一步提升至768×768。AI导演
基于这样的真拿嘴原理,Make-A-Video不仅能根据文字生成视频,视频视频素材速度还具备了以下几种能力。句话
将静态图像转成视频:
根据前后两张图片生成一段视频:
根据原视频生成新视频:
刷新文本视频生成模型SOTA
其实,搞定Meta的网友Make-A-Video并不是文本生成视频(T2V)的首次尝试。
比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。
更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。
不过这一次,Make-A-Video在生成质量上有明显的提升。
在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。
此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。
他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。
结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。
One More Thing
有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。
Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:
我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!
而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。
生成效果是这样的:
对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~
相关文章
我国生产安全事故总量连续10年下降 持续加强防灾减灾能力建设
8月30日,中宣部举行新闻发布会,介绍新时代应急管理领域改革发展情况和取得的成效。应急管理部副部长周学文介绍,十八大以来,特别是2018年应急管理部和国家综合性消防救援队伍组建以来,我国应急管理工作在2025-07-06- 来源:每日经济新闻曾经顶着“影视第一股”光环的华谊兄弟,如今却连亏4年。今年以来,公司实控人王忠军和王忠磊频频“吃罚单”。不仅如此,近日,华谊兄弟还遭二股东腾讯减持。8月5日晚间,华谊兄弟公告,获悉持2025-07-06
- 8月7日,海关总署发布的数据显示,今年前7个月中国进出口总值3.643万亿美元,同比增长10.4%。其中,出口2.06万亿美元,同比增长14.6%;进口1.58万亿美元,同比增长5.3%;贸易顺差482025-07-06
钢铁行业“最差阶段已过”?下半年供需压力有望缓解但利润仍将偏弱
炒股就看,权威,专业,及时,全面,助您挖掘潜力主题机会!财联社8月7日讯记者 张良德)钢铁业在经历了去年的繁荣后,今年市场情形急转直下,受到产业链上下游同时挤压,成为上半年盈利降幅最大的行业之一,近七2025-07-06- 盖世汽车讯 11月21日,法拉第未来Faraday Future Intelligent Electric)透露,不确定何时能完成FF 91豪华电动汽车的首批交付。据悉,该公司早些时候计划在今年第四季2025-07-06
- 新浪财经公众号 24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注sinafinance)2025-07-06
最新评论