搜狗9
关闭广告

边打字边出片,交互式生成长视频!英伟达联合MIT开源新SOTA

新智元153人阅读


新智元报道

编辑:LRST

【新智元导读】AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。

你还在为拍视频头疼吗?

想象一下你正在写一个故事,主角从城市街头一路打到未来太空,剧情越来越精彩,突然你灵光一闪——

「如果他这时候变身成反派,故事会不会更炸?」

以前,你得重新写剧本、找素材、剪辑、渲染……

现在,你只需要打一句话,AI实时生成新剧情,而且画面连贯、节奏流畅,边想边出片,像电影一样!

近日,NVIDIA联合MIT等机构重磅推出LongLive,把交互式视频生成性能干到SOTA,最长实现4分钟,可以实时交互式长视频生成。


项目地址:https://nvlabs.github.io/LongLive/

论文链接:https://arxiv.org/abs/2509.22622

项目主页:https://nvlabs.github.io/LongLive/

视频1:交互式视频生成结果展示

LongLive的惊艳不止于实时交互,别家模型「跑长跑就掉鞋」,我们把终点线直接拉到4分钟——240秒一镜到底,人物不崩、剧情不跳、镜头不晃。

视频2:和其他模型在长视频生成上的视觉对比。LongLive生成速度快的同时,还保持了视觉一致性和语义上的连贯

对比Sora2,由于Sora2每次只能生成10秒视频,Sora2借助GPT-5对输入进行了优化,尽可能地增加背景和上下文信息,来提示Sora2生成的连贯性。

视频3:Sora2与LongLive在长视频生成上的对比。Sora2在视频质感、运镜以及物理规律模拟等方面非常强大,但难免会出现突变和不一致。LongLive连续性好且生成速度快

VBench-Long权威测评显示,LongLive在长视频赛道拿下84.87总分,领先同量级选手近4分;背景一致性94.8、主角一致性94.0,全程零闪变,比SkyReels-V2快了41倍。


表1:LongLive和其他模型在长视频生成上的User Study对比

回到日常短视频(15-30秒)场景,一样「稳又快」:20.7帧/秒生成速度,比播放速度还快;VBench短片段评分86.97,视觉效果依旧SOTA。


表2:LongLive在VBench 短视频评测榜单上的性能比较

一句话,无论15秒爆款还是240分钟大片,LongLive都给你影院级稳感和丝滑产出

现在,很多扩散模型的做法由于双向注意力机制导致长时域生成过慢。而另一些则是「把一段视频一段视频分别生成然后拼起来」,所以越长越崩,人物形象完全错误,还有一些方法由于训练阶段使用短视频,推理阶段则推长视频导致训推不一致。

总结为:

  • 不用KV-cache,时间太慢并且形象错乱。

  • 使用KV-cache,实时交互困难。

  • 训不动长视频,推理则错误累计。


而LongLive完美解决这些痛点,一个真正面向长视频生成交互式的训练和推理算法。滚动式窗口支持长视频训练,单张GPU实现240s实时交互生成。

视频4:240s长视频生成效果

LongLive三板斧

LongLive的核心秘诀是「三把钥匙」,专门解决「长、顺、快」不可能三角:

长跑钥匙——Streaming Long Tuning

专为「长度」而生:训练时就让模型自己跑完240秒,边生成边学习,像陪练一样陪它冲过终点,从此不再「train-short-test-long」,越长越稳。


图2:流式长视频微调流程图。

剧情钥匙——KV-Recache

换剧情时,旧画面不丢,新指令立刻生效。就像导演现场改剧本,演员自然接戏,不会「出戏」或「重来」。


图3:不同策略对比来看,LongLive提出的KV re-cahce完美解决所有痛点

时间锚点和聚光灯注意力——Frame Sink和Short-Window

把开头几帧永久「钉」在记忆里,后面无论怎么拍,人物长相、场景风格都不会跑。相当于给整部片上了「定妆锁」。


图4:LongLive提出的sink策略保持风格一致

只看最近关键几帧,算力减半,画面反而更稳。就像摄影师只追焦主角,背景再乱也不影响镜头清晰度。


图5:LongLive提出的Shift Window策略极致的加速生成和降低算力消耗

三招齐下,才能让你「边聊边拍」240 秒依旧不崩、不跳、不重来,这才是 LongLive敢把「交互式长视频」做成「打字速度」的大秘诀。

LongLive把「写一句话」变成「拍一部大片」,长视频一镜到底、随时改戏、立等可取——从此,长视频不再是专业团队的专利,而是每个人随手可得的创意游乐场。

真正的交互式视觉时代已悄然开启,AI的每个灵感都值得被实时看见,被长久记住。

参考资料:

https://arxiv.org/abs/2509.22622

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

潘玮柏45岁官宣减肥,承诺退出美食界

仙味少女心 浏览 281

李湘晒女儿近照 王诗龄穿定制款公主裙

娱絮 浏览 12872

为成为世界工厂,印度修改地方劳动法:允许两班倒,放宽女性夜间加班规定

时代周报 浏览 13906

刘慈欣自曝用ChatGPT写发言稿:写得还不错

IT之家 浏览 16278

这才是中年女性的美:裙身过膝,裤露脚踝

虎哥说衣不二 浏览 13973

媒体:丢大人了 特朗普在航母上演讲巨幅海报后有问题

枢密院十号 浏览 1264

近3个月后官方宣布美国高官访华 学者:时机比较微妙

直新闻 浏览 68124

特斯拉"失控"进展:上海鉴定机构已到潮州 将现场鉴定

趣看热点 浏览 52541

降入20万价格区间 曝廉价版特斯拉即将国产

车质网 浏览 224

紫光集团原董事长赵伟国被移送检察机关审查起诉

界面新闻 浏览 14382

泽连斯基将访问土耳其 与埃尔多安会谈

参考消息 浏览 13407

万亿美元豪赌,Open AI创始人:泡沫化的故事很诱人

21世纪经济报道 浏览 129

南部战区:中方参演部队已从军港出征

政知新媒体 浏览 267

国家市场监管总局:积极推动《反不正当竞争法》加快修订

中国网 浏览 16037

滕哈格获曼联前所未有支持,穆帅范加尔相同要求被拒!新宠将续约

罗米的曼联博客 浏览 13616

口碑爆棚,票房扑惨,最争议的大片来了

独立鱼 浏览 61

苏纳克和泽连斯基签署《联合声明》 泽连斯基表态

央视新闻客户端 浏览 53104

ChatGPT“超级大牛股”回应了!

中国基金报 浏览 11471

俞飞鸿会穿搭,还会“凹”造型

猴娱儿 浏览 14275

天舟五号货运飞船完成与空间站组合体再次交会对接

人民资讯 浏览 15631

京东再出重拳!联手长安设计开发新能源无人智能化车型以及城市智慧物流

封面新闻 浏览 92
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
Copyright © 2020-2022,版权所有 qukanredian.com
沪ICP备20002587号-1