
当你对下一步感到渺茫时,AI 的谜底不错不再只是笔墨,而是一段为你定制的视频。

你是否曾有过这么的资格——
看着网上「如何打温莎结」的图文教程,手里的领带却依然不听使唤;或者看完一段电影预报片,心里苟且想到:「下一秒,主角会作念出什么惊东谈主的举动?」
传统的 AI 模子可能会给你一段笔墨描写算作谜底,但「听到」和「看到」之间的差距,偶而等于学不会和秒懂之间的天堑。
今天,来自快手可灵团队和香港城市大学的经营者们,正在尝试冲突这一边界。他们漠视了一个全新的任务范式——「视频算作谜底」,并发布了相应模子VANS。
这意味着,AI 不仅能「想」到接下来会发生什么,还能顺利「秀」给你看!
从「告诉你」到「作念给你看」:视频生成的新范式
现在,坚决的语言模子照旧潜入九行八业,但视频生成技巧却大多局限于文娱和试验创作。
这项经营的动机正在于此:视频天生就承载着语言难以精确描写的动态物理天下信息。
联想一下,仅用笔墨教东谈主打领带有多用功?而一段视频演示则一目了然。
此前,学术界关于「下一事件预计」任务的经营,谜底体式耐久是笔墨。
而这项职责则首创性地漠视了 Video-Next Event Prediction 任务,要求模子顺利生成一段动态视频算作修起。
这一从「讲明」到「展示」的退换,解锁了更直不雅、更个性化的信息传递形状。

不外,想让 AI 生成一个「对的」视频,而不单是是一个「面子的」视频,挑战纷乱。这要求模子必须:
1、相识输入的视频和问题。
2、推理出合适逻辑或因果关系的下一事件。
3、生成一个在视觉上连贯、且在语义上诚恳于推理恶果的视频。
一个简便的想法是「活水线」功课:先让一个视觉语言模子「想想家」写出笔墨描写,再让一个视频生成模子「艺术家」字据笔墨来创作。
但问题来了——「想想家」写出的描写可能语言上完整,但「艺术家」根柢画不出来。
比如,「想想家」说「优雅地打一个复杂的领带结」,但「艺术家」缺少关连素材,最终身成的试验可能怪形状。
为了不休这个「语义到视觉的错位」难题,经营者们漠视了 VANS 模子。

VANS 模子由一个视觉语言模子和一个视频扩散模子组成,其中枢立异在于通过集中分组相对战略优化算法对两者进行协同优化,而非简便的串接。
基本职责经由分两步。
1、感知与推理:输入视频领先被编码为视觉特征,与问题文本一同输入 VLM。VLM 的中枢任务是进行想维链推理,最终身成一个描写下一事件的文本标题。
2、条目化生成:该文本标题与输入视频的低层级视觉特征(如通过 VAE 编码的帧序列)共同算作条目,输入 VDM,以生成既合适语义又保合手视觉连贯性的谜底视频。
而 VANS 模子中枢,是一种名为 Joint-GRPO 的强化学习战略。

传统的分辨优化无法不休 VLM 与 VDM 之间的「语义 - 视觉错配」问题。
Joint-GRPO 通过一个两阶段的强化学习经由,像一个「总导演」一样,对两个模子进行集中调教。
第一阶段:优化 VLM,使其成为「视觉友好型编剧」
该阶段的目的,是让 VLM 生成的标题不仅准确,还要容易被 VDM 高质料地可视化。
为此,需要冻结 VDM 的参数,仅对 VLM 进行优化。关于 VLM 生成的每一个标题,都用现时的 VDM 将其生成视频,然后狡计一个集中奖励:
1、文本奖励:评估生成标题与信得过标题在语义上的相似度。
2、视频奖励:评估生成视频与信得过视频在视觉上的相似度。
通过这个集中奖励的反向传播,VLM 学会了如何「换位想考」,其生成的标题会主动藏匿那些难以可视化或容易导致歧义的语言,变得愈加具体和可施行。
第二阶段:优化 VDM,使其成为「精确的视觉施行者」
该阶段目的,则是让 VDM 生成的视频不仅能诚恳反馈标题试验,还能与输入视频的高下文保合手高度一致。
为此,需要先冻结第一阶段优化好的 VLM,将其算作「锚定模子」来生成高质料的参考标题。
随后,对 VDM 进行优化,其奖励函数包括:
1、视频奖励:确保生成视频自己的视觉质料和畅通度。
2、语义对都奖励:强制要求生成视频的试验与 VLM 提供的锚定标题在语义上高度匹配。
这能注意 VDM「偷懒」(举例简便地复制输入视频或生成无关试验),确保它严格地将文本描写中的动态事件改动为视觉现实。
简便来说,你不错把它联想成一位顶尖的导演体系:
「想想家」看重研读脚本,构想下一幕的情节;「艺术家」看重将构想可视化,拍成影片。
Joint-GRPO 等于那位导演,他不仅会评判「想想家」的构想是否合理,还会看「艺术家」的成片是否精确呈现了构想。
通过这种集中的、双向的反馈,导演继续地调教两位群众,让他们谐和得越来越阐明。
最终,「想想家」学会写出更容易被可视化、且更准确的描写;而「艺术家」则学会了更诚恳地字据描写和驱动画面来生成视频。
两者从孤独的个体,和会成了一个高效的创作团队。
两大杀手级运用,让明天垂手而得
这项技巧毫不单是是实验室的玩物,它指向了两个极具后劲的运用目的:
方法性教悔:你的随身活命助手

无论是烹调、折纸、修理家电,照旧打领带,当你卡在某个要领时,只需拍下你现时的程度并发问:「下一步该如何作念?」VANS 不仅能推断出你的下一步动作,还能生成一段从你现时状况脱手的、无缝贯串的教悔视频。
它看到了你锅里正在炒的菜、你手里半制品的领带,因此给出的指引是定制化的,而不是千人一面的教科书要领。
多明天预计:开启明天的无尽可能

这大略是更富联想力的少许。给定一段视频,你不错漠视各式「如若」式的问题:
「如若这是在一部夸张的笑剧里,她接下来会若何?」
「如若她吃的不是烫的食品而是超辣食品,会有什么反应?」
VANS 能够基于不同的假定,推理并生成出多种合理的明天视频。这为创意写稿、互动文娱、甚而自动驾驶的极点情况模拟,掀开了无尽的可能性。
实验恶果
全面的实验评估标明,VANS 模子在方法性教悔与明天预计两大基准测试中,其性能全面高出了现存的结伙模子(如 Omni-Video 等)及级 pipeline 基线。
定量分析:重要策画全面跨越
在测度事件预计准确性的中枢策画 ROUGE-L 上,VANS 比较最强的结伙模子取得了近三倍的性能进步。
在测度生成视频语义诚恳度的 CLIP-T 策画上,VANS 相通大幅跨越。
这充分评释,通过 Joint-GRPO 已毕的专科化单过问协同优化,有用不休了结伙模子在「相识」与「生成」才气上的量度逆境,已毕了两者性能的同步飞跃。
同期,在测度视频质料的 FVD 策画上,VANS 也达到了最低(最佳)的分数,阐明了其生成视频具有更高的视觉传神度与畅通性。

定性分析:细粒度语义 - 视觉对都
定性恶果天真地展现了 VANS 在细粒度语义相识与可视化上的上风。
关于一个烹调任务——「展示烤帕尔玛奶酪鸡的下一步」,结伙模子及级联基线频频产生语义或视觉上的豪恣。
举例,它们可能豪恣地预计要领(如「倒入酱汁」而非「撒芝士」),或即使预计对了「加入芝士」这一动作,在可视化时也可能施展为「倾倒液状芝士」或「搁置整片芝士」,与信得过烹调场景中「撒下碎芝士」的细粒度动作不符。
比较之下,团队的 VANS 模子则顺利展现了其精确的推理与对都才气。
它不仅正确推断出「撒上 grated cheese(碎芝士)」这一重要要领,况且生成的视频精确地呈现了一只手合手容器、另一只手进行「撒」这个动作的传神画面。
这一案例评释,Joint-GRPO 顺利地将 VLM 的语义推理与 VDM 的视觉生成在细粒度动作层面进行了对都,使得模子不再是生成糊涂的「见识视频」,而是精确的「操作指南」。

结语
这项名为Video-as-Answer的经营,将视频生成技巧从文娱的范畴推向了更具实用价值的广博寰宇。
通过让 AI 学会「用视频话语」,团队取得了一种更坚决、更直不雅的与机器和学问交互的形状。
下一次当你对下一步感到渺茫时,你收到的谜底,大略等于一段为你量身定制的明天。
Project Page:
https://video-as-answer.github.io/
Github:
https://github.com/KlingTeam/VANS
arXiv:
https://arxiv.org/abs/2511.16669
一键三连「点赞」「转发」「小心心」
接待在驳斥区留住你的想法!
— 完 —
咱们正在招聘别称眼疾手快、柔顺 AI 的学术剪辑实习生 � �
感趣味的小伙伴接待柔顺 � � 了解细目

� � 点亮星标 � �
科技前沿进展逐日见炒股配资注册_股票杠杆官方开户
炒股配资注册_股票杠杆官方开户提示:本文来自互联网,不代表本网站观点。