首页 > 解决方案

米乐m6:视频AI卷向5分钟:全量开源一次生成正式告别“盲盒抽卡”

发布时间:2026-06-10 03:33:06   来源:米乐m6

米乐m6平台:

  过去一年,视频生成赛道动作频频。谷歌推出 Veo 系列,并在今年 I/O 大会发布新一代多模态视频生成与编辑模型 Gemini Omni Flash;字节的 Seedance2.0、快手可灵、阿里的欢乐马也一次又一次,打破了我们的预期。

  各家模型生成的画面一个比一个好看,只可惜时长大多不超过 20 秒。一旦把视频拉长到分钟级,麻烦就来了,要么是同一角色跨镜头后面目全非,要么是说着说着声音变了或没了;想改一个镜头,整条视频还得重新生成……

  关键是,两分半钟里涵盖十余个镜头,近景对话、远景追逐、公路全景交替出现,场景间过渡处理得很顺滑,且角色形象能从始至终保持一致,音画也同步自然。这全都是一次性生成的。

  这个视频,正是出自京东近期开源的长音视频生成框架 JoyAI-Echo。

  它能够实现长达五分钟的跨镜头「音视频双重一致」,保证角色的面部特征和说话音色不变。

  同时告别了过去「改一个镜头要重跑整条视频」的盲盒式生成,我们大家可以直接通过自然语言指挥 AI 进行局部修改,实现非线性剪辑与局部重绘。

  此外,它支持流式延迟约束下的两档实时超分,最高可直接输出 1472×2560 分辨率的高清视频与精细化音频,满足专业级内容生产门槛。

  从视频中我们大家可以看到, 模型精准还原了黑暗写实的哥谭氛围,蝙蝠侠从雨中屋顶的特写对话,到俯冲跳跃、巷战、摩托追逐和仓库对峙,场景经常性更换,但角色外形、服装和环境风格始终统一,没再次出现常见的风格漂移。

  湿滑地面和动态模糊效果的处理,增强了动作戏的真实张力,雨声、脚步声、引擎轰鸣与对话也各占其位。

  穿牛仔的年轻男子出现在各种场景,开场手持杆的自然晃动与行走步伐匹配自然,动作流畅,后续画面加入不同出镜者也没有穿帮。

  151 秒的视频画面中,男子面部轮廓、发型、表情与服装纹理保持高度一致,车辆、行人和室内陈设等环境元素在不同视角间也过渡自然。

  这样的表现,已经把 AI 视频生成从 demo 和搞笑视频生成器推向了工业级生产工具的范畴。

  过往的视频生成技术受限于严重的时空上下文遗忘和错误累积,很难用到故事创作、数字人助手或实时内容生成等实际场景中。而 JoyAI-Echo 展现出的跨镜头「音画双重一致性」,证明了 AI 已经具备在长时序、复杂多视角下处理长篇角色驱动型叙事的能力,让 AI 真正有了讲好一个完整长故事的可能。

  JoyAI-Echo 也重塑了创作者与 AI 之间的协作范式。由于能直接输出具备语义意义和高准确率的台词对话,视频创作告别了「输入 Prompt、拼运气抽卡」的被动模式,在智能体和局部重绘机制的辅助下,视频生成演进成了人机动态协作的非线性剪辑的范式。

  创作者现在不需要再为某一个穿帮镜头而将整条长视频推倒重来,极大地降低了改稿成本,AI 能够无缝地嵌入到影视前期预演和动态分镜的工作流中。

  从技术报告中我们大家可以看出,JoyAI-Echo 在底层架构、数据清洗、多模态对齐及推理加速上有不少创新之处。

  该框架通过两层互补的技术矩阵,攻克了长视频生成中长时一致性、高渲染延迟和低交互灵活性的行业难题。

  过去,大模型拍视频容易翻车,很大程度上是被喂进嘴里的数据给误导了。传统 AI 视频训练高度依赖优化单镜头质量的平铺式数据集,这就导致模型只学过短时间内画面怎么画才好看,但没有理解过同一个角色在不同时空、不同光影和服装下的视觉连贯性。

  为此,JoyAI-Echo 构建了一套全新的身份向心型视频语料库(Identity-Centric Video Corpus),该流水线从电影、电视剧和长网页视频中,精准提取出了超过 100 万个独特的角色身份原型,再经过全局原型与时空去重,多轴质量过滤与流追踪,紧凑型音视频联合标注,为模型生成内容的一致性提供了保障。

  在模型架构上,JoyAI-Echo 放弃了直接的端到端生成,转而采用基于渐进演化记忆库(Evolving Memory Bank)的迭代分镜合成机制。其核心技术在于设计了「槽位配对(Slot-Paired)」音视频记忆交互机制。

  它相当于给每个角色的脸和声音进行了直接绑定。其中,每一个历史事件都包含对齐的视觉和音频记忆标记。在生成阶段,目标视频和音频标记由两个扩散分支做处理,而记忆标记仅作为条件上下文使用,不参与损失计算。在音频分支中,「音频 - 记忆」自注意力掩码控制着目标音频标记与音频记忆标记之间特定层级的交互。

  在跨模态模块中的「槽位感知」跨注意力掩码,强制实现了配对的视觉与音频记忆槽位之间的一一对应交互,从而防止了跨事件的人脸与声音混淆。

  由此,该模型在仅预测当前视频和音频目标的同时,依然能够保持长程的视觉身份一致性及说话人音色的一致性。

  长上下文损失重定向与梯度放大(控口型):由于长上下文会让语音驱动面部变得更困难,在基础训练阶段,视频损失权重会根据当前的记忆槽位长度进行动态调大,防止口型同步退化。同时,音频到视频的交叉模态梯度在 forward 不变的前提下被放大(二阶段放大至 6 倍),显著强化台词对嘴型的控制力。

  多分辨率渐进式 SFT(提画质):将单镜头高清样本与概率性采样的多镜头语料融合 fine-tune。采用 480p 到 720p 渐进式分辨率调度,在增强单镜头与长视频画面质感的同时,完美继承了多镜头一致性能力。

  OmniNFT 跨模态对齐强化(RLHF 对齐):针对多模态强化学习中「音画奖励不一致」、「视频梯度污染浅层音频网络」以及「对齐贡献度分配不均」三大瓶颈,JoyAI-Echo 引入了 OmniNFT 框架。它实现了模态特异性优势路由(独立分发视觉、音频、同步奖励)、层级梯度手术(在浅层音频网络断开视觉梯度,在深层保留交互),并利用视听交叉注意力图谱作为内在代理,对发声关键区域实施局部损失重绘。

  双向与因果 DMD 蒸馏(加速):为了彻底甩掉生成步骤冗长的硬件包袱,团队采用分布匹配蒸馏(DMD)将多步双向生成器压缩为 8 步学生模型,且在训练期间平衡视听损失系数,通过 EMA 优化器动量缓冲平滑音频 gradient 噪声。需要我们来关注的是,DMD 训练中加入了记忆输入降级模拟(Degradation),故意模拟长序列滚出时自生成历史产生的漂移,使模型对误差累积具备极强的鲁棒性。该架构还能自然延伸至块状因果流式生成(Causal Streaming Generation),实现从全上下文去噪到因果流式生成的无缝过渡。

  在生成模型之上,JoyAI-Echo 又加入了两个让工业落地成为可能的模块。

  智能导演智能体(Director Agent)传统的视频工具是「一次性输入、盲盒式抽卡」。而该智能体引入了「工具与技能抽象」工作空间,能把用户的模糊需求自动细化为包含角色卡、场景卡、分镜时长的结构化剧本。它利用 KOK(关键镜头的关键帧)策略提取动态记忆条目。创作者如果对某个镜头不满意,只需用大白话在评审阶段提出修改意见,智能体就会自动定位并针对该镜头进行局部重绘和记忆更新,整条长视频不需要重新生成。

  导演智能体(Director Agent)工作流概览。该智能体将长篇视频的生成过程划分为规划、生成和评审三个阶段,支持利用局部反馈进行非线性修改,再通过单步超分网络进行高画质输出。

  联合单步超分架构(Unified One-Step SR)则将空间放大的算力包袱从自回归流程中彻底解耦。依托超 87 万顶级视听语料,自研了 CondSRPatchifyProj 轻量级模块。它仅需单个扩散流前向步骤,就能将 720p 潜在空间直接扩展至 1152×1920(1K) 或 1472×2560(2K)的高清视听 Token 空间,在维持流式极低延迟的同时,大幅拉高了成片的细节美学。

  通过在包含 100 个剧本故事、3000 个顺序镜头(跨动漫、写实风格、含指定 IP 与原创角色)的超长生成基准评测集上来测试,JoyAI-Echo 的各项指标均位列前茅:

  可见,JoyAI-Echo 在视听一致性方面保持领先,台词准确率达到了 0.8646,在最后成片的盲测偏好与短视频能力上都非常优秀。

  JoyAI-Echo 的出现像是一个信号:长视频生成,终于从「能用」迈向了「好用」。

  在此之前,AI 长视频生成的瓶颈,一直卡在时间维度上的连贯性,也就是一个角色能不能在五分钟里始终是同一张脸、同一把声音,一段内容能不能像真实拍摄那样经得起反复打磨和局部修改。这样一些问题,决定了 AI 视频能否真正进入专业内容生产的工作流,还是继续停留在演示层面。

  JoyAI-Echo 用跨模态记忆库、记忆驱动后训练和 Director Agent 三套机制,给出了解决方案。

  更值得关注的是开源这个选择。代码与权重的全量开放,意味着这套解决方案不会锁死在某一个企业的产品边界里。开发的人能在此基础上针对垂直行业进行二次开发,内容创作者可以将其接入自己的工具链,研究社区可以在公开的技术底座上继续推进。这种开放本身,往往比模型本身更具长远价值,它把一项技术突破,变成了整个产业可以一同搭建的基础设施。

  从谷歌、字节、快手到阿里、京东,视频生成赛道的竞争从未停止,拼完画质拼时长,拼完时长拼一致性,下一站,很可能是谁能先把人机协作式创作这件事做通。

  JoyAI-Echo 的 Director Agent,正是在这个方向上迈出的一步。当我们大家可以用对话的方式指挥 AI 修改某一个镜头,视频创作的门槛就不再是工具的使用难度,考验的是创作者自己的想象力。