字节跳动推出「DreamActor-M1」新项目

字节跳动推出的「DreamActor-M1」是一项基于人工智能的视频生成技术,旨在将静态人物图像转化为超逼真的动态视频。该项目结合了先进的扩散变换器(DiT)架构与混合控制机制,在动画生成的质量、控制精度和场景适应性上实现了突破性进展。以下是其核心功能与技术特点的详细介绍:


一、核心功能与创新

  1. 静态图像动态化
    DreamActor-M1仅需一张人物参考图像(如肖像或全身照),即可生成与驱动视频或音频同步的动画。例如,输入一张自拍照和一段舞蹈视频,模型能自动调整骨骼动作和表情,生成人物跳舞的逼真视频。
  2. 多模态驱动支持
    视频驱动:通过分析驾驶视频提取面部表情、头部姿势(3D球体模型)和身体骨骼动作,并适配到参考图像上。
    音频驱动:支持语音口型同步,可生成多语言对口型动画。
    混合控制:允许独立调整面部、头部和身体动作,例如仅改变笑容而不影响姿势。
  3. 跨尺度生成能力
    模型适应不同分辨率的输入,从特写面部到全身镜头均可处理,且生成质量稳定。例如,既能生成说话时的头部动画,也能处理复杂舞蹈动作的全身视频。

二、关键技术突破

  1. 混合引导系统
    隐式面部编码:提取与身份无关的微表情(如眨眼、嘴唇颤动),避免复制驾驶者特征。
    3D头部球体与骨骼模型:通过彩色球体编码头部旋转角度,骨骼模型调整身体比例,确保动作自然。
    互补外观指导:当参考图像存在遮挡(如背面未显示),模型生成伪参考帧预测缺失细节,维持衣物纹理一致性。
  2. 多尺度与长期一致性
    渐进式训练:分三阶段学习(身体/头部→面部→联合优化),提升复杂动作的生成稳定性。
    多参考协议:检查过去多帧而非仅上一帧,减少长视频中的闪烁或变形问题。
  3. 架构设计
    • 基于MMDiT扩散变换器,融合噪声分支与参考分支,通过交叉注意力机制整合面部表情、姿势和外观特征。
    • 采用3D变分自动编码器(VAE)编码视频片段,实现时空联合建模。

三、性能优势与实测数据

  • 质量指标:在FID(Frechet Inception Distance)、SSIM(结构相似性)等关键指标上优于Animate Anyone、Champ等竞品。例如,身体动画FID达27.27(竞品33.01–40.21)。
  • 长视频稳定性:支持生成30秒(约750帧)连续动作,身份特征保持度达98.7%。
  • 应用场景
    影视制作:用演员定妆照直接生成打斗片段,节省3D建模成本。
    虚拟直播:支持200ms低延迟口型同步,提升虚拟主播表现力。
    短视频创作:用户自拍+模板生成舞蹈视频,内测人均创作5.8个内容。

已发布

分类

来自

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注