快手推出可灵2.0视频生成模型和可图2.0图像生成模型

2025年4月15日,快手正式发布旗下人工智能大模型“可灵AI”的2.0版本,推出可灵2.0视频生成模型可图2.0图像生成模型,标志着其在AIGC(生成式人工智能)领域的技术突破和全球化布局进入新阶段。以下从技术升级、核心功能、行业影响等方面展开详细分析:

一、技术升级:动态质量、语义响应、画面美学全球领先

可灵2.0视频生成模型

  1. 动态质量突破
    可灵2.0在复杂动作的物理模拟和运动逻辑上实现质的飞跃。例如,在生成“滑板少年高速滑行”场景时,模型通过优化时序建模和运动幅度调校,避免了传统模型常见的“速度不均衡”或“动作失真”问题,动态流畅度提升300%。官方数据显示,其文生视频能力对比谷歌Veo2的胜负比达205%,对比OpenAI Sora的胜负比高达367%,在文字相关性、画面质量、动态质量等核心指标上显著超越海外竞品。
  2. 语义响应能力提升
    模型通过强化学习技术优化了对复杂指令的理解,支持运镜术语(如“固定镜头”“跟拍”)、情感表达(如“愤怒”“哭泣”)和场景变化(如“晨光到暮色”)的精准生成。例如,用户输入“女孩从静坐在公园长椅到慢慢走出画面,天空色彩从粉橙渐变为紫红”,可灵2.0能稳定生成长达10秒的连贯视频,而旧版本在后半段出现镜头失控。
  3. 画面美学对标好莱坞
    可灵2.0采用电影级光影渲染技术,支持HDR色彩、景深虚化等效果,生成的视频画面质感媲美专业影视制作。例如,在生成“夕阳下的湖面波光粼粼”场景时,模型能精准模拟光线折射和水面动态,细节丰富度提升40%。

可图2.0图像生成模型

  1. 指令遵循与风格化增强
    可图2.0支持60多种艺术风格转绘,包括吉卜力动画、油画、纸雕等,同时能精准保留原图语义内容。例如,用户上传一张现代都市照片并输入“赛博朋克风格”,模型可一键生成未来感十足的城市景观,而人物和建筑结构保持不变。
  2. 多模态可控编辑
    新增局部重绘和扩图功能,用户可对图片的特定区域进行修改(如将机器狗替换为柯基),或扩展画面边界以适配不同尺寸需求。例如,一张风景照片可通过扩图功能无缝延伸为全景图,边缘过渡自然。
  3. 电影级质感提升
    在生成“法国复古电影场景”时,可图2.0能准确还原自然光线、暖色调和人物情绪,甚至模拟胶片颗粒感,生成的图像在知乎“AI识别眼力赛”中被误认为真实照片。

二、交互革命:多模态视觉语言(MVL)重构创作逻辑

可灵AI在2.0版本中推出全新交互理念Multi-modal Visual Language(MVL),打破文字描述的局限性:

  • 输入方式:用户可结合文本、图片、视频片段、声音甚至运动轨迹等多模态信息生成内容。例如,上传一段舞蹈视频片段并输入“将动作转换为机械舞风格”,模型可生成符合要求的新视频。
  • 编辑功能:基于MVL的多模态视频编辑支持对生成内容进行元素替换、删除或增加。例如,在一段森林探险视频中,用户可通过上传图片将背景替换为沙漠,同时保留人物动作。

三、行业影响:从工具到基础设施的跨越

  1. C端创作普惠化
    可灵AI已累计生成1.68亿个视频和3.44亿张图片,全球用户突破2200万,月活用户量在10个月内增长25倍。普通用户可通过简单操作生成高质量内容,例如用“多模态编辑”功能将宠物照片转化为动画短片。
  2. B端场景深度渗透
    快手与小米、蓝色光标、AWS中国等数千家企业合作,将可灵API应用于广告营销、影视制作、游戏开发等领域。例如,二次元社区“狸谱”接入可灵AI后,推出“动态LIVE”功能,实现“图-影-音”快速创作,春节期间相关内容引发60万用户转播。
  3. 技术生态构建
    快手宣布启动“可灵AI NextGen新影像创投计划”,投入千万资金扶持全球创作者,并计划将用户生成的AI短片投放至上海、东京、巴黎等地的广告大屏,推动AI创作从工具向内容生态升级。

已发布

分类

,

来自

标签:

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注