快手推出可灵2.0视频生成模型和可图2.0图像生成模型

2025年4月15日，快手正式发布旗下人工智能大模型“可灵AI”的2.0版本，推出可灵2.0视频生成模型和可图2.0图像生成模型，标志着其在AIGC（生成式人工智能）领域的技术突破和全球化布局进入新阶段。以下从技术升级、核心功能、行业影响等方面展开详细分析：

动态质量突破
可灵2.0在复杂动作的物理模拟和运动逻辑上实现质的飞跃。例如，在生成“滑板少年高速滑行”场景时，模型通过优化时序建模和运动幅度调校，避免了传统模型常见的“速度不均衡”或“动作失真”问题，动态流畅度提升300%。官方数据显示，其文生视频能力对比谷歌Veo2的胜负比达205%，对比OpenAI Sora的胜负比高达367%，在文字相关性、画面质量、动态质量等核心指标上显著超越海外竞品。
语义响应能力提升
模型通过强化学习技术优化了对复杂指令的理解，支持运镜术语（如“固定镜头”“跟拍”）、情感表达（如“愤怒”“哭泣”）和场景变化（如“晨光到暮色”）的精准生成。例如，用户输入“女孩从静坐在公园长椅到慢慢走出画面，天空色彩从粉橙渐变为紫红”，可灵2.0能稳定生成长达10秒的连贯视频，而旧版本在后半段出现镜头失控。
画面美学对标好莱坞
可灵2.0采用电影级光影渲染技术，支持HDR色彩、景深虚化等效果，生成的视频画面质感媲美专业影视制作。例如，在生成“夕阳下的湖面波光粼粼”场景时，模型能精准模拟光线折射和水面动态，细节丰富度提升40%。

指令遵循与风格化增强
可图2.0支持60多种艺术风格转绘，包括吉卜力动画、油画、纸雕等，同时能精准保留原图语义内容。例如，用户上传一张现代都市照片并输入“赛博朋克风格”，模型可一键生成未来感十足的城市景观，而人物和建筑结构保持不变。
多模态可控编辑
新增局部重绘和扩图功能，用户可对图片的特定区域进行修改（如将机器狗替换为柯基），或扩展画面边界以适配不同尺寸需求。例如，一张风景照片可通过扩图功能无缝延伸为全景图，边缘过渡自然。
电影级质感提升
在生成“法国复古电影场景”时，可图2.0能准确还原自然光线、暖色调和人物情绪，甚至模拟胶片颗粒感，生成的图像在知乎“AI识别眼力赛”中被误认为真实照片。

可灵AI在2.0版本中推出全新交互理念Multi-modal Visual Language（MVL），打破文字描述的局限性：

输入方式：用户可结合文本、图片、视频片段、声音甚至运动轨迹等多模态信息生成内容。例如，上传一段舞蹈视频片段并输入“将动作转换为机械舞风格”，模型可生成符合要求的新视频。
编辑功能：基于MVL的多模态视频编辑支持对生成内容进行元素替换、删除或增加。例如，在一段森林探险视频中，用户可通过上传图片将背景替换为沙漠，同时保留人物动作。

C端创作普惠化
可灵AI已累计生成1.68亿个视频和3.44亿张图片，全球用户突破2200万，月活用户量在10个月内增长25倍。普通用户可通过简单操作生成高质量内容，例如用“多模态编辑”功能将宠物照片转化为动画短片。
B端场景深度渗透
快手与小米、蓝色光标、AWS中国等数千家企业合作，将可灵API应用于广告营销、影视制作、游戏开发等领域。例如，二次元社区“狸谱”接入可灵AI后，推出“动态LIVE”功能，实现“图-影-音”快速创作，春节期间相关内容引发60万用户转播。
技术生态构建
快手宣布启动“可灵AI NextGen新影像创投计划”，投入千万资金扶持全球创作者，并计划将用户生成的AI短片投放至上海、东京、巴黎等地的广告大屏，推动AI创作从工具向内容生态升级。

什么都要AI