
2025年5月16日,腾讯正式发布了业内首个毫秒级响应的实时生图大模型——混元图像2.0(Hunyuan Image2.0),目前已在腾讯混元官方网站上线,目前需申请加入等候名单。以下是关于该模型的详细介绍:
- 核心特点
- 实时生图:混元图像2.0依托超高压缩倍率的图像编解码器及全新扩散架构,参数量较前代提升一个数量级,生图速度显著快于行业领先模型。在同类商业产品每张图推理速度需要5到10秒的情况下,它可实现毫秒级响应,支持用户一边打字或说话一边出图,改变了传统“抽卡—等待—抽卡”的方式,让用户能够即时看到生成的图像,带来了全新的交互体验。
- 超写实画质:通过强化学习等算法以及引入大量人类美学知识对齐,该模型生成的图像可有效避免AIGC图像中的“AI味”,真实感强、细节丰富、可用性高。在图像生成领域专门测试模型复杂文本指令理解与生成能力的评估基准GenEval上,其准确率超过95%,远超其他同类模型。
- 技术架构与创新点
- 超高压缩图像编解码器:大幅降低了图像的编码序列长度,通过动态掩码技术(如FLIP)和信息瓶颈层优化,显著提升了生成速度,同时对信息瓶颈层进行针对性优化并强化对抗训练,提高了细节生成能力,降低了生图时耗。
- 全新扩散架构:引入了自研的对抗蒸馏方案和隐空间一致性模型,将去噪轨迹上的任意点直接映射到轨迹生成样本,实现了1-4步迭代生成,大幅减少了计算时间,并且更适合中文语境和本土化需求。
- 多模态大语言模型文本编码器:适配多模态大语言模型(MLLM)作为文本编码器,相较于CLIP、T5等传统架构中的文本编码器的浅层语义解析,MLLM通过海量跨模态预训练和更大参数量的模型架构形成的深度表征能力,可以更好地对文本进行解构编码,有更好的语义匹配能力。
- 慢思考reward model:采用慢思考的reward model,通过通用后训练与美学后训练,有效提升图片生成的真实感,更符合现实需求。
- 功能亮点
- 实时绘画板:发布了实时绘画板功能,用户在绘制线稿或调整参数时,预览区可以同步生成上色效果,打破了传统“绘制-等待-修改”的线性流程,可助力专业设计师的创作。此外,实时绘画板还支持多图融合功能,用户可以将多个草图叠加至同一画布自由创作,AI会自动协调透视与光影,按照提示词内容生成融合图像。
- 图生图功能:支持“参考主体”和“参考轮廓”两种模式,用户可以自由选择参考强度,上传图片后,能按照指令对图像进行修改,如改变物体的颜色、添加元素等,还支持一键为简笔画上色,以及“画面优化”功能,自动改进构图、景深和光影效果。
- 语音输入:可以通过语音直接输入提示词,系统将语音自动转写为文字,并在识别后即时生成图像,适用于直播讲解、移动创作等场景。
发表回复