腾讯混元图像3.0,真的来了——开源,免费开放使用。
正式介绍一下:混元图像3.0(HunyuanImage 3.0),是首个工业级原生多模态生图模型,参数规模80B,也是目前测评效果最好、参数量最大的开源生图模型,效果可对标业界头部闭源模型。
体验 :访问电脑端腾讯混元官网(https://hunyuan.tencent.com/image)即可体验混元图像3.0,模型也将逐步在元宝app上线。
开源 :模型权重和加速版本已在Github、HuggingFace、ModelScope等开源社区发布,可直接下载并免费使用。
以下是我们极度推荐大家试试混元图像3.0的几个理由:
- 拥有“常识”,并能够利用知识进行推理
语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片
可以解析千字级别的复杂语义,生成长文本文字和小文字
整体图像生成效果业界领先
可能大家已经注意到,我们在模型介绍中着重强调原生多模态,这指的是在技术架构上,通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图片生成等任务。
混元图像3.0是业界首个开源的工业级原生多模态生图模型。
这意味着,混元图像3.0不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
比如,用户只需要输入提示词:“生成一个月全食的四格科普漫画”,模型就可以自主生成完整的月全食科普,无需用户描述逐格内容。
同时,混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的小字和长文本生成,都能较好地实现。
比如输入:“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图 2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。
在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。
再如有复杂文字要求的海报类需求,混元图像3.0也可以很好地生成。海报商品图中,西红柿水珠新鲜饱满、红润欲滴、质感诱人,具备高品质拍摄质感,同时海报中顶部、底部、点缀等各处的文字都能顺利呈现,画面层次清晰,整体配色与布局十分和谐,兼具美观与实用价值。
这张体现有月亮、企鹅和月饼的中秋节创意海报,混元3.0也能很好地完成。
可以看到,混元图像3.0不仅能生成复杂文本、复杂漫画、表情包,还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率,原来可能需要画几个小时的漫画,现在可能只需要几分钟就能实现;同时,没有美术功底和设计经验的内容创作者,也能创作出更丰富、生动的视觉内容。
行业与学界研究者、企业与个人开发者,均可基于混元图像3.0进行应用研发或二次开发,制作相关衍生模型。
在文生图领域,当前学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型,但都是小模型,偏向于学术研究和实验阶段,生图效果也离工业界最优效果有较大差距。
作为原生多模态开源模型,混元图像3.0需要对模型整体架构进行重构,以支持多任务的训练,并实现多任务效果之间的相互促进。
混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果,实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有LLM的世界知识,能够利用世界知识进行推理。
腾讯混元团队透露,混元图像3.0目前的版本仅开放了文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布。
一直以来,腾讯混元在图像生成领域持续深耕,曾发布首个开源中文原生DiT架构图像大模型“混元DiT”、开源原生2K模型“混元图像2.1”,以及业界首个商用级实时生图模型——混元图像2.0。
使用混元图像3.0可能会用到的几个链接:
1、模型体验入口
https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289
2、腾讯混元官网
pc 环境:http://www.hunyuan.tencent.com
3、开源社区
- Github:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0
- ModelScope:https://modelscope.cn/models/Tencent-Hunyuan/HunyuanImage-3.0
此外,为了让大家更好地使用混元图像3.0,官方也准备了一个独家的 【提示词手册】
点击下面腾讯文档链接即可访问:
混元图像3.0提示词手册:https://docs.qq.com/doc/DUVVadmhCdG9qRXBU
最后,以下是测试的一些有意思的case,也分享给大家。
混元图像3.0部分生图案例与提示词
提示词:A wide image taken with a phone of a glass whiteboard, in a room overlooking the Bay Bridge. The field of view shows a woman writing. The handwriting looks natural and a bit messy, and we see the photographer's reflection. The text reads: (left) "Transfer between Modalities: Suppose we directly model p(text, pixels, sound) [equation] with one big autoregressive transformer. Pros: * image generation augmented with vast world knowledge * next-level text rendering * native in-context learning * unified post-training stack Cons: * varying bit-rate across modalities * compute not adaptive" (Right) "Fixes: * model compressed representations * compose autoregressive prior with a powerful decoder" On the bottom right of the board, she draws a diagram: "tokens -> [transformer] -> [diffusion] -> pixels"
提示词:年轻的亚洲女性,皮肤因温暖的光线而闪闪发光,齐肩波浪形头发,超大针织毛衣从肩上滑落,晚上盘腿坐在海滩上的小篝火旁,手上拿一张正在燃烧的报纸,报纸被火烧到一半,深蓝色夜空下的高对比度暖橙色火光,电影胶片纹理,腰部向上拍摄
提示词:主体是一位年轻的东亚女性,具有白皙细腻的皮肤。她的脸型偏鹅蛋脸,五官清秀。一双大而明亮的深棕色眼睛正直接注视着观察者,眼神显得平静而专注。她的眉毛颜色与发色相近,形状自然。鼻子小巧挺拔,嘴唇丰润,涂着淡粉色的唇彩,嘴角微微抿起。她的棕色头发富有光泽,被整齐地中分,并编织成两条粗细均匀的麻花辫,自然地垂落在胸前两侧。每条麻花辫的末端都用一条白色的、带有褶皱的布质发带系成了小巧的蝴蝶结。额前和脸颊旁有一些细碎的刘海和发丝被风轻轻吹动,增添了一丝动感。她穿着一件白色的吊带上衣,材质看起来轻薄透气,可能是棉质或亚麻。上衣的领口和肩带部分装饰有精致的白色蕾丝花边,呈现出波浪形的边缘。她的肩膀裸露在外,皮肤光滑。光线从她的右前方照射过来,在她的脸颊、鼻梁和锁骨处形成了明显的高光,使得面部轮廓更加立体。背景是一片广阔的水域,水面平静,呈现出深邃的蓝色。水域的尽头是模糊的陆地轮廓,可以看到一些深绿色的树木丛生。更远的天空是清澈的淡紫色,暗示着这可能是黄昏或清晨时分。整体色调温暖柔和。
提示词:新中式产品摄影风格,主体为带有 “环保茶” 等雅致文字与简约图案的浅绿色方形茶叶盒,场景设定在充满自然禅意的小景中,地面覆盖质感细腻的翠绿苔藓,搭配造型天然的枯树枝,周围点缀着花瓣柔美、绽放的白色茉莉花;背景是柔和渐变的浅绿色,右上角有模糊竹叶增添层次;色调以清新浅绿、翠绿为主,白色花朵提亮画面,营造出纯净自然的氛围;构图采用平视视角,让茶叶盒呈现出轻盈悬浮于枯树枝上的视觉效果;细节上,苔藓纹理细腻,枯树枝纹路自然,白色花朵清新雅致,整体光线柔和,传递出静谧清新的质感。
提示词:新中式禅意风格的高端香水产品摄影,主体为一瓶方形透明香水瓶(瓶内液体呈暖金色,搭配黑色瓶盖),放置在深棕色立体底座上;场景以深蓝色渐变背景为衬托,搭配造型简约的黑色树枝(带有清晰投影剪影)与三朵盛放的白色玉兰花,花朵具柔美自然质感;风格融合艺术感静物摄影与东方花艺美学;色调采用沉稳深蓝色(背景渐变)、暖金色(瓶内液体)、纯净白色(玉兰花)、深邃黑色(树枝与瓶盖),营造高级静谧氛围;构图为平视中心视角,香水瓶居于画面中下部,黑色树枝与白色玉兰花从右侧及上方延伸环绕,背景带有树枝投影细节,整体光线柔和,突出产品精致感与东方意境。
提示词:一张广告摄影商品广告,主体为一瓶悬浮的番茄沙司,周围是一些新鲜的番茄,红色飞溅而出,形成水花四溅的动态场景;场景设定为简洁的浓郁的红色为主,突出主体;风格写实且富有视觉冲击力;搭配番茄的鲜亮红色与水花的透明质感;采用中心构图,聚焦于番茄沙司瓶和飞溅的番茄;细节上要体现出水花的晶莹剔透以及番茄的新鲜饱满;瓶身带有 “WELL 威尔番茄沙司 净含量 300g” 等文字标识。
提示词:新中式禅意风格高端茶品静物摄影,主体包含浅蓝色 “寻茶” 茶盒(带精致中式文字与烫金纹饰)、天青色陶瓷盖碗(盖与碗、托搭配,釉面温润)、深蓝色釉面花瓶;场景设定为两件新中式深色木质家具(左侧高几、右侧矮几,矮几带有金色金属竖条装饰),背景是红橙色渐变(从上至深红到下至浅橙),且有竹叶的朦胧投影;风格参考东方美学与现代高端静物摄影,营造禅意雅致氛围;色调以红橙色渐变背景为底,搭配浅蓝(茶盒)、天青(盖碗)、深蓝(花瓶)、深棕黑(木质家具)、金色(金属装饰),色彩和谐且富有层次感;构图采用平视视角,元素呈对称式布局(茶盒与盖碗在右矮几,花瓶在左高几),营造平衡稳定的视觉效果;细节补充:竹叶投影柔和朦胧,木质家具纹理细腻,陶瓷器物釉面有温润光泽,金属装饰条质感精致,整体光线柔和,突出茶品的高端与东方文化意境。
提示词:生活化高端产品摄影,主体为一位有着蓬松卷发的女性,佩戴头戴式耳机,身着淡黄色宽松卫衣;场景设定在阳光充足的室内窗边,背景是明亮的黄色墙面与澄澈蓝天;风格融合生活美学与产品展示的自然质感,强调温暖治愈的氛围;色调以暖黄色(墙面、卫衣)为主,搭配蓝天的清新蓝色,柔和的自然光形成细腻光影,营造出温馨惬意的感觉;构图采用侧面视角,人物呈放松姿态 —— 手肘支撑在桌面,手托着脸颊,目光向侧方舒展;细节补充:卷发的蓬松纹理、无线耳机的精致小巧、桌面上棕色玻璃杯的通透感与电子设备的简洁外观、自然光在墙面与衣物上的柔和投影,整体传递出舒适自在且充满生活暖意的氛围。
提示词:插画风格,介绍一杯拿铁的步骤教程图,需要有标题,并用英文说明步骤。
提示词:手帐风格,一个机器人,在给机器人宝宝,介绍擎天柱的变身过程,黑板上用四宫格画出了擎天柱变形的过程。
提示词:根据腾讯QQ企鹅的ip形象,用古早的网络风格生成多个表情包,以九宫格的形势展示。要求只包含QQ企鹅ip形象,可以有性别区分、不同的装扮、多只企鹅互动,主题可以多样化比如非主流、搞笑抽象,搭配各种场景和情绪表达比如爱情,并可以附带表情包对应文字。
提示词:创造一幅插画和简单的文字介绍扩散生成模型的原理。
提示词:Generate a 3x3 grid of office worker memes featuring the following themes: 1) Coffee Addiction 2) Monday Blues 3) Weekend is Coming! 4) High Pressure 5) Boring Meeting 6) Angry Keyboard Typing 7) Celebration 8) Sleepiness 9) Promotion Joy.
提示词:生成上班族九宫格表情包:1) 咖啡成瘾 2) 周一忧郁 3) 期待周末 4) 压力大 5) 无聊会议 6) 怒敲键盘 7) 庆祝 8) 困倦 9) 升职快乐。
提示词:3D渲染风格宣传海报,整体以绿色和白色为主色调,充满青春活力。画面中央是一位坐在折叠椅上的赛博风格女性角色,她有着银白色的短发,戴着黑色墨镜和耳机,身穿黑色短上衣和灰色长裤,裤腿处有破洞设计,脚上穿着一双厚底黑色运动鞋,造型酷炫。她正低头看着手中的手机,姿态悠闲。女性角色周围散落着各种物品,包括几本书籍,书籍上印有“hunyuan”的字样,还有绿色的充气垫、白色的购物袋、画笔、颜料等物品,营造出一种时尚且富有创意的氛围。海报左上角有大大的黑色文字“新青年 夏日露营”,旁边有绿色的装饰元素。
提示词:A beautiful woman wearing a pink cheongsam, floral headwear with colorful flowers in her hair, and an elegant white lace collar around her neck. She is holding large butterflies in one hand. The photography style features high-definition details, resembling a fashion magazine cover design. The text "FASHION DESIGN" is displayed at the top center of the photo. The background is a minimalist, light gray solid color, designed to highlight the model.
提示词:爱因斯坦刚刚完成相对论后发布的一条超写实风格的推文。包含一张自拍照,照片中清晰可见背景中的粉笔板和潦草的公式。推文下方显示尼古拉·特斯拉点赞了该内容。
提示词:帮我设计一个海报,来宣传基于原生多模态架构的Hunyuan Image 3.0,有腾讯QQ元素,企鹅元素。
提示词:画图:画一个小红书封面。要求:有足够的吸引力吸引用户点击;字体醒目,选择有个性的字体;文字大小按重要度分级,体现文案的逻辑结构;标题是普通文字的至少2倍;文字段落之间留白。只对要强调的文字用醒目色吸引用户注意;背景使用吸引眼球的图案(包括不限于纸张,记事本,微信聊天窗口,选择一种)使用合适的图标或图片增加视觉层次,但要减少干扰。
文案:
"重磅!
HunyuanImage3.0更新啦!
超强语义理解✨
小字渲染更强
创造力爆表
快来试试!"
以及,下面这些来自创作者体验后的作品,效果很惊艳:
点击即可跳转模型链接~
https://modelscope.cn/models/Tencent-Hunyuan/HunyuanImage-3.0