大模型
产品
解决方案
权益
定价
云市场
伙伴
服务
了解阿里云
查看 “
” 全部搜索结果
AI 助理
文档
备案
控制台
开发者社区
首页
计算机视觉
自然语言处理
语音
多模态
科学计算
魔搭社区官网
探索云世界
热门
百炼大模型
Modelscope模型即服务
弹性计算
通义灵码
云原生
数据库
云效DevOps
龙蜥操作系统
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
数据可视化DataV
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
镜像站
开发者社区
ModelScope模型即服务
文章
正文
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
2023-05-18
1263
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
简介:
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。
然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。
太乙 Stable Diffusion 纯中文版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
太乙 Stable Diffusion 中英双语版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
中文运笔,意境浮现
君不见黄河之水天上来 ,唯美,油画
滔滔江水,连绵不绝 ,唯美,插画
飞流直下三千尺 ,唯美,插画
长城,清晨,朦胧,唯美,插画
梦回江南,中国古代小镇,唯美,插画
云南苗家古寨,原始森林,鸟语花香,唯美,插画
中国的未来城市,科幻插画
中文 vs 英文的图片生成
中文指导的特定风格生成
小桥流水人家,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小桥流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
太乙系列文本生成图像模型技术揭秘
第一个开源中文 CLIP 模型
2022 年 7 月,IDEA CCNL开源了第一个中文 CLIP 模型,目前已经有 4 个版本。
Taiyi-CLIP-Roberta-102M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
Taiyi-CLIP-Roberta-large-326M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以 Taiyi-CLIP-Roberta-large-326M-Chinese 为例,IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。
第一个开源中文 Disco Diffusion 模型
2022 年 10 月,IDEA CCNL开源了第一个中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,该模型由 Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。
东临碣石,以观沧海,水何澹澹,山岛竦峙:
第一个开源中文 Stable Diffusion 的模型
2022 年 11 月,IDEA CCNL开源了第一个中文 Stable Diffusion 的模型和中英双语 Stable Diffusion 模型。
太乙 Stable Diffusion 纯中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
该模型利用已经开源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替换了英文 stable-diffusion-v1-4 中的语言编码器,因为太乙 CLIP 模型已经具备了很强的中文图文概念,所以直接冻结英文 stable diffusion 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,将太乙 CLIP 模型理解的中文图文概念与 stable diffusion 生成能力对齐。
太乙 Stable Diffusion 中英双语版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
不同于太乙 Stable Diffusion 纯中文版本,这个模型希望在支持中文的情况下,同时能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有语言模型不具备太乙 CLIP 模型强大的中文图文概念,IDEA CCNL希望在它的基础上增加了中文数据训练,这里采取了两阶段的训练。第一阶段也是冻住 stable-diffusion-v1-4 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,训练语言模型中文部分的表征。第二阶段放开 stable-diffusion-v1-4 的生成模型部分,增强中文引导图片生成的能力,目前训练中的一个 checkpoint 已取得不错的效果并进行了开源。
使用方法
如果需要进行古诗场景、中文概念生成,建议尝试中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用场景和概念的生成,尤其是有中文混合英文需要,建议尝试中英双语版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。
中文版本:
中英双语版本:
太乙 - 中文 Stable Diffusion 的未来
目前在庞大的中国市场中,有将近 10 亿的文化产业正在被 AIGC 冲击并快速创新发展,也有更多的新机遇在裂变中产生。由于此前的 AIGC 模型还无法和特殊的中国文化背景相结合,致力于成为中文认知智能的基础设施的 IDEA 研究院认知计算与自然语言中心,希望通过推出太乙模型,助力加快在 AIGC 全球市场化中中国的文化产业数字化转型的创新发展,促进各个相关行业的升级。而太乙所在的封神榜预训练模型开源体系,已经开源 80 个模型,覆盖 AIGC、自然语言理解、受控文本生成等多个领域,成为中文最大的预训练模型开源体系。基于封神榜模型的 GTS 模型生产平台,自动生产的 1 亿参数模型,击败众多百亿千亿参数模型,进入 FewCLUE 榜单前三名,机器自动化生成模型的能力达到了算法专家水平,AI 生产 AI 的时代正在到来。
IDEA CCNL认为,在 AIGC 中,人的作用是更为重要的,生成式 AI 应悄无声息地融入大众生活中并更好地帮助拓展人类的想象力边界。所以,与 AI 互动生产的内容,是帮助AIGC走向下一个生产力阶段的关键。因此,IDEA CCNL除了基础模型和基础算法的研究之外,还在研究更精准的文本生成和基中文于文本的交互式图片编辑。以太乙为核心的 AIGC 模型会持续更新和升级,敬请期待。
欢迎对太乙感兴趣的小伙伴们联系IDEA CCNL,一起共建中文 AIGC 的新世界。
封神榜相关链接:
封神榜总论文(中英双语):
https://arxiv.org/abs/2209.02970
封神榜主页:
https://github.com/IDEA-CCNL/Fengshenbang-LM
(封神榜大模型)是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。
huggingface 地址:
https://huggingface.co/IDEA-CCNL
封神榜 doc:
https://fengshenbang-doc.readthedocs.io/zh/latest/
文章标签:
自然语言处理
C++
自然语言处理
人工智能
API
算法
关键词:
AI模型
团队AI
AI开源
模型AI
idea AI
-开发达人-
目录
相关文章
阿里云安全_
|
6月前
|
人工智能
文字识别
监控
阿里云神秘团队曝光:AI时代的新蓝军
天天和大模型“斗法”
阿里云安全_
2763
162
165
阿里云安全_
|
6月前
|
云安全
人工智能
自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
阿里云安全_
2419
120
123
探索云世界
|
7月前
|
人工智能
自然语言处理
IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
探索云世界
1202
109
109
汀丶人工智能
|
8月前
|
人工智能
自然语言处理
搜索推荐
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
AI Compass前沿速览:Qoder Agentic编程、vivo Vision头显、AIRI桌面伴侣、RM-Gallery奖励模型平台
汀丶人工智能
1063
6
7
代码bug生产队
|
6月前
|
人工智能
搜索推荐
程序员
当AI学会“跨界思考”:多模态模型如何重塑人工智能
当AI学会“跨界思考”:多模态模型如何重塑人工智能
代码bug生产队
844
120
120
Deephub
|
8月前
|
机器学习/深度学习
人工智能
监控
大型动作模型LAM:让企业重复任务实现80%效率提升的AI技术架构与实现方案
大型动作模型(LAMs)作为人工智能新架构,融合神经网络与符号逻辑,实现企业重复任务的自动化处理。通过神经符号集成、动作执行管道、模式学习、任务分解等核心技术,系统可高效解析用户意图并执行复杂操作,显著提升企业运营效率并降低人工成本。其自适应学习能力与上下文感知机制,使自动化流程更智能、灵活,为企业数字化转型提供坚实支撑。
Deephub
545
0
0
阿里云云原生
|
7月前
|
人工智能
监控
Kubernetes
稳定支撑大规模模型调用,携程旅游的 AI 网关实践
为了进一步提升服务水平和服务质量,携程很早就开始在人工智能大模型领域进行探索。而随着工作的深入,大模型服务的应用领域不断扩大,公司内部需要访问大模型服务的应用也越来越多,不可避免的就遇到了几个问题,我们自然就会想到使用网关来对这些服务接入进行统一管理,并增加各种切面上的流量治理功能。
阿里云云原生
680
77
106
ModelScope模型即服务
热门文章
最新文章
1
中企投资印度新能源“有戏”吗?
2
Hermes Agent爆火,聊聊与OpenClaw 到底区别在哪
3
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
4
嵌入式开发必备!Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含(Keil MDK 5.39)
5
【Seedance 2.0 技术解析】:字节跳动电影级多模态视频生成模型全景剖析
6
Qwen3.5 中等规模模型系列正式开源:更强智能,更低算力
7
MiniMax M2.7开源: 模型开始迭代自己了!
8
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
9
AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署
10
Qwen3.5:迈向原生多模态智能体
1
AI+食安监管:西安雁塔区“智慧管家”背后的技术逻辑与可复制价值
51
2
从单机智能到分布式执行:侠客工坊基于事件驱动的百万级任务编排实践
49
3
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
30
4
戴盟联合数十家头部机构,发布全球最大规模含触觉全模态物理世界数据集
52
5
ERNIE-Image 8B开源:8B参数实现顶级文生图与精准文字渲染
103
6
用魔搭账号登录你的应用:ModelScope OAuth 统一身份接入指南
66
7
Java + EasyExcel 实现单个接口导出多个Excel
66
8
韩国股票 API 对接指南 Seoul&KOSDAQ
51
9
可计算元认知:工程实现与封装说明——跨领域、跨语言文本对齐的开源工具箱
66
10
MiniMax M2.7开源: 模型开始迭代自己了!
370
相关课程
更多
大模型Clouder认证课程:Spring AI 应用开发(入门)
AI上云实战
中国铁道科学研究院 × 阿里云AI应用开发实训营
通义灵码2.0 AI 编码训练营
AI应用开发
基于Gradio的AI应用搭建实践课
相关电子书
更多
阿里云AI原生应用实践沙龙 Serverless+AI专场
AI 原生应用开源开发者沙龙·上海站电子书
蚂蚁金服高级开发工程师萧恺:IDEA 插件开发入门教程
相关实验场景
更多
使用AI容器镜像部署Qwen大语言模型
【玩转ComfyUI】基于函数计算一键部署AI生图平台ComfyUI
下一篇
开通oss服务