产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
备案
控制台
开发者社区
首页
计算机视觉
自然语言处理
语音
多模态
科学计算
魔搭社区官网
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
Modelscope模型即服务
弹性计算
云原生
数据库
物联网
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
ModelScope模型即服务
文章
正文
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
2023-05-18
530
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
推荐场景:
AIGC Stable Diffusion文生图Lora模型微调实现虚拟上装
简介:
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。
然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。
太乙 Stable Diffusion 纯中文版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
太乙 Stable Diffusion 中英双语版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
中文运笔,意境浮现
君不见黄河之水天上来 ,唯美,油画
滔滔江水,连绵不绝 ,唯美,插画
飞流直下三千尺 ,唯美,插画
长城,清晨,朦胧,唯美,插画
梦回江南,中国古代小镇,唯美,插画
云南苗家古寨,原始森林,鸟语花香,唯美,插画
中国的未来城市,科幻插画
中文 vs 英文的图片生成
中文指导的特定风格生成
小桥流水人家,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小桥流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
太乙系列文本生成图像模型技术揭秘
第一个开源中文 CLIP 模型
2022 年 7 月,IDEA CCNL开源了第一个中文 CLIP 模型,目前已经有 4 个版本。
Taiyi-CLIP-Roberta-102M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
Taiyi-CLIP-Roberta-large-326M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以 Taiyi-CLIP-Roberta-large-326M-Chinese 为例,IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。
第一个开源中文 Disco Diffusion 模型
2022 年 10 月,IDEA CCNL开源了第一个中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,该模型由 Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。
东临碣石,以观沧海,水何澹澹,山岛竦峙:
第一个开源中文 Stable Diffusion 的模型
2022 年 11 月,IDEA CCNL开源了第一个中文 Stable Diffusion 的模型和中英双语 Stable Diffusion 模型。
太乙 Stable Diffusion 纯中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
该模型利用已经开源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替换了英文 stable-diffusion-v1-4 中的语言编码器,因为太乙 CLIP 模型已经具备了很强的中文图文概念,所以直接冻结英文 stable diffusion 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,将太乙 CLIP 模型理解的中文图文概念与 stable diffusion 生成能力对齐。
太乙 Stable Diffusion 中英双语版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
不同于太乙 Stable Diffusion 纯中文版本,这个模型希望在支持中文的情况下,同时能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有语言模型不具备太乙 CLIP 模型强大的中文图文概念,IDEA CCNL希望在它的基础上增加了中文数据训练,这里采取了两阶段的训练。第一阶段也是冻住 stable-diffusion-v1-4 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,训练语言模型中文部分的表征。第二阶段放开 stable-diffusion-v1-4 的生成模型部分,增强中文引导图片生成的能力,目前训练中的一个 checkpoint 已取得不错的效果并进行了开源。
使用方法
如果需要进行古诗场景、中文概念生成,建议尝试中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用场景和概念的生成,尤其是有中文混合英文需要,建议尝试中英双语版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。
中文版本:
中英双语版本:
太乙 - 中文 Stable Diffusion 的未来
目前在庞大的中国市场中,有将近 10 亿的文化产业正在被 AIGC 冲击并快速创新发展,也有更多的新机遇在裂变中产生。由于此前的 AIGC 模型还无法和特殊的中国文化背景相结合,致力于成为中文认知智能的基础设施的 IDEA 研究院认知计算与自然语言中心,希望通过推出太乙模型,助力加快在 AIGC 全球市场化中中国的文化产业数字化转型的创新发展,促进各个相关行业的升级。而太乙所在的封神榜预训练模型开源体系,已经开源 80 个模型,覆盖 AIGC、自然语言理解、受控文本生成等多个领域,成为中文最大的预训练模型开源体系。基于封神榜模型的 GTS 模型生产平台,自动生产的 1 亿参数模型,击败众多百亿千亿参数模型,进入 FewCLUE 榜单前三名,机器自动化生成模型的能力达到了算法专家水平,AI 生产 AI 的时代正在到来。
IDEA CCNL认为,在 AIGC 中,人的作用是更为重要的,生成式 AI 应悄无声息地融入大众生活中并更好地帮助拓展人类的想象力边界。所以,与 AI 互动生产的内容,是帮助AIGC走向下一个生产力阶段的关键。因此,IDEA CCNL除了基础模型和基础算法的研究之外,还在研究更精准的文本生成和基中文于文本的交互式图片编辑。以太乙为核心的 AIGC 模型会持续更新和升级,敬请期待。
欢迎对太乙感兴趣的小伙伴们联系IDEA CCNL,一起共建中文 AIGC 的新世界。
封神榜相关链接:
封神榜总论文(中英双语):
https://arxiv.org/abs/2209.02970
封神榜主页:
https://github.com/IDEA-CCNL/Fengshenbang-LM
(封神榜大模型)是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。
huggingface 地址:
https://huggingface.co/IDEA-CCNL
封神榜 doc:
https://fengshenbang-doc.readthedocs.io/zh/latest/
文章标签:
自然语言处理
C++
自然语言处理
人工智能
API
算法
关键词:
AI模型
AI开源
模型AI
AI团队
团队AI
-开发达人-
目录
相关文章
追逐时光者
|
1天前
|
人工智能
自然语言处理
算法
分享几个.NET开源的AI和LLM相关项目框架
分享几个.NET开源的AI和LLM相关项目框架
追逐时光者
16
3
3
楠竹11
|
4天前
|
机器学习/深度学习
人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
楠竹11
15
3
3
可乐鸡翅kele
|
6天前
|
人工智能
前端开发
算法
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
可乐鸡翅kele
15
0
0
楠竹11
|
8天前
|
人工智能
数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
楠竹11
18
2
2
楠竹11
|
8天前
|
人工智能
数据库
芯片
【报告介绍】中国AI大模型产业:发展现状与未来展望
【4月更文挑战第27天】中国AI大模型产业快速发展,受益于政策支持、技术创新及市场需求,已在电商等领域广泛应用,展现巨大潜力。但面临算力瓶颈、技术局限和数据不足等挑战。未来,AI大模型将向通用化与专用化发展,开源趋势将促进小型开发者参与,高性能芯片升级也将助力产业进步。[报告下载链接](http://download.people.com.cn/jiankang/nineteen17114578641.pdf)
楠竹11
20
2
2
智能计算老群群
|
8天前
|
机器学习/深度学习
人工智能
算法
AI大模型学习理论基础
本文探讨了AI大模型学习的理论基础,包括深度学习(模拟神经元工作原理,通过多层非线性变换提取特征)、神经网络结构(如前馈、循环和卷积网络)、训练方法(监督、无监督、强化学习)、优化算法(如SGD及其变种)、正则化(L1、L2和dropout防止过拟合)以及迁移学习(利用预训练模型加速新任务学习)。这些理论基础推动了AI大模型在复杂任务中的应用和人工智能的发展。
智能计算老群群
17
0
0
zhangqianglxiaoe-46270
|
10天前
|
存储
人工智能
测试技术
【AI智能体】SuperAGI-开源AI Agent 管理平台
【4月更文挑战第9天】智能体管理平台SuperAGI简介及实践
zhangqianglxiaoe-46270
36
0
0
楠竹11
|
10天前
|
机器学习/深度学习
人工智能
安全
模型被投毒攻击,如今有了新的安全手段,还被AI顶刊接收
【4月更文挑战第25天】研究人员提出了一种结合区块链和分布式账本技术的联邦学习系统,以增强对抗投毒攻击的安全性。该系统利用智能合约支持的点对点投票和奖励惩罚机制,提高模型聚合的鲁棒性。此创新方法首次将区块链应用于联邦学习,减少中心化服务器的风险,但同时也面临计算成本增加、延迟问题以及智能合约安全性的挑战。论文已被AI顶刊接收,为金融、医疗等领域提供更安全的机器学习解决方案。[[1](https://ieeexplore.ieee.org/document/10471193)]
楠竹11
19
3
3
楠竹11
|
11天前
|
人工智能
搜索推荐
杨笛一新作:社恐有救了,AI大模型一对一陪聊,帮i人变成e人
【4月更文挑战第24天】杨笛一团队研发的AI大模型,以“AI伙伴”和“AI导师”框架帮助社恐人群提升社交技能。通过模拟真实场景和个性化反馈,该方法降低训练门槛,增强学习者自信。但也有挑战,如保持AI模拟的真实性,防止反馈偏见,并避免过度依赖。研究强调,AI应作为辅助工具而非替代。[论文链接](https://arxiv.org/pdf/2404.04204.pdf)
楠竹11
13
1
1
开发者小达人
|
机器学习/深度学习
人工智能
自然语言处理
搜狗翻宝Pro机再次开挂,智能翻译硬件成中国人工智能的新风口
第五届世界互联网大会正在如火如荼的举行。
开发者小达人
1065
0
0
ModelScope模型即服务
热门文章
最新文章
1
手把手教你捏一个自己的Agent
2
阿里云通义千问向全社会开放!
3
Llama 3开源!魔搭社区手把手带你推理,部署,微调和评估
4
Phi-3:小模型,大未来!(附魔搭社区推理、微调实战教程)
5
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
6
ChatGPT中文版杀疯了,已登录AI模型市场
7
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
8
Qwen1.5-MoE开源!魔搭社区推理训练最佳实践教程来啦!
9
通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!
10
Qwen1.5开源!魔搭最佳实践来啦!
1
spring cloud使用jar包部署和docker部署的区别
14
2
✅浅聊MVCC?
17
3
sysbench 对MySQL压测100分钟的命令
21
4
对云效流水线 Flow 的一些体验
30
5
百度百科都是谁写的
41
6
社区供稿 | 中文llama3模型哪家强?llama3汉化版微调模型大比拼
71
7
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
251
8
Phi-3:小模型,大未来!(附魔搭社区推理、微调实战教程)
312
9
Llama3 中文通用Agent微调模型来啦!(附手把手微调实战教程)
324
10
社区供稿 | XTuner发布LLaVA-Llama-3-8B,支持单卡推理,评测和微调
160
相关课程
更多
AI开发者的Docker实践
AI社区开源学习实践
趣味视觉AI应用入门与实战
AI数学基础
相关电子书
更多
释放算力潜能,加速 AI 应用构建
网易游戏机器学习云平台助力AI应用落地实践
蚂蚁金服高级开发工程师萧恺:IDEA 插件开发入门教程
相关实验场景
更多
基于函数计算实现AI推理
函数计算实战-云开发创建视觉AI应用
基于 IntelliJ IDEA 插件部署微服务应用
零基础入门Serverless:基于函数计算快速搭建基于人工智能的目标检测系统
部署Stable Diffusion玩转AI绘画(GPU云服务器)
下一篇
2024年阿里云免费云服务器及学生云服务器申请教程参考