产品
解决方案
文档与社区
权益中心
定价
云市场
合作伙伴
支持与服务
了解阿里云
AI 助理
备案
控制台
开发者社区
首页
计算机视觉
自然语言处理
语音
多模态
科学计算
魔搭社区官网
探索云世界
新手上云
云上应用构建
云上数据管理
云上探索人工智能
云计算
弹性计算
无影
存储
网络
倚天
云原生
容器
serverless
中间件
微服务
可观测
消息队列
数据库
关系型数据库
NoSQL数据库
数据仓库
数据管理工具
PolarDB开源
向量数据库
热门
百炼大模型
Modelscope模型即服务
弹性计算
云原生
数据库
云效DevOps
龙蜥操作系统
平头哥
钉钉开放平台
物联网
大数据
大数据计算
实时数仓Hologres
实时计算Flink
E-MapReduce
DataWorks
Elasticsearch
机器学习平台PAI
智能搜索推荐
数据可视化DataV
人工智能
机器学习平台PAI
视觉智能开放平台
智能语音交互
自然语言处理
多模态模型
pythonsdk
通用模型
开发与运维
云效DevOps
钉钉宜搭
支持服务
镜像站
码上公益
开发者社区
ModelScope模型即服务
文章
正文
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
2023-05-18
616
版权
版权声明:
本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《
阿里云开发者社区用户服务协议
》和 《
阿里云开发者社区知识产权保护指引
》。如果您发现本社区中有涉嫌抄袭的内容,填写
侵权投诉表单
进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
推荐场景:
PAI×LLaMA Factory 微调 Llama3 模型
模型训练 PAI-DLC,100CU*H 3个月
推荐场景:
低代码 Lora 微调及部署
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
推荐场景:
基于PAI-EAS挂载OSS部署AIGC服务
简介:
首个中文Stable Diffusion模型开源,IDEA研究院封神榜团队开启中文AI艺术时代
生成内容一直被视为 AI 领域中最具有挑战性的能力,最近大火的 AI 绘画背后,是 Stable Diffusion 模型的开源,催生了众多 AI 绘画的应用,得益于 Stability AI 的开源精神,这一创变推动了整个以英文为主的下游文生图生态的蓬勃发展。
然而在国内,目前大部分团队主要是基于翻译 API + 英文 stable diffusion 模型进行开发,但由于中英文之间所得存在文化差异导致遇到中文独特的叙事和表达时,这种模型就很难给出正确匹配的图片内容。因此,IDEA 研究院认知计算与自然语言研究中心(IDEA CCNL)开源了第一个中文版本的 stable diffusion 模型“太乙 Stable Diffusion”,让中文的世界真正拥有具备中国文化内核的 AIGC 模型。
太乙 Stable Diffusion 纯中文版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-v0.1
太乙 Stable Diffusion 中英双语版本:
https://huggingface.co/IDEA-CCNL/Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1
中文运笔,意境浮现
君不见黄河之水天上来 ,唯美,油画
滔滔江水,连绵不绝 ,唯美,插画
飞流直下三千尺 ,唯美,插画
长城,清晨,朦胧,唯美,插画
梦回江南,中国古代小镇,唯美,插画
云南苗家古寨,原始森林,鸟语花香,唯美,插画
中国的未来城市,科幻插画
中文 vs 英文的图片生成
中文指导的特定风格生成
小桥流水人家,水彩
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
小桥流水人家,Van Gogh style
(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
太乙系列文本生成图像模型技术揭秘
第一个开源中文 CLIP 模型
2022 年 7 月,IDEA CCNL开源了第一个中文 CLIP 模型,目前已经有 4 个版本。
Taiyi-CLIP-Roberta-102M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-102M-Chinese
Taiyi-CLIP-Roberta-large-326M-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-Roberta-large-326M-Chinese
Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese
Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese:
https://huggingface.co/IDEA-CCNL/Taiyi-CLIP-RoBERTa-326M-ViT-H-Chinese
以 Taiyi-CLIP-Roberta-large-326M-Chinese 为例,IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器,在训练过程中冻结了视觉编码器并且只微调这个中文语言模型,在 1 亿级别的中文数据上训练了 24 个 epoch,一共过了约 30 亿中文图文数据,得到了这个包含图片信息的中文表征语言模型,为后续训练中文 Diffusion 相关的模型奠定了重要的基础。
第一个开源中文 Disco Diffusion 模型
2022 年 10 月,IDEA CCNL开源了第一个中文 Disco Diffusion 模型 Taiyi-Diffusion-532M-Nature-Chinese,该模型由 Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合 Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。
东临碣石,以观沧海,水何澹澹,山岛竦峙:
第一个开源中文 Stable Diffusion 的模型
2022 年 11 月,IDEA CCNL开源了第一个中文 Stable Diffusion 的模型和中英双语 Stable Diffusion 模型。
太乙 Stable Diffusion 纯中文版本(Taiyi-Stable-Diffusion-1B-Chinese-v0.1)
该模型利用已经开源的太乙 CLIP 模型 (Taiyi-CLIP-RoBERTa-102M-ViT-L-Chinese) 替换了英文 stable-diffusion-v1-4 中的语言编码器,因为太乙 CLIP 模型已经具备了很强的中文图文概念,所以直接冻结英文 stable diffusion 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,将太乙 CLIP 模型理解的中文图文概念与 stable diffusion 生成能力对齐。
太乙 Stable Diffusion 中英双语版本(Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1)
不同于太乙 Stable Diffusion 纯中文版本,这个模型希望在支持中文的情况下,同时能保留 stable-diffusion-v1-4 的英文生成能力。由于 stable-diffusion-v1-4 原有语言模型不具备太乙 CLIP 模型强大的中文图文概念,IDEA CCNL希望在它的基础上增加了中文数据训练,这里采取了两阶段的训练。第一阶段也是冻住 stable-diffusion-v1-4 的生成模型部分,在亿级别的高质量数据上微调语言编码器,调整学习率等超参数,训练语言模型中文部分的表征。第二阶段放开 stable-diffusion-v1-4 的生成模型部分,增强中文引导图片生成的能力,目前训练中的一个 checkpoint 已取得不错的效果并进行了开源。
使用方法
如果需要进行古诗场景、中文概念生成,建议尝试中文版本 Taiyi-Stable-Diffusion-1B-Chinese-v0.1。如果需要一些通用场景和概念的生成,尤其是有中文混合英文需要,建议尝试中英双语版本 Taiyi-Stable-Diffusion-1B-Chinese-EN-v0.1。
中文版本:
中英双语版本:
太乙 - 中文 Stable Diffusion 的未来
目前在庞大的中国市场中,有将近 10 亿的文化产业正在被 AIGC 冲击并快速创新发展,也有更多的新机遇在裂变中产生。由于此前的 AIGC 模型还无法和特殊的中国文化背景相结合,致力于成为中文认知智能的基础设施的 IDEA 研究院认知计算与自然语言中心,希望通过推出太乙模型,助力加快在 AIGC 全球市场化中中国的文化产业数字化转型的创新发展,促进各个相关行业的升级。而太乙所在的封神榜预训练模型开源体系,已经开源 80 个模型,覆盖 AIGC、自然语言理解、受控文本生成等多个领域,成为中文最大的预训练模型开源体系。基于封神榜模型的 GTS 模型生产平台,自动生产的 1 亿参数模型,击败众多百亿千亿参数模型,进入 FewCLUE 榜单前三名,机器自动化生成模型的能力达到了算法专家水平,AI 生产 AI 的时代正在到来。
IDEA CCNL认为,在 AIGC 中,人的作用是更为重要的,生成式 AI 应悄无声息地融入大众生活中并更好地帮助拓展人类的想象力边界。所以,与 AI 互动生产的内容,是帮助AIGC走向下一个生产力阶段的关键。因此,IDEA CCNL除了基础模型和基础算法的研究之外,还在研究更精准的文本生成和基中文于文本的交互式图片编辑。以太乙为核心的 AIGC 模型会持续更新和升级,敬请期待。
欢迎对太乙感兴趣的小伙伴们联系IDEA CCNL,一起共建中文 AIGC 的新世界。
封神榜相关链接:
封神榜总论文(中英双语):
https://arxiv.org/abs/2209.02970
封神榜主页:
https://github.com/IDEA-CCNL/Fengshenbang-LM
(封神榜大模型)是 IDEA 研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。
huggingface 地址:
https://huggingface.co/IDEA-CCNL
封神榜 doc:
https://fengshenbang-doc.readthedocs.io/zh/latest/
文章标签:
自然语言处理
C++
自然语言处理
人工智能
API
算法
关键词:
idea AI
AI模型
AI开源
团队AI
模型AI
-开发达人-
目录
相关文章
优雅草央千澈
|
3天前
|
人工智能
前端开发
小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
优雅草央千澈
50
31
31
蚝油菜花
|
1天前
|
机器学习/深度学习
人工智能
算法
FinRobot:开源的金融专业 AI Agent,提供市场预测、报告分析和交易策略等金融解决方案
FinRobot 是一个开源的 AI Agent 平台,专注于金融领域的应用,通过大型语言模型(LLMs)构建复杂的金融分析和决策工具,提供市场预测、文档分析和交易策略等多种功能。
蚝油菜花
39
13
13
蚝油菜花
|
3天前
|
机器学习/深度学习
人工智能
自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
蚝油菜花
32
12
12
蚝油菜花
|
3天前
|
人工智能
开发框架
算法
Qwen-Agent:阿里通义开源 AI Agent 应用开发框架,支持构建多智能体,具备自动记忆上下文等能力
Qwen-Agent 是阿里通义开源的一个基于 Qwen 模型的 Agent 应用开发框架,支持指令遵循、工具使用、规划和记忆能力,适用于构建复杂的智能代理应用。
蚝油菜花
47
10
10
蚝油菜花
|
3天前
|
人工智能
自然语言处理
Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
蚝油菜花
44
9
9
蚝油菜花
|
4天前
|
人工智能
自然语言处理
测试技术
DeepSeek V3:DeepSeek 开源的最新多模态 AI 模型,编程能力超越Claude,生成速度提升至 60 TPS
DeepSeek V3 是深度求索公司开源的最新 AI 模型,采用混合专家架构,具备强大的编程和多语言处理能力,性能超越多个竞争对手。
蚝油菜花
121
4
4
优雅草央千澈
|
1天前
|
人工智能
移动开发
JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
优雅草央千澈
49
18
18
喜欢猪猪
|
17天前
|
机器学习/深度学习
人工智能
自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
喜欢猪猪
83
10
10
TsingtaoAI
|
5天前
|
机器学习/深度学习
人工智能
自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
TsingtaoAI
134
97
100
魔搭ModelScope社区小助手
|
10天前
|
机器学习/深度学习
人工智能
物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
魔搭ModelScope社区小助手
131
58
60
ModelScope模型即服务
热门文章
最新文章
1
阿里云通义千问向全社会开放!
2
FLUX.1 Tools 全家桶开源!文末附一键ComfyUI启动链接
3
DeepSeek V3:DeepSeek 开源的最新多模态 AI 模型,编程能力超越Claude,生成速度提升至 60 TPS
4
CosyVoice 2.0:阿里开源升级版语音生成大模型,支持多语言和跨语言语音合成,提升发音和音色等的准确性
5
ModelScope一键部署模型:新手村实操FAQ篇
6
Llama 3开源,魔搭社区手把手带你推理,部署,微调和评估
7
通义千问72B、1.8B、Audio模型开源!魔搭社区最佳实践来啦!
8
WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈
9
multi-agent:多角色Agent协同合作,高效完成复杂任务
10
千问团队开源会思考的QwQ模型,这模型成精了!
1
TITAN:哈佛医学院推出多模态全切片病理基础模型,支持病理报告生成、跨模态检索
7
2
R2R:开源的 RAG 集成系统,支持多模态处理、混合搜索、知识图谱构建等增强检索技术
5
3
RAG Logger:专为检索增强生成(RAG)应用设计的开源日志工具,支持查询跟踪、性能监控
6
4
Figma-Low-Code:快速将Figma设计转换为Vue.js应用,支持低代码渲染、数据绑定
5
5
TangoFlux:高速生成高质量音频,仅用3.7秒生成长达30秒的音频,支持文本到音频转换
7
6
LangGraph:构建多代理动态工作流的开源框架,支持人工干预、循环、持久性等复杂工作流自动化
16
7
Eliza:TypeScript 版开源 AI Agent 开发框架,快速搭建智能、个性的 Agents 系统
15
8
AI Dev Gallery:微软开源 Windows AI 模型本地运行工具包和示例库,助理开发者快速集成 AI 功能
15
9
新年课程开启:手把手教学,0基础5次课程学会搭建无限拓展的AI应用
18
10
OpenEMMA:德克萨斯开源端到端的自动驾驶多模态模型框架,基于预训练的 MLLMs,处理复杂的视觉数据,推理驾驶场景
28
相关课程
更多
AIGC无处不在,把AI应用构建于Serverless之上
【科技少年】AI领航员探索教程(赛前训练)
达摩院视觉AI精品课
AI开发者的Docker实践
趣味视觉AI应用入门与实战
AI数学基础
相关电子书
更多
Lindorm AI 能力介绍
2023云栖大会:PolarDB for AI
2023云栖大会:Lindorm一站式AI数据平台实战
相关实验场景
更多
体育赛事!零代码生成运动风格AI写真。
【涂鸦即艺术】基于云应用开发平台CAP部署AI实时生图绘板
使用容器计算服务 ACS 算力快速搭建生成式 AI 会话应用
SAE 极速部署专属 AI 证件照神器
流水线运行出错排查难?AI帮你智能排查
以电商场景为例搭建AI语义搜索应用
下一篇
阿里云无影云电脑免费试用,最长可试用3个月