联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解

简介: 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/1G8eXZY2OqgEId6yyN-nQQ


🚀 快速阅读

  1. 功能:支持中文语义理解和高质量图像生成。
  2. 技术:基于复合语言编码模块和昇腾AI算力集群。
  3. 应用:广泛应用于文物数字化、服装定制等领域。

正文(附运行示例)

联通元景是什么

公众号: 蚝油菜花 - UniT2IXL

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。该模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生成质量。

联通元景基于预训练海量中文图文数据,减少信息损失,准确生成高质量图片。元景文生图模型支持国产全栈训推,适配自定义数据集,实现跨平台平滑切换。已在多个行业如文创、服装等领域应用,助力企业提效降本。

联通元景的主要功能

  • 中文语义理解:基于复合语言编码模块,精确理解中文长文本和多属性对应词汇,提升中文语义理解能力。
  • 高质量图像生成:根据中文文本生成高质量的对应图像,支持中文特色词汇和表达。
  • 预训练与推理:引入海量中文图文对数据进行预训练,提高模型对中文专属名词和复杂表达的理解能力。
  • 算力适配:在国产昇腾AI基础软硬件平台上实现训练和推理,适配国产算力。

联通元景的技术原理

  • 复合语言编码模块:在SDXL架构中融合复合语言编码模块,替换英文CLIP模型为中文CLIP,增强中文短文本的理解能力。
  • encoder-decoder架构:引入基于encoder-decoder架构的语言模型到语言编码器部分,支持超过CLIP长度限制的长文本输入。
  • 昇腾AI算力集群:在昇腾AI大规模算力集群上实现模型的训练和推理,提供强大的计算支持。
  • 接口与Diffusers对齐:模型推理接口与Diffusers对齐,简化使用流程,支持单卡和多卡推理,单卡推理支持UNet Cache加速。

如何运行联通元景

1. 快速安装

git clone https://github.com/UnicomAI/UniT2IXL.git
cd UniT2IXL
conda create -n unit2i python=3.10
conda activate unit2ixl
cd unit2ixl
pip install -r requirements.txt

2. 权重下载

huggingface-cli download --resume-download UnicomAI/UniT2IXL

3. 推理demo.py

from pipline_unit2ixl import UniT2IXLPipeline
pipeline = UniT2IXLPipeline.from_pretrained("UnicomAI/UniT2IXL")
pipeline = pipeline.to("cuda:0")
prompt = "在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪。"
image = pipeline(prompt=prompt,guidance_scale=7.5,target_size=(1024,1024)).images[0]

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
定位技术
阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏!
本文整理了阿里几位技术专家,如架构总监 谢纯良,中间件技术专家 玄难等几位大牛,关于中台架构的几次分享内容,将业务中台形态、中台全局架构、业务中台化、中台架构图、中台建设方法论、中台组织架构、企业中台建设实施步骤等总共13页PPT精华的浓缩,供大家学习借鉴。
38677 105
|
9月前
|
编解码 开发者
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
ImagePulse图律脉动数据集开源发布:解码GPT-4o级图像生成能力,四大原子数据集+自动生成工具开放
295 3
|
10月前
|
编解码 人工智能 测试技术
CogView4:智谱开源中文文生图新标杆,中文海报+任意分辨率一键生成
CogView4 是智谱推出的开源文生图模型,支持中英双语输入和任意分辨率图像生成,特别优化了中文文字生成能力,适合广告、创意设计等场景。
599 1
CogView4:智谱开源中文文生图新标杆,中文海报+任意分辨率一键生成
|
11月前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
1020 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
5月前
|
弹性计算 云计算
阿里云服务器ECS是什么?一张图看懂云服务器ECS全解析
阿里云云服务器ECS(Elastic Compute Service)是阿里云提供的高性能、稳定可靠、弹性扩展的基础设施即服务(IaaS)云计算服务。它免去传统IT硬件采购流程,让用户像使用水电一样便捷使用计算资源,实现即开即用与弹性伸缩。详细了解请访问阿里云官方页面。
|
8月前
|
人工智能 API 开发者
用Qwen3+MCPs实现AI自动发布小红书笔记!支持图文和视频
魔搭自动发布小红书MCP,是魔搭开发者小伙伴实现的小红书笔记自动发布器,可以通过这个MCP自动完成小红书标题、内容和图片的发布。
2915 41
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
360 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
搜索推荐 物联网 PyTorch
Qwen2.5-7B-Instruct Lora 微调
本教程介绍如何基于Transformers和PEFT框架对Qwen2.5-7B-Instruct模型进行LoRA微调。
13046 34
Qwen2.5-7B-Instruct Lora 微调
|
11月前
|
SQL JSON 数据可视化
基于 DIFY 的自动化数据分析实战
本文介绍如何使用DIFY搭建数据分析自动化流程,实现从输入需求到查询数据库、LLM分析再到可视化输出的全流程。基于经典的employees数据集和DIFY云端环境,通过LLM-SQL解析、SQL执行、LLM数据分析及ECharts可视化等模块,高效完成数据分析任务。此方案适用于人力资源分析、薪酬管理等数据密集型业务,显著提升效率并降低成本。
14799 16
|
人工智能 自然语言处理 调度
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象
Casevo 是中国传媒大学推出的开源社会传播模拟系统,结合大语言模型和多智能体技术,支持复杂社会网络建模与动态交互,适用于新闻传播、社会计算等领域。
526 22
Casevo:开源的社会传播模拟系统,基于 AI 模拟人类认知、决策和社会交互,预测社会传播现象

热门文章

最新文章