联通元景:中国联通开源中文原生的文生图模型,优化对中文长文本和成语语义等理解

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,基于国产昇腾AI平台,优化中文语义理解,支持高质量图像生成。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/1G8eXZY2OqgEId6yyN-nQQ


🚀 快速阅读

  1. 功能:支持中文语义理解和高质量图像生成。
  2. 技术:基于复合语言编码模块和昇腾AI算力集群。
  3. 应用:广泛应用于文物数字化、服装定制等领域。

正文(附运行示例)

联通元景是什么

公众号: 蚝油菜花 - UniT2IXL

联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。该模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生成质量。

联通元景基于预训练海量中文图文数据,减少信息损失,准确生成高质量图片。元景文生图模型支持国产全栈训推,适配自定义数据集,实现跨平台平滑切换。已在多个行业如文创、服装等领域应用,助力企业提效降本。

联通元景的主要功能

  • 中文语义理解:基于复合语言编码模块,精确理解中文长文本和多属性对应词汇,提升中文语义理解能力。
  • 高质量图像生成:根据中文文本生成高质量的对应图像,支持中文特色词汇和表达。
  • 预训练与推理:引入海量中文图文对数据进行预训练,提高模型对中文专属名词和复杂表达的理解能力。
  • 算力适配:在国产昇腾AI基础软硬件平台上实现训练和推理,适配国产算力。

联通元景的技术原理

  • 复合语言编码模块:在SDXL架构中融合复合语言编码模块,替换英文CLIP模型为中文CLIP,增强中文短文本的理解能力。
  • encoder-decoder架构:引入基于encoder-decoder架构的语言模型到语言编码器部分,支持超过CLIP长度限制的长文本输入。
  • 昇腾AI算力集群:在昇腾AI大规模算力集群上实现模型的训练和推理,提供强大的计算支持。
  • 接口与Diffusers对齐:模型推理接口与Diffusers对齐,简化使用流程,支持单卡和多卡推理,单卡推理支持UNet Cache加速。

如何运行联通元景

1. 快速安装

git clone https://github.com/UnicomAI/UniT2IXL.git
cd UniT2IXL
conda create -n unit2i python=3.10
conda activate unit2ixl
cd unit2ixl
pip install -r requirements.txt

2. 权重下载

huggingface-cli download --resume-download UnicomAI/UniT2IXL

3. 推理demo.py

from pipline_unit2ixl import UniT2IXLPipeline
pipeline = UniT2IXLPipeline.from_pretrained("UnicomAI/UniT2IXL")
pipeline = pipeline.to("cuda:0")
prompt = "在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪。"
image = pipeline(prompt=prompt,guidance_scale=7.5,target_size=(1024,1024)).images[0]

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
定位技术
阿里架构总监一次讲透中台架构,13页PPT精华详解,建议收藏!
本文整理了阿里几位技术专家,如架构总监 谢纯良,中间件技术专家 玄难等几位大牛,关于中台架构的几次分享内容,将业务中台形态、中台全局架构、业务中台化、中台架构图、中台建设方法论、中台组织架构、企业中台建设实施步骤等总共13页PPT精华的浓缩,供大家学习借鉴。
37144 117
|
9月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
459 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
算法 前端开发 Java
在字节当了几个月的牛马,醒悟了。
以前也分享过不少实习体验,比如去年就分享了一位师弟的美团实习体验:美团实习三个月,我受益良多,今天来分享一下一位学习圈中学弟的字节实习体验。
414 0
|
9月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
248 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
9月前
|
人工智能 索引
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
Infinity 是字节跳动推出的高分辨率图像生成模型,通过位级自回归建模和无限词汇量标记器,显著提升了图像生成的细节和质量。
436 19
Infinity:字节跳动开源高分辨率图像生成模型,生成 1024x1024 的图像仅需 0.8 秒
|
9月前
|
人工智能 数据库
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。
247 11
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
|
10月前
|
人工智能 文字识别 并行计算
行业实践 | 基于Qwen2-VL实现医疗表单结构化输出
本项目针对不同医院检查报告单样式差异大、手机拍摄质量差等问题,传统OCR识别效果不佳的情况,探索并选定了Qwen2-vl系列视觉语言模型。通过微调和优化,模型在识别准确率上显著提升,能够精准识别并结构化输出报告单信息,支持整张报告单及特定项目的识别。系统采用FastAPI封装接口,Gradio构建展示界面,具备高效、灵活的应用特性。未来该方案可扩展至多种文本识别场景,助力行业数字化转型。
800 20
|
9月前
|
人工智能 文字识别 自然语言处理
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
Vision Parse 是一款开源的 PDF 转 Markdown 工具,基于视觉语言模型,能够智能识别和提取 PDF 中的文本和表格,并保持原有格式和结构。
1227 19
Vision Parse:开源的 PDF 转 Markdown 工具,结合视觉语言模型和 OCR,识别文本和表格并保持原格式
|
2月前
|
弹性计算 云计算
阿里云服务器ECS是什么?一张图看懂云服务器ECS全解析
阿里云云服务器ECS(Elastic Compute Service)是阿里云提供的高性能、稳定可靠、弹性扩展的基础设施即服务(IaaS)云计算服务。它免去传统IT硬件采购流程,让用户像使用水电一样便捷使用计算资源,实现即开即用与弹性伸缩。详细了解请访问阿里云官方页面。
|
10月前
|
人工智能 监控 算法
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录
3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目,结合声学、语义和视觉信息,提供高精度的说话人识别和语种识别功能。项目包含工业级模型、训练和推理代码,以及大规模多设备、多距离、多方言的数据集,适用于多种应用场景。
2048 18
3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

热门文章

最新文章