WordArt Designer:基于用户驱动与大语言模型的艺术字生成

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。

导读



本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。


该系统包含四个关键模块:LLM引擎、SemTypo、Styltypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。


SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。目前应用demo已上线至ModelScope创空间,其中对应文字变形、纹理渲染相关等模也即将在11月开源至ModelScope,敬请期待。


创空间应用体验

链接:https://modelscope.cn/studios/WordArt/WordArt/summary


阿里云开发者社区结果分享

链接:https://developer.aliyun.com/topic/vision/wordart?accounttraceid=1d19d366cfd64c07a8902ff7a5841b85smzy



艺术字设计是语言和设计的一个关键交叉点,在广告、幼儿教育和历史旅游等各个领域都有广泛的应用。遗憾的是,对于非专业的设计师来说,掌握艺术字设计仍然是一个非常挑战的任务。尽管之前已经有研究工作尝试弥合业余设计师和专业艺术字设计之间的差距,但现有的解决方案主要是在预定义的概念中生成语义连贯和视觉上令人愉悦的艺术字。这些解决方案通常缺乏适应性、创造性和计算效率。




技术架构图




WordArt Designer 系统主要涵盖4个关键模块,由大型语言模型(LLM)推动,如通义千问等,促进交互式、以用户为中心的设计过程。如图3所示,用户定义他们的设计需求,包括设计概念和领域,例如,“珠宝设计中的猫”。


LLM引擎:负责解析用户的设计需求,生成提示词以指导SemTypo、StylTypo和TextTypo模块,从而执行用户的设计愿景;


SemTypo模块: 负责根据LLM的提示创意词进行文字的变形,其中涉及文字参数化、区域笔画选择、可微渲染等;


StylTypo模块: 基于语义变形后的图像生成更平滑更丰富细节的图片;

TextTypo模块: 基于LLM的提示创意词进行文字纹理渲染,进一步生成带纹理的创意艺术字;


为了实现WordArt的自动化设计以及提高最终图片的质量,我们引入了一个质量评估反馈机制,确保进入纹理渲染模块的变形图片的创意性、艺术表达能力以及可扩展性。



最佳实践



目前,WordART Designer对应的应用已经上线至ModelScope创空间:创新艺术字(https://modelscope.cn/studios/WordArt/WordArt/summary),主要包括以下的三个功能(对应创空间的三个tab页面):


  1. 文字变形;
  2. 文字纹理;
  3. 创意文字生成。


下面对这三个部分逐一进行介绍。



文字变形


文字变形的功能是基于用户输入的创意效果,对用户输入的文字进行变形,并最终得到变形后的文字图片。具体的操作步骤如下图所示:



生成完成后,可以看到如下所示的界面,用户可以针对生成的结果进行如下的操作:


  1. 对生成的结果进行切换浏览;
  2. 点击“为变形字增加纹理”,将对应的图片发送至【文字纹理】版块(在下一小节介绍)进行纹理添加;
  3. 点击“变形字生成矢量图”,下载对应的矢量图片。




文字纹理


文字纹理的功能是基于用户输入的纹理效果,对用户输入的文字添加纹理,并最终得到上了纹理的文字图片。需要注意的事,用户可以通过以下两种方式来产生输入文字图片:


  1. 使用【文字变形】版块生成的变形文字图片作为输入,如上一小节所介绍,通过点击“为变形字增加纹理”将对应的图片发送至本版块;
  2. 直接输入文字内容,并支持选择不同的字体。


使用【文字变形】版块生成的变形文字图片作为输入,具体的操作步骤如下:



生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。



如果是直接输入文字,具体的操作步骤如下:



生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。




创意文字生成


有的用户会觉得上述【文字变形】和【文字纹理】版块的效果描述过于繁琐,无法想到很好的描述词,那不妨试试【创意文字生成】版块。创意文字生成基于用户输入的创意字,利用大语言模型自动为用户推荐文字变形创意和文字纹理创意,用户仅需输入创意字内容,就可以得到最终变形和纹理的效果图。


具体的操作步骤如下:



生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。




探索创作作品











点击直达链接~

https://modelscope.cn/studios/WordArt/WordArt/summary


相关文章
|
6月前
|
编解码 文字识别 测试技术
3000 字带你了解Claude3 视觉能力,OCR, 菜单识别统统能搞定!
五大任务,带你了解Claude3的视觉能力有多强 2024 年 3 月 4 日,Anthropic 震撼发布了全新的多模态模型——Claude 3。据该公司介绍,无论是语言处理还是视觉识别任务,Claude 3 都展现出了超越同类竞争产品(例如配备视觉功能的 GPT-4)的卓越性能。
209 0
|
28天前
|
机器学习/深度学习 人工智能
深度学习之音乐生成与风格转换
基于深度学习的音乐生成与风格转换是近年来人工智能领域的一个热门研究方向,涉及利用深度学习技术生成音乐作品或将音乐从一种风格转换为另一种风格。这种技术可以自动化创作过程,同时保持音乐的艺术性和风格特征,广泛应用于娱乐、音乐制作、交互式音乐生成等多个场景。
39 1
|
1月前
|
自然语言处理
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
要求CHATGPT高质量回答的艺术:提示工程技术的完整指南—第 23 章:命名实体识别提示
|
5月前
|
语音技术 开发者
ChatTTS:专为对话场景设计的文本转语音模型,底模开源!
最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。
ChatTTS:专为对话场景设计的文本转语音模型,底模开源!
|
5月前
|
机器学习/深度学习 人工智能
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。
43312 20
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
|
6月前
|
算法 计算机视觉
LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统
LabVIEW通过嘴唇图像识别为残疾人士开发文本输入系统
52 1
|
6月前
|
vr&ar 图形学
论文介绍:3D-SceneDreamer——基于文本驱动的3D场景生成技术
【5月更文挑战第2天】3D-SceneDreamer是一款文本驱动的3D场景生成工具,利用NeRF技术简化3D内容创作,通过文本描述创建室内及室外场景。该框架支持6-DOF摄像机轨迹,提高视角自由度。研究结合预训练的文本到图像模型解决3D数据稀缺问题,实现高质量、几何一致的场景生成。尽管面临文本描述精度和实际应用挑战,但该技术为3D场景生成带来显著进步。[论文链接](https://arxiv.org/pdf/2403.09439.pdf)
219 6
|
6月前
|
人工智能 自然语言处理
【AI Agent系列】【MetaGPT】7. 实战:只用两个字,让MetaGPT写一篇小说
【AI Agent系列】【MetaGPT】7. 实战:只用两个字,让MetaGPT写一篇小说
263 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
从文字到视频:借助ChatGPT与剪映轻松生成高质量视频
从文字到视频:借助ChatGPT与剪映轻松生成高质量视频
334 0

热门文章

最新文章