导读
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。
该系统包含四个关键模块:LLM引擎、SemTypo、Styltypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。
SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。目前应用demo已上线至ModelScope创空间,其中对应文字变形、纹理渲染相关等模型也即将在11月开源至ModelScope,敬请期待。
创空间应用体验
链接:https://modelscope.cn/studios/WordArt/WordArt/summary
阿里云开发者社区结果分享
艺术字设计是语言和设计的一个关键交叉点,在广告、幼儿教育和历史旅游等各个领域都有广泛的应用。遗憾的是,对于非专业的设计师来说,掌握艺术字设计仍然是一个非常挑战的任务。尽管之前已经有研究工作尝试弥合业余设计师和专业艺术字设计之间的差距,但现有的解决方案主要是在预定义的概念中生成语义连贯和视觉上令人愉悦的艺术字。这些解决方案通常缺乏适应性、创造性和计算效率。
技术架构图
WordArt Designer 系统主要涵盖4个关键模块,由大型语言模型(LLM)推动,如通义千问等,促进交互式、以用户为中心的设计过程。如图3所示,用户定义他们的设计需求,包括设计概念和领域,例如,“珠宝设计中的猫”。
LLM引擎:负责解析用户的设计需求,生成提示词以指导SemTypo、StylTypo和TextTypo模块,从而执行用户的设计愿景;
SemTypo模块: 负责根据LLM的提示创意词进行文字的变形,其中涉及文字参数化、区域笔画选择、可微渲染等;
StylTypo模块: 基于语义变形后的图像生成更平滑更丰富细节的图片;
TextTypo模块: 基于LLM的提示创意词进行文字纹理渲染,进一步生成带纹理的创意艺术字;
为了实现WordArt的自动化设计以及提高最终图片的质量,我们引入了一个质量评估反馈机制,确保进入纹理渲染模块的变形图片的创意性、艺术表达能力以及可扩展性。
最佳实践
目前,WordART Designer对应的应用已经上线至ModelScope创空间:创新艺术字(https://modelscope.cn/studios/WordArt/WordArt/summary),主要包括以下的三个功能(对应创空间的三个tab页面):
- 文字变形;
- 文字纹理;
- 创意文字生成。
下面对这三个部分逐一进行介绍。
文字变形
文字变形的功能是基于用户输入的创意效果,对用户输入的文字进行变形,并最终得到变形后的文字图片。具体的操作步骤如下图所示:
生成完成后,可以看到如下所示的界面,用户可以针对生成的结果进行如下的操作:
- 对生成的结果进行切换浏览;
- 点击“为变形字增加纹理”,将对应的图片发送至【文字纹理】版块(在下一小节介绍)进行纹理添加;
- 点击“变形字生成矢量图”,下载对应的矢量图片。
文字纹理
文字纹理的功能是基于用户输入的纹理效果,对用户输入的文字添加纹理,并最终得到上了纹理的文字图片。需要注意的事,用户可以通过以下两种方式来产生输入文字图片:
- 使用【文字变形】版块生成的变形文字图片作为输入,如上一小节所介绍,通过点击“为变形字增加纹理”将对应的图片发送至本版块;
- 直接输入文字内容,并支持选择不同的字体。
使用【文字变形】版块生成的变形文字图片作为输入,具体的操作步骤如下:
生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。
如果是直接输入文字,具体的操作步骤如下:
生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。
创意文字生成
有的用户会觉得上述【文字变形】和【文字纹理】版块的效果描述过于繁琐,无法想到很好的描述词,那不妨试试【创意文字生成】版块。创意文字生成基于用户输入的创意字,利用大语言模型自动为用户推荐文字变形创意和文字纹理创意,用户仅需输入创意字内容,就可以得到最终变形和纹理的效果图。
具体的操作步骤如下:
生成完成后,可以看到如下所示的界面,用户可以切换查看生成结果。
探索创作作品
点击直达链接~
https://modelscope.cn/studios/WordArt/WordArt/summary