WordArt Designer：基于用户驱动与大语言模型的艺术字生成-阿里云开发者社区

WordArt Designer：基于用户驱动与大语言模型的艺术字生成

2023-08-08 43589

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频通用资源包5000点

视觉智能开放平台，图像通用资源包5000点

视觉智能开放平台，分割抠图1万点

简介： 本文介绍了一个基于用户驱动，依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入，从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计，在艺术转换和可读性之间取得平衡。在SemTypo的基础上，StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。

创空间体验链接：https://modelscope.cn/studios/WordArt/WordArt/summary

图 1. WordArt Designer 交互原理示意图

艺术字设计是语言和设计的一个关键交叉点，在广告、幼儿教育和历史旅游等各个领域都有广泛的应用。遗憾的是，对于非专业的设计师来说，掌握艺术字设计仍然是一个非常挑战的任务。尽管之前已经有研究工作尝试弥合业余设计师和专业艺术字设计之间的差距，但现有的解决方案主要是在预定义的概念中生成语义连贯和视觉上令人愉悦的艺术字。这些解决方案通常缺乏适应性、创造性和计算效率。

图2. 由WordArt Designer生成的抽象艺术排版示例。这些实例证明了系统产生美观、语义连贯和风格多样的排版设计的能力。

方法概述

WordArt Designer 系统利用各种排版合成模块，由大型语言模型(LLM)推动，如GPT 3/4，促进交互式、以用户为中心的设计过程。如图3所示，用户定义他们的设计需求，包括设计概念和领域，例如，“珠宝设计中的猫”。LLM引擎解释输入，生成提示以指导SemTypo、stytypo和TextTypo模块，从而执行用户的设计愿景。为了实现WordArt的自动化设计，我们引入了一个质量评估反馈机制，这是成功合成的关键。排序模型的输出由LLM引擎评估，以验证合成图像的质量，确保创建至少K个合格的语义变换。如果不满足这个条件，LLM引擎以及SemTypo和stytypo模块和格式指令将重新启动，以进行另一个设计迭代。后续部分将深入研究每个模块的功能和操作的细节。