在长文本生成方面,我们也做了很多研究,轻量化微调使模型效率更高,并做了很多的多任务联合建模来支持多种场景。
我们也做了一些内容和风格的定制化,以及文本自动评测,支持多行业多领域。
下面我就简单介绍几个典型的项目。
第一个就是网文生成,比如用户输入下图所示的一些关键词,电脑会自动生成一个非常丰富的句子,供网文写手来参考。
有些网文写手有自己的写作模板,我们接受他的模板,就可以生成更加丰富的句子。
有的网文写手需要对某些实体进行渲染,比如武士、美女等,这就需要网文写手写入一些关键词,然后平台会根据他的思路,把句子生成得更漂亮,供他参考。
我们也提供了续写功能,用户可以输入自己写的一句话或一段话,电脑自动往下续写,生成 n 个可供选择的输出结果供写手挑选。
我们的平台也可以做风格迁移(style transfer),例如从现代文 transfer 到文言文,也可以续写文言文。
我们也将文本生成的技术用于营销文案生成。营销文案原来都是请写手去写的,成本比较高,也比较费时。利用自动写作营销文案的方式,就可以快速生成多样化的营销文案。
例如对于化妆品领域的用户,可以输入标题「让你的肌肤重返 18 岁」,也可以输入一些关键词,比如姜汁、美白,或者输入一些知识图谱,我们的文本生成系统(孟子模型)就可以生成一篇丰富多彩、前后连贯的营销文案。
我们也做了一些可控文本生成的评测,探究只输入标题、关键词,或者加上三元组,模型生成文本的可控能力是否有所改进。
2021 年,我们与合作伙伴数说故事一起合作,打造了一款自动化写作产品 contentnote。
使用这款产品,用户可以选择协作的模板,提供产品的名字和若干关键词,就可以得到一篇营销文案。
由于我们利用了一些多语言技术,因此也可以生成多语言的营销文案,包括中文、英文、日文和葡萄牙语等等。
基于我们的技术,我们也在做智能研报生成的应用。所谓智能研报,就是指用户想写某一个主题的研报,我们的系统会自动从互联网和用户提交的数据中,抽取重要的材料,基于这些材料,生成问答对、事件摘要、舆情分析,基于这些要素就可以得到一个研报的生成结果 —— 是由标题到大纲到段落生成,并填充上一步生成的要素。
我们还尝试了 ESG 报告生成,根据用户的输入生成该公司的 ESG 报告。ESG 报告是现在很多企业都需要提交的一个综合报告,它体现了一个企业的治理能力。ESC 报告基本包含几大要素,每大要素又有一些要点。我们根据文本生成技术和信息抽取技术,就可以抽取重要信息并最终生成一个完整的报告。
我们基于澜舟的文本生成技术,也做了一些 ToC 的应用,目前做了熊猫小说家微信小程序的应用。用户注册使用并与朋友分享,就可以写成一系列的小说接龙。如下图所示,用户设置人设、故事梗概、主题,添加一些关键词,就可以创造一段小说。分享给朋友之后就可以用接龙的方式生成下一段小说。
基于这样的技术,我们也做了专业论文生成写作的尝试 —— 用户提交若干关键词,系统可以进行扩写,生成包含用户期望信息的推荐例句。澜舟论文助写(Langboat Paper Assistant 简称 LPA)提供了组句和续写功能。
下面的视频演示了澜舟论文助写应用的组句和续写功能:
以下视频来源于
澜舟科技
,时长01:33
此外,我们也做了一些文图生成,因为今天我的演讲主题是文本生成,所以我就简单说一下我们关于文图生成的工作。当前,Stable Diffusion 模型是针对英文信息、在英文大数据上学习的,对中文的一些要素(比如雷锋、长城、黄山),Stable Diffusion 模型的生成效果并不好。所以我们对数据进行了新的整理,另外加入了一些中文的界面,加入了一些中国人常见的风格选择。用户输入一些中文信息,就可以得到一个有中文色彩的画面。
我今天的演讲主要介绍了文本生成的一些关键技术,又介绍了澜舟科技在文本生成领域的一些实践。由于时间关系,我的演讲就到这里,请大家多多指正,谢谢大家。