中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源

简介: 中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源

文本人脸合成指的是基于一个或多个文本描述,生成真实自然的人脸图像,并尽可能保证生成的图像符合对应文本描述,可以用于人机交互,艺术图像生成,以及根据受害者描述生成犯罪嫌疑人画像等。针对这个问题,中科院自动化所联合北方电子设备研究所提出了一种基于多输入的文本人脸合成方法(SEA-T2F),并建立了第一个手工标注的大规模人脸文本描述数据集(CelebAText-HQ)。该方法首次实现多个文本输入的人脸合成,与单输入的算法相比生成的图像更加接近真实人脸。相关成果论文《Multi-caption Text-to-Face Synthesis: Dataset and Algorithm》已被ACM MM 2021录用。

 

image.png

image.png 相较于文本到自然图像的生成,文本到人脸生成是一个更具挑战性的任务,一方面,人脸具有更加细密的纹理和模糊的特征,难以建立人脸图像与自然语言的映射,另一方面,相关数据集要么是规模太小,要么直接基于属性标签用网络生成,目前为止,还没有大规模手工标注的人脸文本描述数据集,极大地限制了该领域的发展。此外,目前基于文本的人脸生成方法[1,2,3,4]都是基于一个文本输入,但一个文本不足以描述复杂的人脸特征,更重要的是,由于文本描述的主观性,不同人对于同一张图片的描述可能会相互冲突,因此基于多个文本描述的人脸生成具有很重大的研究意义。
针对该问题,团队提出了一个基于多输入的文本人脸生成算法。算法采用三阶段的生成对抗网络框架,以随机采样的高斯噪声作为输入,来自不同文本的句子特征通过SFIM模块嵌入到网络当中,在网络的第二第三阶段分别引入了AMC模块,将不同文本描述的单词特征与中间图像特征通过注意力机制进行融合,以生成更加细密度的特征。为了更好地在文本中学习属性信息,团队设计了一个属性分类器,并引入属性分类损失来优化网络参数。


image.png

image.png此外,团队首次建立了一个大规模手工标注数据集,首先在CelebAMask-HQ数据集中筛选了15010张图片,每个图片分别由十个工作人员手工标注十个文本描述,十个描述按照由粗到细的顺序分别描述人脸的不同部位。 实验结果 团队对提出的方法进行了定性和定量分析[5,6],实验结果表明,该方法不仅能生成高质量的图像,并且更加符合文本描述。 

image.png

image.png

image.png


image.png

image.png

参考文献:
1.      Osaid Rehman Nasir, Shailesh Kumar Jha, Manraj Singh Grover, Yi Yu,  Ajit Kumar, and Rajiv Ratn Shah. 2019. Text2FaceGAN: face generation  from fine grained textual descriptions. In IEEE International Conference  on Multimedia Big Data (BigMM). 58–67.2.      Xiang Chen, Lingbo Qing, Xiaohai He, Xiaodong Luo, and Yining Xu. 2019.  FTGAN: A fully-trained generative adversarial networks for text to face  generation. arXiv preprint arXiv:1904.05729 (2019).3.      David Stap, Maurits Bleeker, Sarah Ibrahimi, and Maartje ter Hoeve.  2020. Conditional image generation and manipulation for user-specified  content. arXiv preprint arXiv:2005.04909 (2020).4.      Weihao Xia, Yujiu Yang, Jing-Hao Xue, and Baoyuan Wu. 2021. TediGAN:  Textguided diverse image generation and manipulation. In Proceedings of  the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).  2256–2265.5.      Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei  Huang, and Xiaodong He. 2018. Attngan: Fine-grained text to image  generation with attentional generative adversarial networks. In  Proceedings of the IEEE Conference on Computer Vision and Pattern  Recognition (CVPR). 1316–1324.6.      Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip Torr. 2019.  Controllable text-to-image generation. In Advances in Neural Information  Processing Systems (NeuIPS). 2065–2075.

相关文章
|
17天前
|
机器学习/深度学习 物联网 大数据
软件测试的演变与未来:从传统方法到自动化革命
在数字化时代的浪潮下,软件测试作为保障软件质量的重要环节,其方法和工具经历了翻天覆地的变化。本文将带领读者穿梭时光隧道,探索软件测试的发展历程,从手工测试的繁琐与局限性,到自动化测试的高效与精准,再到未来可能迎来的智能化与集成化趋势。通过深入浅出的分析,我们将揭示如何通过不断进化的软件测试技术,提升软件开发的效率和质量,确保在这个快速变化的时代中,软件产品能够稳健前行。
|
21天前
|
机器学习/深度学习 敏捷开发 大数据
软件测试的演变之旅:从传统方法到自动化革命
在数字时代的浪潮下,软件测试作为保障产品质量的关键一环,经历了从手工测试到自动化测试的重大转变。本文将探讨这一演变背后的驱动力、所面临的挑战以及未来的发展趋势,为读者揭示软件测试领域的深层次变革。
|
1月前
|
人工智能 搜索推荐 API
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
开源2.0|从事视频剪辑的“熬者们”,自动化剪辑工具 FunClip请收好
|
29天前
|
Java Devops 持续交付
探索Java中的Lambda表达式:简化代码,提升效率DevOps实践:持续集成与部署的自动化之路
【8月更文挑战第30天】本文深入探讨了Java 8中引入的Lambda表达式如何改变了我们编写和管理代码的方式。通过简化代码结构,提高开发效率,Lambda表达式已成为现代Java开发不可或缺的一部分。文章将通过实际例子展示Lambda表达式的强大功能和优雅用法。
|
28天前
|
SQL 存储 数据处理
"SQL触发器实战大揭秘:一键解锁数据自动化校验与更新魔法,让数据库管理从此告别繁琐,精准高效不再是梦!"
【8月更文挑战第31天】在数据库管理中,确保数据准确性和一致性至关重要。SQL触发器能自动执行数据校验与更新,显著提升工作效率。本文通过一个员工信息表的例子,详细介绍了如何利用触发器自动设定和校验薪资,确保其符合业务规则。提供的示例代码展示了在插入新记录时如何自动检查并调整薪资,以满足最低标准。这不仅减轻了数据库管理员的负担,还提高了数据处理的准确性和效率。触发器虽强大,但也需谨慎使用,以避免复杂性和性能问题。
31 1
|
10天前
|
存储 监控 安全
在自动化测试环境中,如何确保测试数据的安全性和隐私性
在自动化测试环境中,如何确保测试数据的安全性和隐私性
|
10天前
|
存储 数据挖掘 测试技术
Python接口自动化中操作Excel文件的技术方法
通过上述方法和库,Python接口自动化中的Excel操作变得既简单又高效,有助于提升自动化测试的整体质量和效率。
18 0
|
1月前
|
人工智能 自然语言处理 搜索推荐
彻底摒弃人工标注,AutoAlign方法基于大模型让知识图谱对齐全自动化
【8月更文挑战第18天】知识图谱作为结构化语义库,在AI领域应用广泛,但构建中实体对齐难题一直存在。近期,AutoAlign提供了一种全自动对齐方案,由张锐等人研发并发布于arXiv。此方法摒弃传统的人工标注依赖,利用大型语言模型实现全自动化对齐。AutoAlign包括谓词与实体对齐两部分,通过构建谓词邻近图及计算实体嵌入,有效提升对齐性能。实验显示其性能超越现有方法,尤其适用于大规模数据集。尽管如此,AutoAlign仍面临计算资源消耗及不同领域适应性等挑战,未来需进一步优化以增强鲁棒性和泛化能力。
36 7
|
1月前
|
测试技术 Android开发 iOS开发
Appium 是一个开源的自动化测试框架,它支持多种平台和多种编程语言
Appium是一款开源自动化测试框架,支持iOS和Android多平台及多种编程语言。通过WebDriver协议,开发者可编写自动化测试脚本。在iPhone上实现屏幕点击等操作需安装Appium及其依赖,启动服务器,并设置所需的测试环境参数。利用Python等语言编写测试脚本,模拟用户交互行为,最后运行测试脚本来验证应用功能。对于iPhone测试,需准备真实设备或Xcode模拟器。
63 1
|
1月前
|
数据采集 机器学习/深度学习 算法
"揭秘数据质量自动化的秘密武器:机器学习模型如何精准捕捉数据中的‘隐形陷阱’,让你的数据分析无懈可击?"
【8月更文挑战第20天】随着大数据成为核心资源,数据质量直接影响机器学习模型的准确性和效果。传统的人工审查方法效率低且易错。本文介绍如何运用机器学习自动化评估数据质量,解决缺失值、异常值等问题,提升模型训练效率和预测准确性。通过Python和scikit-learn示例展示了异常值检测的过程,最后强调在自动化评估的同时结合人工审查的重要性。
55 2