❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/9uQGJUcqu9E36Ew-MS_CWg
🚀 快速阅读
- 功能:通过自动化反馈和校正循环,提升诗歌与图像之间的一致性。
- 技术:基于开放词汇检测器和大型语言模型,识别并校正图像中的关键元素。
- 应用:广泛应用于古诗词文化传播、艺术创作辅助、教育与学习等领域。
正文(附运行示例)
Poetry2Image 是什么
Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,由哈尔滨工业大学提出。该框架通过自动化的反馈和校正循环,增强了诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。
Poetry2Image 解决了文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。与五种流行的图像生成模型结合使用时,平均元素完整性达到 70.63%,语义一致性达到 80.09%。
Poetry2Image 的主要功能
- 自动化反馈和校正:通过使用外部诗歌数据集,建立自动化的反馈和校正循环,增强诗歌与图像之间的对齐度,提高生成图像的质量和准确性。
- 减少人工干预:降低了传统方法中所需的大量人工干预和专业知识需求,使图像生成过程更加高效。
- 提高效率和质量:相较于传统的微调方法,Poetry2Image 在保持生成图像质量的同时,显著减少了训练成本和时间。
- 搜索和翻译:系统会在诗歌数据库中搜索用户提供的古诗,并找出它的现代汉语翻译和赏析。
- 生成初始图像:基于诗歌的现代汉语翻译,系统会生成一幅初步的图像。
- 提取关键元素:系统会使用一个大型的语言模型来识别并提取诗歌中的关键元素。
- 图像修正:系统会检查生成的图像是否包含了所有这些关键元素,并在必要时提出修改建议,比如添加缺失的元素或调整元素的位置。
- 迭代优化:如果图像中的元素不完整或不正确,系统会根据建议再次生成图像,这个过程会不断重复,直到图像能够准确反映诗歌的意境。
Poetry2Image 的技术原理
- 图像元素的识别与校正:基于开放词汇检测器(OVD)识别图像中的元素信息,然后通过 LLM 提供修改建议,这些建议以图像中的框选形式呈现,指导图像编辑模型对初始图像进行编辑。
- 兼容性与训练成本:Poetry2Image 没有对用于初始图像生成的文本到图像生成模型的限制,并且迭代校正操作消除了额外训练成本的需求,同时自动化的图像生成和反馈过程显著减少了手动注释。
如何运行 Poetry2Image
在项目目录中,你可以运行以下命令:
npm start
该命令将在开发模式下运行应用程序。打开 http://localhost:3000 在浏览器中查看。
npm test
该命令将以交互式监视模式启动测试运行器。
npm run build
该命令将应用程序构建到 build
文件夹中,以进行生产部署。
npm run eject
该命令将移除项目的单一构建依赖项,并将所有配置文件和传递依赖项复制到项目中,以便完全控制它们。
资源
- GitHub 仓库:https://github.com/prajwalppv/Poetry2Image
- arXiv 技术论文:https://arxiv.org/pdf/2407.06196v1
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦