Poetry2Image：专为中文古诗词设计的图像生成校正框架，增强了诗歌内容与模型生成图像之间的一致性

2025-01-01 34

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，分割抠图1万点

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，图像资源包5000点

简介： Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架，通过自动化反馈和校正循环，提升诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

正文（附运行示例）

公众号: 蚝油菜花 - Poetry2Image

Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架，由哈尔滨工业大学提出。该框架通过自动化的反馈和校正循环，增强了诗歌与图像之间的一致性，有效捕捉诗歌的语义和艺术精髓。

Poetry2Image 解决了文本到图像生成模型在处理中文古典诗歌时常见的关键元素丢失或语义混淆问题。与五种流行的图像生成模型结合使用时，平均元素完整性达到 70.63%，语义一致性达到 80.09%。

图像元素的识别与校正：基于开放词汇检测器（OVD）识别图像中的元素信息，然后通过 LLM 提供修改建议，这些建议以图像中的框选形式呈现，指导图像编辑模型对初始图像进行编辑。
兼容性与训练成本：Poetry2Image 没有对用于初始图像生成的文本到图像生成模型的限制，并且迭代校正操作消除了额外训练成本的需求，同时自动化的图像生成和反馈过程显著减少了手动注释。

在项目目录中，你可以运行以下命令：

npm start

该命令将在开发模式下运行应用程序。打开 http://localhost:3000 在浏览器中查看。

npm test

该命令将以交互式监视模式启动测试运行器。

npm run build

该命令将应用程序构建到 build 文件夹中，以进行生产部署。

npm run eject

该命令将移除项目的单一构建依赖项，并将所有配置文件和传递依赖项复制到项目中，以便完全控制它们。

🥦 微信公众号｜搜一搜：蚝油菜花 🥦