昨天,杭州图书馆和达摩院的合作项目
「AI算法复现古人“吟咏”中秋画面」
获得了CCTV13的报道
👏👏👏
点击查看视频
在中秋到来之际,杭州图书馆利用达摩院AI算法,首次让馆藏文献《宋画全集》中的《韩熙载夜宴图》、《阆苑女仙图》等十多幅古籍书画中的人物“动”起来:
这些古籍书画中的人物不仅能够朗诵中秋相关的诗词,他们的五官、神态还会随着节奏发生变化。
古画:宋画全集《韩熙载夜宴图》
朗诵内容:《念奴娇·中秋对月》·文征明
古画:宋画全集《调鹦图》
朗诵内容:《水调歌头·明月几时有》·苏轼
古画:宋画全集《阆苑女仙图》 朗诵内容
朗诵内容:《中秋赋》(观潮)
古籍书画既要保护也要传承,达摩院希望通过AI技术让古籍书画更加生动,让大家更好地读懂它们并了解历史文化。
让古籍书画人物“复活”和以往的图像识别任务不同,最终生成的视频既要保留原有插图人物形象又要增添接近真人的神态,这涉及到「人脸关键点分析」和「视频生成」2项AI算法。
此外,在合成的过程中还有两大难题:
运动敏感问题:让古籍书画“活”起来需要一段真人朗诵视频,但朗诵者头部运动幅度较大,容易导致生成视频变得模糊,从而会引起明显的边际效应,使得视频看起来并不协调。
达摩院设计了一种EAN (Edge-aware Attention Network),通过不同的权重来调整朗诵视频的局部运动模式,越靠近外侧边界的地方,权值越小,这样能够使生成的视频和原图具有很好的契合度,整个头部的运动具有平滑的过渡,进而能够提升对朗诵视频的运动干扰。
清晰度问题:因为古籍书画的清晰度较低,AI算法既要保持原有的古风古韵,也要为图画增加逼真的五官动作、表情。
达摩院视觉团队尝试将生成人脸的分辨率提升到512*512,同时尝试增加主干模型的复杂度以提高模型的容量,以提高生成视频的清晰度。
此外,因为古籍书画有许多的侧脸、头部歪着等案例,AI需要学习丰富的头部姿态,以增强算法在典籍图像上的鲁棒性。
杭州图书馆副馆长梁亮表示:“我们希望用古籍与AI技术结合的方式,来推动图书馆与新技术的融合发展。传承历史文化不再是限于纸上,而是科技化的呈现在读者的眼前。”
备注:来源| 阿里云公众号