社区供稿 | 创作《哈利波特与异界魔书》的过程和心得

简介: 可图Kolors-LoRA风格故事挑战赛一等奖作品,以下是团队创作过程的详细回顾

在探索AI生成与艺术创作的交汇点时,我们的团队在可图Kolors-LoRA风格故事挑战赛中,通过AI生成模型、LoRA微调等技术,将技术与创意完美融合,创作出了一部独特的视听作品--《哈利波特与异界魔书》。很荣幸获得了可图Kolors-LoRA风格故事挑战赛决赛一等奖,以下是我们创作过程的详细回顾:

01创作过程

人物模型训练

在人物模型训练方面,我们面临着如何平衡特征明显与自然度的挑战。对于赫敏角色,我们尝试了两种不同的数据集:一种是以“赫敏”为prompt生成的图片,另一种是真人图像。我们发现,前者特征明显但不够自然,后者则相反。

AI生成数据集

真人图像数据集

混合数据集

为了解决这一问题,我们采取了1:1混合数据集的方法,最终训练出的LoRA模型成功地结合了两者的优点,既保留了人物的主要特征,又使姿态看起来更自然。

哈利角色的LoRA模型则完全基于真人剧照,我们尝试将其与冰雪奇缘风格的LoRA模型融合,以期获得更二次元的效果,但由于冰雪奇缘风格模型中有不少人物会影响角色模型稳定性,最终没有采用。

哈利波特数据集

宫崎骏风格模型训练

在风格模型方面,我们从吉卜力官网获取了大量高清原画,经过多次参数调整,最终确定了宫崎骏风格的LoRA模型参数,使得作品风格独特,美学评估更高。值得一提的是,我们的宫崎骏风格模型在初赛中获得了人气top10模型的荣誉。

模型融合

在模型融合阶段,我们在基础的Kolors文生图模型上叠加了角色LoRA和宫崎骏风格LoRA,通过细致的参数调试,找到了最佳的融合效果。

图片生成

在图片生成过程中,我们通过概括性描述和细节调整,不断优化prompt和negative prompt,以确保人物稳定、风格统一、画面和谐。尽管过程中遇到了诸多挑战,但我们通过不懈努力,最终完成了18张故事分镜的创作。

视频生成

在视频生成阶段,我们调研并测试了多种图生视频模型,最终选择了以可灵AI为主的方法。因为使用开源的 ExVideo 生成视频时无法对视频画面进行指导和微调,而可灵AI模型使用3D时空联合注意力机制,支持表情和身体驱动,且能基于其自研的3D面部和身体重建技术,结合背景稳定性和重定向模块,实现表情和身体全驱动技术,我们决定使用快手平台的可灵AI模型,使用图像+Prompt的方式生成视频。取得很不错的效果。

音频生成

结合科大讯飞的语音合成技术,为视频添加了合适的旁白。通过编写python后端程序调用模型WebAPI生成所需音频,在虚拟机环境下使用ffmpeg库处理音频,得到如每段音频的时长等信息。

02心得

此次可图Kolors-LoRA风格故事挑战赛中,我们团队利用AI生成模型,加入采用先进的LoRA技术,训练角色模型,并引入宫崎骏风格的LoRA模型,将两者融合并利用文生图模型,生成宫崎骏风格的哈利波特电影角色。接着通过调整模型参数,实现了人物特征的稳定呈现与自然姿态的完美结合,创作出18张精美的故事分镜。视频生成上,我们采用可灵图生视频模型,以及科大讯飞的语音合成技术,为作品注入了生动的动态表现和旁白。这部作品不仅是一次视听艺术的探索,也是技术与创意的出色融合。通过此次比赛,我们深刻感受到LoRA微调技术、Stable Diffusion等的快速发展和应用,以及AI生成在未来的广阔前景。


点击链接👇,即可跳转作品品牌馆~https://modelscope.cn/brand/view/Kolors

相关文章
|
10月前
|
开发者
社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!
日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。
社区供稿 | 魔搭Agent创意挑战赛作品体验感受
近期在闲逛知乎时看到魔搭发起了一个Agent创新应用比赛,看了下奖金还挺高的呀( •̀ ω •́ )y
|
8天前
|
机器学习/深度学习 人工智能 弹性计算
AI剧本生成与动画创作解决方案评测:这项技术能为短视频创作带来哪些改变?
随着短视频行业的竞争加剧,创作速度和质量成为关键。阿里云的《AI剧本生成与动画创作》解决方案利用NLP和计算机视觉技术,通过简单的关键词或主题自动生成剧本和动画,显著提高创作效率并降低技术门槛。评测显示,该方案能在几小时内完成从剧本到动画的创作,适应市场热点需求。然而,AI在创意表达和细节处理上仍有一定局限性,尤其在高要求创作中表现不如手工精细。尽管如此,对于需要快速响应市场的创作者来说,这一工具无疑是一个巨大的助力,未来有望进一步提升创作灵活性和效率。
53 3
|
15天前
|
机器学习/深度学习 人工智能 搜索推荐
AIGC 引擎:点燃创作自动化的未来之火
AIGC 引擎:点燃创作自动化的未来之火
|
5月前
|
人工智能 自然语言处理 算法
几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
【10月更文挑战第8天】几款宝藏级AI阅读工具推荐!论文分析、文档总结必备神器!
377 1
|
9月前
|
编解码 人工智能 测试技术
ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力
【6月更文挑战第30天】ShareGPT4Video`团队推出百万视频-字幕数据集,强化多模态模型的视频理解和生成。包括40K视频的`ShareGPT4Video`数据集、`ShareCaptioner-Video`模型和8B参数的`ShareGPT4Video-8B`模型,后者在视频基准测试中取得最佳效果。差异化字幕生成策略解决了传统方法的局限。尽管取得突破,但数据规模和模型泛化仍是未来挑战。[论文链接](https://arxiv.org/abs/2406.04325v1)
111 1
|
8月前
|
机器学习/深度学习 人工智能 搜索推荐
谈谈内容创作中的UGC、PGC、AIGC,在创意设计领域的应用与进化
在数字化时代,内容创作经历了从UGC(用户生成内容)到PGC(专业生产内容),再到AIGC(人工智能生成内容)的转变。UGC打破了传统边界,让每个人都能参与创作,但质量参差不齐;PGC代表专业水准,提供高质量内容,但成本高且制作周期长;AIGC借助AI技术大幅提升效率,实现个性化定制,但面临版权、伦理和情感表达的挑战。Adobe国际认证等专业资格成为了衡量设计师能力的新标准,帮助设计师适应这一变革并引领创新。三种模式相互补充,共同推动创意设计领域不断发展。
|
10月前
Sora原理?Sora技术报告解读(思维导图版)
Sora原理?Sora技术报告解读(思维导图版)这份思维导图是将Sora技术报告进行了整理和总结,并以思维导图的方式呈现了出来。使大家能够更清晰、明了的读懂sora技术报告。
Sora原理?Sora技术报告解读(思维导图版)
|
10月前
|
机器学习/深度学习 算法
Sora在视频创作中的优势
Sora在视频创作中的优势
113 3
Sora在视频创作中的优势
|
10月前
|
C# 开发工具 计算机视觉
Baumer视觉技术技术博客创作纪念日
Baumer视觉技术技术博客创作纪念日
78 0