社区供稿 | 创作《哈利波特与异界魔书》的过程和心得

简介: 可图Kolors-LoRA风格故事挑战赛一等奖作品,以下是团队创作过程的详细回顾

在探索AI生成与艺术创作的交汇点时,我们的团队在可图Kolors-LoRA风格故事挑战赛中,通过AI生成模型、LoRA微调等技术,将技术与创意完美融合,创作出了一部独特的视听作品--《哈利波特与异界魔书》。很荣幸获得了可图Kolors-LoRA风格故事挑战赛决赛一等奖,以下是我们创作过程的详细回顾:

01创作过程

人物模型训练

在人物模型训练方面,我们面临着如何平衡特征明显与自然度的挑战。对于赫敏角色,我们尝试了两种不同的数据集:一种是以“赫敏”为prompt生成的图片,另一种是真人图像。我们发现,前者特征明显但不够自然,后者则相反。

AI生成数据集

真人图像数据集

混合数据集

为了解决这一问题,我们采取了1:1混合数据集的方法,最终训练出的LoRA模型成功地结合了两者的优点,既保留了人物的主要特征,又使姿态看起来更自然。

哈利角色的LoRA模型则完全基于真人剧照,我们尝试将其与冰雪奇缘风格的LoRA模型融合,以期获得更二次元的效果,但由于冰雪奇缘风格模型中有不少人物会影响角色模型稳定性,最终没有采用。

哈利波特数据集

宫崎骏风格模型训练

在风格模型方面,我们从吉卜力官网获取了大量高清原画,经过多次参数调整,最终确定了宫崎骏风格的LoRA模型参数,使得作品风格独特,美学评估更高。值得一提的是,我们的宫崎骏风格模型在初赛中获得了人气top10模型的荣誉。

模型融合

在模型融合阶段,我们在基础的Kolors文生图模型上叠加了角色LoRA和宫崎骏风格LoRA,通过细致的参数调试,找到了最佳的融合效果。

图片生成

在图片生成过程中,我们通过概括性描述和细节调整,不断优化prompt和negative prompt,以确保人物稳定、风格统一、画面和谐。尽管过程中遇到了诸多挑战,但我们通过不懈努力,最终完成了18张故事分镜的创作。

视频生成

在视频生成阶段,我们调研并测试了多种图生视频模型,最终选择了以可灵AI为主的方法。因为使用开源的 ExVideo 生成视频时无法对视频画面进行指导和微调,而可灵AI模型使用3D时空联合注意力机制,支持表情和身体驱动,且能基于其自研的3D面部和身体重建技术,结合背景稳定性和重定向模块,实现表情和身体全驱动技术,我们决定使用快手平台的可灵AI模型,使用图像+Prompt的方式生成视频。取得很不错的效果。

音频生成

结合科大讯飞的语音合成技术,为视频添加了合适的旁白。通过编写python后端程序调用模型WebAPI生成所需音频,在虚拟机环境下使用ffmpeg库处理音频,得到如每段音频的时长等信息。

02心得

此次可图Kolors-LoRA风格故事挑战赛中,我们团队利用AI生成模型,加入采用先进的LoRA技术,训练角色模型,并引入宫崎骏风格的LoRA模型,将两者融合并利用文生图模型,生成宫崎骏风格的哈利波特电影角色。接着通过调整模型参数,实现了人物特征的稳定呈现与自然姿态的完美结合,创作出18张精美的故事分镜。视频生成上,我们采用可灵图生视频模型,以及科大讯飞的语音合成技术,为作品注入了生动的动态表现和旁白。这部作品不仅是一次视听艺术的探索,也是技术与创意的出色融合。通过此次比赛,我们深刻感受到LoRA微调技术、Stable Diffusion等的快速发展和应用,以及AI生成在未来的广阔前景。


点击链接👇,即可跳转作品品牌馆~https://modelscope.cn/brand/view/Kolors

相关文章
|
7月前
|
开发者
社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!
日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。
社区供稿 | 魔搭Agent创意挑战赛作品体验感受
近期在闲逛知乎时看到魔搭发起了一个Agent创新应用比赛,看了下奖金还挺高的呀( •̀ ω •́ )y
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
谈谈内容创作中的UGC、PGC、AIGC,在创意设计领域的应用与进化
在数字化时代,内容创作经历了从UGC(用户生成内容)到PGC(专业生产内容),再到AIGC(人工智能生成内容)的转变。UGC打破了传统边界,让每个人都能参与创作,但质量参差不齐;PGC代表专业水准,提供高质量内容,但成本高且制作周期长;AIGC借助AI技术大幅提升效率,实现个性化定制,但面临版权、伦理和情感表达的挑战。Adobe国际认证等专业资格成为了衡量设计师能力的新标准,帮助设计师适应这一变革并引领创新。三种模式相互补充,共同推动创意设计领域不断发展。
|
6月前
|
人工智能
妙笔生词是AI音乐创作业内自动写原创歌词的软件
妙笔生词智能写歌词软件,能软件助你轻松谱写多样化风格的歌词,流行、民谣、摇滚、中国风、儿歌,应有尽有。按需押韵,接龙续写,甚至能仿写喜爱歌曲。支持中文、英文、粤语、日语四种语言
|
7月前
|
人工智能 搜索推荐 开发者
社区供稿 | 大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品
北大团队新作,让大模型拥有个性!而且还是自定义那种,16种MBTI都能选。
|
7月前
|
数据采集 人工智能 小程序
再见知乎,全网AI文案生成工具大比拼
再见知乎,全网AI文案生成工具大比拼
126 0
持续输出:自媒体持续输出文字内容、视音频创作(视频课程、书籍章节)
持续输出:自媒体持续输出文字内容、视音频创作(视频课程、书籍章节)
|
XML 存储 JSON
Unity 使用ScriptableObject创作问答系统数据配置
Unity 使用ScriptableObject创作问答系统数据配置
170 1
Unity 使用ScriptableObject创作问答系统数据配置
如何对技术视频转换文章投稿进行二次创作
在技术社区经常会收到一些大的平台(华为云博客、infoq 等平台的投稿任务),经过对数千篇通用技术稿件,积攒了一些小技巧。所以,在你创作之前还是要好好的看一下,希望对你有帮助!
103 0
|
数据采集 Python
❤️不到100行把流式热榜截屏合成一张?爬虫终极秘诀【建议收藏】❤️
爬虫如何应对流式加载页面,这100行代码请收藏!
155 0
❤️不到100行把流式热榜截屏合成一张?爬虫终极秘诀【建议收藏】❤️