作品呈现
原创音乐:词&曲 by 大模型
原创MV:图 & 视频素材 by 大模型
剪辑:本人
背景
传统的MV制作过程:脚本-->分镜-->关键帧-->动画-->配音配乐。
利用常见一个MV的过程,参考了传统的MV的协作流程,并结合了当前的大模型能力:
- 纯人工:一部分继续交给人工,比如(剪辑);
- 人工交互:一部分因为没有接口,直接使用交互版的大模型能力(比如 音乐创作和图生视频);
- 接口自动化:提示词优化和生成,脚本创作和分镜已经完全可以交给大模型的Agent完成;
大模型的能力还在不断的发展中,虽然现在人工干预很多,对于未来Multi-Agent协同来完成一个MV,只需要多模态大模型的接口完全开放就能做到。
Agent拆分和提示词
编导Agent
分镜脚本
通过coze添加一个Agent
agent人设
# 角色 你是一个专业的动漫声音声乐导演,能够出色地负责动漫配音工作,精心制作各种音效,巧妙创作背景音乐以及打造精彩的主题曲。 ## 技能 ### 技能 1: 配音工作 1. 当接到动漫配音任务时,根据角色特点和剧情需要,合理安排配音演员进行配音。 2. 确保配音质量和效果,使其与动漫画面完美融合。 ### 技能 2: 音效制作 1. 根据动漫情节和氛围,制作合适的音效。 2. 不断调整和优化音效,增强观众的听觉体验。 ### 技能 3: 背景音乐创作 1. 深入理解动漫主题和情感,创作契合的背景音乐。 2. 使背景音乐能有效烘托动漫的氛围和情感。 ### 技能 4: 主题曲创作 1. 为动漫量身打造独特而吸引人的主题曲。 2. 让主题曲能够准确传达动漫的精神和特色。 ## 限制: - 专注于动漫声音相关领域,不涉及其他无关内容。 - 严格按照给定格式输出内容,不得偏离。 - 各项工作描述不超过 100 字。
通过编导Agent,创作“梦境为主题的故事和分镜脚本”剧本。
其中分镜内容,主要用来创建视频。
内容概要,主要用于后面的原创歌曲。
分镜脚本,这里给的一个示例。
分镜编号 | 镜头类型 | 人物 | 镜头内容 | 台词 | 美术提示词 |
01 | 全景 | 主角 | 主角躺在床上,渐渐入睡 | 无 | 昏暗房间,主角安静躺着 |
02 | 全景 | 主角 | 主角置身于神秘森林中,月光洒下,仿佛梦中 | 无 | 静谧森林,月光 |
03 | 中景 | 主角 | 主角好奇地在森林中探索,夜色,充满疑惑 | 主角:这是哪里? | 森林,主角走动 |
04 | 全景 | 城堡 | 主角看到远处的城堡,森林中,月光下,古老城堡 | 无 | 古老城堡 |
05 | 中景 | 主角 | 夜色中,月光下,主角走向古老神秘的城堡,试图推开大门,特写主角和城堡大门 | 无 | 主角和城堡大门 |
06 | 近景 | 城堡 | 夜色中,大门缓缓打开,近景特写大门,近景特写推开门的手,大门上古老的神秘纹路 | 嘎吱声 | 打开的城堡大门 |
07 | 全景 | 主角 | 城堡内,一片黑暗,只有一点烛光 | 无 | 黑暗城堡内,一点烛光 |
08 | 近景 | 主角 | 主角靠近烛光,光线黑暗,看到一个模糊的影子,特写人物影子 | 无 | 烛光和影子 |
09 | 中景 | 主角 | 夜晚,主角被惊醒,从床上坐起身,表情惊恐 | 主角:啊! | 主角在床上,惊恐表情 |
10 | 全景 | 主角 | 夜晚,主角看着房间,若有所思,思考刚才的梦 | 主角:那个梦…… | 房间,主角思考状 |
美术Agent
关键帧
方案一:同样的通过Agent可以创作一个,添加一个分镜的图像流,基座模型用通义万相。
人设
# 角色 你是一个专业的美术导演,在青春校园动漫、二次元动漫、玄幻风格动漫等领域有着卓越的才能,可以将分镜脚本巧妙地绘制成分镜草图,还能依据分镜草图精准地绘制出美术制作所需的关键帧画面。 ## 技能 ### 技能 1: 绘制分镜草图 1. 当收到分镜脚本时,根据脚本内容绘制分镜草图。 2. 确保草图能够清晰展现故事场景和角色动作。 ### 技能 2: 绘制关键帧画面 1. 根据分镜草图,提炼关键帧并进行绘制。 2. 要突出动漫风格和特点。 ## 限制: - 专注于动漫相关的创作,不涉及其他无关内容。 - 严格按照给定格式输出内容。 - 对于主角形象,分镜脚本中保持人物的一致性 - 输出图片都是9:16的比例,高清,二次元风格
关键帧创作
难点:人物的一致性,原始分镜脚本下创建的分镜01和02,人物一致性难以保持。
解决方案:人物描述的全局补充,对于场景和时间,补充在分镜脚本内容中。
根据分镜头脚本,通过脚本解析成提示词。
主角描述 + 镜头类型贯穿全文。
背景描述,初衷的设计是取前几个提示词,形成记忆,便于前后的信息连贯,但是尝试过通义万相后,发现背景信息的提示干扰比较大,暂时没有使用。其他模型暂未尝试。
根据不同的提示词获取到的场景分镜前6关键帧如下:
整体看:
- 人物的一致性比不加全局人物提示词有改进,服饰的细节可以补充后进一步优化;
- 画质和风格的一致性通过约束输出保持较好;
- 镜头的远景/中景/近景/特写的理解比较差,通义对于镜头的关键词理解较弱,通义万相提示的镜头语言应该是 微距/长焦等,和视频的镜头语言有差异;
视频
通过关键帧生成视频,用的Runway免费版本,谷歌or苹果账号登陆,图生视频的功能免费版比较简单:
且没有接口,这部分人工操作的,仅作为素材的增强,用的最基础的能力把关键正生成视频,图转视频效果参考最终的作品。
之所以选择关键帧生成视频,而不是直接文生视频的方案,主要的考虑也是为了解决文生视频产生的不一致问题。
声乐导演Agent
主题曲
提示方式:歌词+提示词+音乐风格
常见歌曲结构:前奏-主歌-前副歌-副歌-间奏-主歌-副歌-桥段-副歌-尾奏
领域词汇:
- melodic instrumental
- verse主歌
- chorus 副歌
- rap
...
一个lyrics结构的例子:
[melodic instrumental] ---!~... [verse] 歌词歌词... [chorus] 歌词歌词...
本文的歌词:
[Verse] Woke up from a strange scene last night Chasing shadows under moonlight In my dreams I get so lost Floating through a world that costs [Verse] Reality's a weight I can't bear Whispers in my ear everywhere In the night my fears take flight Inner darkness out in plain sight [Chorus] In dreams I find myself A place I can be free But the waking world pulls me down A prison I can't see Lost in dreams and realities
剪辑成片
剪映:比较简单,就是音频 + 歌词 + 视频三个素材轨道,直接拼接,调整了专场和视频长度,来贴合音乐。
其他工具可用于替换
关键帧生成 | Mjdjourney |
视频生成 | pika |
音乐和音效 | audiocraft:音效大模型,需要自己部署 |
chattts:配音 | |
剪辑 | iMovie |
来源 | 阿里云开发者公众号
作者 | 逐月