HappyHorse 1.1 已上线！快乐小马最新模型使用指南来噜～-阿里云开发者社区

🚀 模型核心能力升级

HappyHorse 1.1 是新一代视频生成大模型，在 1.0 基础上实现动态表现力、角色一致性、指令遵循、视觉质感与音频能力的全面升级。模型聚焦短剧制作、电商广告、品牌营销、游戏 CG 等内容生产场景中的高频需求，进一步提升在真实生产环境中的可用性。

HappyHorse 1.0 模型使用参考 HappyHorse 1.0 系列模型使用指南（5.11 版本）

本次模型的亮点如下：

动态表现力提升：通过强化运动建模与帧间时序一致性优化，显著提升动作连贯性与力量感，大幅改善 1.0 中部分场景动作偏慢、运动不流畅的问题。
多图参考一致性增强（R2V）： 强化对参考图的注意力机制，支持多角色参考同屏不互相污染、角色与场景自由组合，分镜和九宫格参考一致性大幅提升。
长指令与复杂场景调度： 优化长上下文语义保持与分段场景规划能力，单条 Prompt 支持 6-8 个连续场景自动调度，多角色站位与空间关系建模更加准确。
视觉质感升级：针对 1.0 中面部油光感、过度锐化等反馈，优化人物细节生成与真实肤质还原，面部大特写表现力显著提升，多镜头叙事衔接更自然。
原生音视频协同：音频生成从"附带音频"升级为原生协同，台词语速停顿自然变化，背景音效受 Prompt 控制可关闭，音画同步精度大幅提升。

模型名称	模型能力	输入输出	计费单价
happyhorse-1.1-i2v	以首帧图片为基础，支持通过文本描述进行引导，生成物理真实、运动流畅的视频。	图片 + 文字 → 视频	720P：¥0.9/秒 1080P：¥1.2/秒免费额度： 10s 发布前两周 6 折调用优惠（6.22 - 7.5）
happyhorse-1.1-t2v	输入文本提示词生成物理真实、运动流畅的视频内容。	文字 → 视频
happyhorse-1.1-r2v	支持传入多张参考图像、九宫格故事板，通过文本提示词描述场景，将图像中的主体角色或根据分镜，融合生成一段流畅的视频。	参考图片 + 文字 → 视频

happyhorse-1.0 系列维持 8 折折扣，到 2026 年 7 月 5 日

百炼现已支持体验 HappyHorse 1.0/1.1 系列模型🎉，体验地址

🎬 模型 Case Demo

R2V 参考生视频（支持图片输入）

HappyHorse 1.1 通过强化对参考图的注意力，大幅提升了生成视频与多图参考细节的一致性

九宫格故事板：分镜参考一致性大幅增强

多角色 + 场景参考：上传多张角色参考图，在同一视频中保持各角色外貌特征一致，不互相污染；角色参考图 + 场景参考图分离输入，角色可在场景切换中保持一致性

九宫格故事板

Input (Text + Image) 输入文字+图片

[Image1]

按照故事板序列生成视频。[Image1] 是一张 3x3 的故事板拼图。请严格按照从左到右、从上到下的顺序（左上→中上→右上→左中→中中→右中→左下→中下→右下），将每个格子视为视频的一个独立镜头，依次生成连贯序列。【风格与氛围】韩漫电影感，温暖店内灯光与冷色雨夜对比，治愈、安静、微孤独。画面严禁出现任何文字。【角色设定】女主：穿长外套的年轻女生，发丝微湿，疲惫但温柔。店员：清爽短发的便利店夜班少年。【分镜指令】格子1（左上）：全景，雨夜街角的便利店亮着暖白灯光。格子2（中上）：中景，女主推门进店，肩带夜雨湿气。格子3（右上）：近景，女主站在热饮柜前微微发呆。格子4（左中）：中景，店员从收银台抬头看向她。格子5（中中）：特写，热饮柜橙色暖光映在她手边。格子6（右中）：近景，女主拿起热饮，神情放松。格子7（左下）：近景，店员露出温和克制的微笑，说："오늘도 수고 많았어요." 格子8（中下）：中景，女主回以浅笑，疲惫感被冲淡。格子9（右下）：收束镜头，女主捧着热饮站在店门外，背影被灯光映得温柔。【生成要求】保持每张格子的构图与镜头语言，镜头运动平滑，在镜头间创建自然转场。角色特征与光影氛围全程一致。

[Image1]

按照故事板序列生成视频。[Image 1]是一张3x3的故事板拼图。请严格按从左到右、从上到下的顺序（左上→中上→右上→左中→中中→右中→左下→中下→右下），将每个格子视为视频的一个独立镜头，依次生成连贯序列。

【风格与氛围】日系动画电影感，夏日乡村、温暖阳光、清新治愈、安静怀旧。画面严禁出现任何文字或拼图网格线。【角色设定】主角：穿浅黄色连衣裙的小女孩，黑色短发。配角：灰色虎斑小猫，圆眼好奇。核心道具：挂在日本乡村老屋檐下的透明玻璃风铃，带花卉图案和白色纸签。【场景】木质门廊、花草石阶、远处田野村庄群山与蓝天白云，结尾过渡到金色夕阳。【分镜指令】格子1（左上）：中景，女孩在木质门廊边发现风铃，抬头靠近端详。格子2（中上）：近景，花丛后的灰色小猫探头观察她，好奇眼神。格子3（右上）：特写，风铃在蓝天下随风摇晃，纸签轻轻飘动。格子4（左中）：中景，女孩蹲下身把风铃放低给小猫看，小猫凑近。格子5（中中）：近景，小猫伸爪轻触风铃纸签，阳光透过花叶。格子6（右中）：近景，女孩开心地抱起小猫，笑容灿烂，风铃在旁。格子7（左下）：中景，女孩和小猫并肩坐在门廊上，看向远山田野。格子8（中下）：大全景，展现宁静夏日乡村全貌，蓝天白云群山。格子9（右下）：特写，夕阳金光中的风铃轻摇，安静温暖的收束。【生成要求】保持每格的构图与镜头语言，角色外貌与光影氛围全程一致。镜头运动柔和自然，镜头间创建平滑转场，整体像一支温柔的动画电影片段。

[Image1]

按照故事板序列生成一支日系青春汽水广告视频。[Image 1] 是一张 16:9 的 3x3 故事板拼图。请严格按照从左到右、从上到下的顺序，也就是左上→中上→右上→左中→中中→右中→左下→中下→右下，将每个格子视为视频的一个独立镜头，依次生成连贯广告片段。

【整体风格与氛围】日本夏日运动饮料广告风格，青春、清爽、阳光、积极、带一点日剧 CM 的热血感。画面为写实真人广告质感，蓝天、城市天台、篮球场、河岸 skyline、橙色运动外套与蓝色饮料瓶形成强烈品牌色对比。整体节奏明快，阳光通透，高饱和但自然，带有轻微慢动作、风吹发丝、运动模糊、瓶身水珠、气泡感和清凉感。音乐为轻快 J-pop 广告配乐，节奏从轻快逐渐推向昂扬。

【文字要求】画面中不要新增任何额外文字、字幕、乱字或水印。瓶身上的 Happy Run 品牌标识需要尽量保持清晰一致。故事板里的日文广告语不要强行生成成画面字幕，而是转化为旁白或情绪表达，避免视频里出现乱码文字。最后品牌镜头可以保留清晰的 "Happy Run" 品牌 logo 感，但不要出现多余文字。

【角色设定】女主：年轻日本女生，短发或中短发，穿橙色轻薄运动外套、白色短上衣、深蓝运动裤，气质清爽、自信、元气，像日本青春广告主角。全片保持同一张脸、同一套服装、同一气质。朋友 A：年轻女生，穿蓝绿色外套，活泼开朗。朋友 B：年轻男生，穿蓝色外套，阳光爽朗。三人关系自然亲近，像一起运动、学习、挑战目标的朋友。

【品牌与产品】产品为蓝橙配色的 Happy Run Citrus 能量汽水瓶。瓶身有冷凝水珠，阳光下闪光，开瓶和饮用时有清爽气泡感。产品要贯穿多个镜头，但不能变形，不要把瓶子画成其他饮料。

【分镜指令】格子1（左上）：低机位广角，蓝天下的城市天台，女主站在栏杆旁，伸手把 Happy Run 饮料瓶递向镜头，瓶子在前景放大，女主在后方自信微笑。镜头轻微推近，阳光照亮瓶身水珠。旁白：「気持ちに、点火しよう。」格子2（中上）：中近景，女主站在河岸或天台边，仰头喝 Happy Run。背景是城市 skyline 和晴朗蓝天。镜头从瓶身特写轻轻上摇到她喝下饮料的侧脸，表现清凉、提神、能量被唤醒。旁白或轻声台词：「Citrus Power, ready to move!」格子3（右上）：运动镜头，女主在天台篮球场或运动场上向前奔跑，橙色外套被风吹起，头发随风飞扬。摄影机跟拍她的侧面，带轻微手持感和速度感，背景有篮球架、铁丝网和城市高楼。旁白：「走り出せば、世界が変わる。」格子4（左中）：安静转场，中景，女主坐在户外长椅上低头写字或学习，旁边放着 Happy Run 饮料瓶。镜头缓慢推进，阳光从建筑间洒下，表现专注与补充能量。她短暂抬头，露出重新集中精神的表情。旁白：「集中、フルチャージ。」格子5（中中）：三人互动镜头，女主和朋友 A、朋友 B 在天台上开心击拳。右侧必须是年轻男性朋友，三人笑容自然。镜头从三人的手部击拳特写拉到三人的笑脸，动作轻快有感染力。旁白：「一緒なら、もっと上へ！」格子6（右中）：夕阳镜头，女主站在天台边，手里拿着 Happy Run 饮料瓶，看向远处城市夕阳。暖色夕光照亮她的侧脸，画面从白天蓝调过渡到金色黄昏。镜头缓慢环绕她半圈，表现向明天继续前进的感觉。旁白：「明日の、加速を。」格子7（左下）：阳光回归，女主靠在栏杆边，笑着望向远方，身体放松但充满自信。镜头轻微低角度仰拍，天空和高楼作为背景，风吹动外套和发丝。旁白：「今日の一歩が、未来になる。」格子8（中下）：品牌主视觉镜头，Happy Run 饮料瓶在前景占据画面左侧，瓶身清晰、有水珠和高光，女主在旁边微笑看向镜头。背景是明亮蓝天和城市。镜头缓慢推近瓶身，最后轻微转焦到女主笑脸，再回到瓶身。旁白：「弾ける自信、ここから。」格子9（右下）：收束镜头，三人在天台上举起 Happy Run 碰瓶，开心大笑。画面明亮、轻松、元气，蓝天作为背景。镜头从三人中景推进到饮料瓶碰撞特写，瓶身水珠和气泡闪光，最后定格在三人笑容与 Happy Run 产品上。旁白：「さあ、元気をまわせ！」最后可以加入短促品牌口播：「Happy Run Citrus。」

【镜头与转场要求】每个格子的构图必须参考原故事板，不要改变主要人物位置、动作关系和场景顺序。镜头之间要自然转场，不能像简单幻灯片切换。可以使用广告感的快速剪辑、阳光闪白转场、运动擦镜、饮料瓶特写转场、天空 match cut。全片保持角色脸部一致、服装一致、产品一致、蓝橙品牌色一致。

【画面质量要求】写实真人广告片，高清 4K 质感，人物脸部自然清晰，不要塑料感，不要过度磨皮，不要动漫化，不要畸形手指，不要错误文字，不要多余 logo，不要水印。运动镜头需要有真实速度感，但人物脸和产品瓶身关键帧要保持清楚。整体像日本电视广告或 YouTube 品牌广告，青春、清爽、积极、元气。

[Image1]

Generate a luxury fashion commercial following the 3x3 storyboard in [Image 1]. Follow panel order 1→9 (left to right, top to bottom). Duration: 15 seconds, fast-paced editorial rhythm.

[Style] Photorealistic luxury fashion-ad cinematography. Warm golden-hour sunlight, shallow depth of field, elegant motion blur, 24fps film look. Color palette: warm beige, cream, deep green with bold red STAR branding accents. Chanel-level production quality. Smooth cinematic transitions between shots. NOT illustration, NOT anime.

[Character] Sophisticated blonde woman, early 30s, athletic build, blue eyes. Wearing: beige ribbed zip-up STAR jacket, white baseball cap with embroidered red star, sunglasses, professional archery arm guard. Maintain identical appearance across all shots.

[Products] White baseball cap with red embroidered star logo. White leather sneakers with prominent red STAR logos. White tea set (teapot and cups) with red star emblems.

[Shot Sequence]

Shot 1: Extreme close-up, the woman raises her bow. Slow push toward her focused eyes. Golden sunlight catches her hair. Bowstring tightens.

Shot 2: Side-profile medium close-up. She fully draws the bowstring to her cheek. Subtle finger and shoulder tension. Background softly blurred estate gardens.

Shot 3: Fast sweeping drone shot racing above green lawns toward a neoclassical mansion. Motion blur on foreground trees. Establish scale.

Shot 4: Smooth cinematic glide across terraces, tall hedges, and sculpted gardens. Camera floats through the landscape.

Shot 5: The woman sits at an elegant outdoor tea table on a stone terrace. White teapot and cups with red STAR logos visible. She lifts a cup. Soft breeze moves nearby flowers.

Shot 6: Slow reveal of the white STAR cap resting near the terrace. Camera gently orbits around it. Warm sunlight creates luxurious rim highlights on the fabric.

Shot 7: White leather STAR sneakers hang by their laces from a tree branch. Leaves sway naturally. Camera slowly tilts upward to frame the shoes against dappled light.

Shot 8: Binocular POV. Circular vignette fills the screen. The hanging sneakers centered in view, slow zoom toward them. An arrow embedded in the branch nearby — she found her target.

Shot 9: Hero portrait. The woman lowers binoculars and looks directly into camera with calm confidence. Wind moves her hair. Mansion softly blurred behind. End frame.

[Requirements] Maintain character face and outfit consistency across all 9 shots. All STAR branding (cap, shoes, tea set) must show the red star logo clearly. No text overlays, no extra graphics. Realistic physics throughout — hair, fabric, leaves, steam from teacup.

多角色/物品 x 场景参考

Input (Text + Image) 输入文字+图片

[Image1]

[Image2]

[Image3]

[Image4]

[Image 1] is the opening live-selling frame — host holding pants. [Image 2] is the try-on transformation — host wearing the pants. [Image 3] is the product — mocha-taupe ribbed knit wide-leg lounge pants. [Image 4] is the home interior environment.

Vertical 16:9 realistic live-commerce video. Front-facing phone camera, warm cozy apartment from [Image 4], natural window light mixed with soft lamp glow, subtle handheld sway throughout.

The female host from [Image 1] stands in the living room facing camera with excited energy. She holds the ribbed knit pants [Image 3] up in her left hand, waistband and drawstring visible, delivering a fast persuasive pitch with direct eye contact. She says: "Okay, real question… how many sweatpants do you own that actually make you look put-together?" As she finishes, camera pushes in and her fingers pinch the fabric near the waistband, stretching it to show softness.

Quick whip-pan transition — the pants briefly fill the frame as a natural wipe.

Cut to the host now wearing the mocha-taupe pants as in [Image 2], framed waist-to-thigh. She beams with exaggerated excitement, touches the high waistband, smooths the ribbed fabric over her hip, then pulls the waistband outward showing stretch. She says: "This is not just couch wear. It's buttery-soft ribbed knit, it stretches with you, and the high waist actually stays in place. No rolling, no sagging."

Camera pulls back to full body. She steps back, turns slightly to the side, shifts weight into a quick try-on pose, then walks forward showing the wide-leg drape. She says: "Watch this — grocery run, coffee date, airport outfit, done."

She leans toward camera, smiles confidently, points downward toward an imaginary link below frame. Clean empty space at bottom of frame. She says: "Tap the link and grab yours before this color sells out again."

No subtitles, no text, no watermark, no brand logo, no shopping UI in the generated video. Natural skin texture, sharp ribbed knit fabric detail, believable body movement, no distorted hands.

中文 Prompt 参考：

[Image 1] 为开场直播带货画面，女主播手持裤子。[Image 2] 为试穿变装后的画面。[Image 3] 为产品——摩卡灰棕色罗纹针织阔腿休闲裤。[Image 4] 为家居环境。

16:9 真实感直播带货视频，手机前置镜头，暖色调家居环境来自 [Image 4]，自然窗光混合柔和台灯，全程带轻微手持晃动感。

[0-4s] 女主播 [Image 1] 站在客厅面对镜头，表情亢奋激动，左手举起 [Image 3] 的罗纹针织裤，腰带抽绳清晰可见，语速快、感染力强。她说："Okay, real question… how many sweatpants do you own that actually make you look put-together?" 说完镜头怼近，手指捏住腰带处面料轻轻拉伸，展示柔软弹性。

[4-5s] 快速甩镜转场——裤子短暂充满画面形成自然视觉擦除，社交媒体跳剪风格，不要魔法特效。

[5-10s] 切至女主已穿上摩卡灰棕裤的画面 [Image 2]，镜头框至腰到大腿半身。她笑容夸张兴奋，手指触摸高腰腰头，抚摸髋部罗纹面料展示质感，然后向外拉腰带演示弹性舒适。她说："This is not just couch wear. It's buttery-soft ribbed knit, it stretches with you, and the high waist actually stays in place. No rolling, no sagging."

[10-13s] 镜头拉远至全身。她后退两小步，侧身转体，重心移动摆一个快速试穿 pose，再随意走回来展示阔腿垂坠感和版型。她说："Watch this — grocery run, coffee date, airport outfit, done."

[13-15s] 女主微微前倾靠近镜头，自信微笑，手指向画面下方指（想象中的购物链接位置）。画面底部留出干净空白区域，不生成任何图标或文字。她说："Tap the link and grab yours before this color sells out again."

画面严禁出现任何字幕、文字、水印、品牌标志或购物 UI。自然皮肤质感，罗纹针织面料细节清晰，肢体动作真实可信，手部不畸变。

[Image1]

[Image2]

[Image3]

分段调用两次 R2V 模型生成

Part1

[Image 1]为场景参考，[Image 2]为男人参考，[Image 3]为女人参考。现代精品酒店套房夜晚休息区，焦糖色皮质沙发、深色玻璃茶几、暖色壁灯，窗外冷蓝城市夜景。茶几上两杯酒、黑色手机屏幕朝下、一个精致黑色礼品袋。

[00:00-00:07] 中远景。[Image 3]女人坐在皮沙发一端，身体微微后靠，手指轻碰酒杯杯沿。[Image 2]男人站在窗边半侧身面对夜景，没有看她。两人之间隔着茶几，气氛安静紧绷。女人低声说："所以今晚，我算什么？"男人停顿片刻，低声回应："你别这样问。"

[00:07-00:15] 中近景切女人。女人轻轻笑了一下但眼神很冷，她看向茶几上的黑色礼品袋，又抬眼看男人。镜头缓慢推进，背景灯光逐渐虚化。女人语气平静带刺："朋友？同事？还是不能被看见的人？"男人转过身压低声音："我不是这个意思。"画面回到[Image 1]环境全景，两人对峙的沉默。

电影级浅景深，低饱和冷暖双色调，微胶片颗粒，16:9画幅。人物口型与台词同步，节奏留白克制，写实短剧质感。画面严禁出现任何文字字幕水印。

Part2

[Image 1]为场景参考，[Image 2]为男人参考，[Image 3]为女人参考。延续酒店套房夜景，焦糖色皮沙发区，暖琥珀灯光与窗外冷蓝城市光交融。

[00:00-00:07] 特写。茶几上手机突然震动，酒杯液面微颤。[Image 3]女人低头看了一眼没有伸手。[Image 2]男人快步走近用手按住手机，动作很轻但明显紧张。女人的视线停在他的手上，说："你看，你连沉默都很熟练。"男人低声说："给我一点时间。"

[00:07-00:15] 中景。女人站起身把黑色礼品袋慢慢推回男人面前，男人想开口却没有说出来。女人转身走向画面边缘，经过暖色灯光与冷蓝窗光的交界处，离开前回头看他一眼："时间我给过了。名字你没给。"男人低声问："那你现在要什么？"女人平静回答："我要一个不用藏起来的答案。"画面定格在[Image 2]男人沉默的脸和桌上安静的手机。

电影级浅景深，低饱和冷暖双色调，微胶片颗粒，16:9画幅。人物口型与台词同步，节奏留白克制，写实短剧质感。画面严禁出现任何文字字幕水印。

[Image1]

[Image2]

[Image3]

CLIP1 12s

[Image 1]为书房场景参考，[Image 2]为男人参考，[Image 3]为女人参考。

写实古装情感短剧，宋代夜晚书房。电影级浅景深，低饱和宋代美学，微胶片颗粒，真实皮肤纹理。暖烛光与冷月光交融，气氛安静压抑。 [Image 2]男人：宋代文官，深色圆领袍，束发，神色疲惫克制。 [Image 3]女人：宋代已婚女子，浅色褙子，发髻简洁，气质冷静压着情绪。

[00:00-00:03] [中远景] 男人坐书案前写字，烛火照亮侧脸，窗外月色透纱帘洒入，竹影落在桌沿。女人已站在书案一侧，安静注视他。 [女人/低声/平静关切/"你写了一夜。"] 男人没有停笔。 [男人/低声/疲惫克制/"天亮前要送出去。"]

[00:03-00:07] [中景] 女人目光落在桌上未写完的文书，停顿片刻。 [女人/平静/压着情绪/"是奏折，还是休书？"]

[00:07-00:12] [中近景] 男人笔尖一顿，一滴墨落在纸上慢慢洇开。 [男人/低声/克制心痛/"你不该这样想。"] 结尾：纸上晕开的墨迹特写，女人沉静受伤的眼神，男人停住的笔尖。

人物口型与台词自然同步。严格保持[Image 2]男人和[Image 3]女人面容服饰一致，书房陈设参照[Image 1]。画面严禁出现任何文字、字幕、logo。

CLIP2 8s

[Image 1]为书房场景参考，[Image 2]为男人参考，[Image 3]为女人参考。

写实古装情感短剧，宋代夜晚书房。电影级浅景深，低饱和宋代美学，微胶片颗粒，真实皮肤纹理。镜头机位：左前方约45度俯视，宽屏中景。空间布局（必须严格遵守）：书案横置画面中央，男人坐书案后方正中（面朝镜头），女人站书案左后方约0.5米（侧身朝向男人）。砚台与笔架在书案左前方，烛台在书案右侧（暖光从右侧打来），文书展开在书案中央。窗在画面左后方，竹影透纱帘从左后透入冷月光。 [Image 2]男人：宋代文官，深色圆领袍，束发，神色疲惫克制。 [Image 3]女人：宋代已婚女子，浅色褙子，发髻简洁，气质冷静压着情绪。

延续上段：男人笔尖停住，文书上已有竖排行书柔焦质感，女人站书案左后方（参照空间布局）。

[00:00-00:04] [中景] 女人左后站位不变，缓抬左手，指尖落到书案中央文书的右上角边缘。男人右手握笔停在文书左下方，没有抬头。烛火轻摇，文书暖光照亮，竹影从左后纱帘投入。 [女人/低声/克制心痛/"你什么都不说，却要我什么都懂。"]

[00:04-00:06] [中景] 男人依旧低头，左手仍停在笔上。 [男人/压低声音/疲惫/"我是在保你。"]

[00:06-00:08] [中近景+手部] 男人左手慢慢落在文书左下方边缘，与女人右上角的指尖隔着文书一前一后停住，没有触碰。烛光映在两人手边。无台词。

人物口型与台词自然同步，每句台词必须完整念出不省略。严格保持[Image 2]男人和[Image 3]女人面容服饰一致，书房陈设参照[Image 1]，且光线方向（暖烛光从右、冷月光从左后）与人物站位（女左后/男右前坐）必须与上述空间布局完全一致。所有纸面文字必须是宋代竖排毛笔行书风格的模糊背景质感，浅景深柔焦处理，不出现可清晰辨读的整段汉字。画面严禁出现任何字幕、简体字、印刷体、现代字符、印章、logo、水印。

CLIP3 8s

[Image 1]为书房场景参考，[Image 2]为男人参考，[Image 3]为女人参考。

延续上段：女人左手按在文书右上角边缘，男人左手按在文书左下方边缘，两手隔着纸不接触。文书上有竖排行书柔焦质感与未干墨晕，烛光暖照两人手边。

[00:00-00:06] [中近景+手部+面部交切] 文书上原有字迹保持柔焦背景状态，新墨痕在字迹旁的空白处缓慢扩散成无规则圆晕，不与原字叠加形成新字。女人从书案左后方（站位不变）注视男人，男人始终低头不开口。这一段为女人独白，男人始终沉默。 [女人/轻声/平静却刺痛/"若保我，是把我推远，那你保的是我，还是你的清白？"]

[00:06-00:08] [男人面部特写] 男人终于抬头看她（视线方向朝画面左后方女人位置），眼神压抑迟疑，嘴唇微动却最终没出声。烛光在他眼底跳动（光从画面右侧来），眉间紧锁。 [男人/沉默/疲惫迟疑/无台词]

T2V 文生视频

HappyHorse 1.1 支持更长更复杂的用户输入，通过优化长上下文语义保持、分段场景规划和角色关系建模，提升了复杂指令下的遵循稳定性与镜头调度准确性

长时序指令遵循：2500字符后的指令遵循度显著提升

多场景自动调度：单条 Prompt 支持描述 6~8 个连续场景，模型自主分配时间、切换镜头

多角色站位与调度：双人/多人场景中，角色的空间位置关系和交互逻辑更加准确

Input (Text) 输入文字

15秒电影级日式纯爱暧昧短片，超写实画质。午后空教室暖金色阳光透过百叶窗洒在并排课桌上，细微尘埃在光束中缓缓飘浮，老旧木桌。浅景深奶油虚化背景，温暖胶片颗粒超高清锐利，极致自然微小动作呼吸眼神拉扯，日式青春克制心动窒息氛围。

角色：清纯少女穿夏季校服（白色短袖衬衫+深色百褶裙），长黑发耳畔碎发，长睫毛，皮肤自然粉嫩。少年同校夏季校服，领口微松，刘海略长，清秀温柔。两人并肩坐在课桌前。

[00:00-00:04] 极慢推进镜头从桌面中景到两人并肩侧脸特写。少女低头认真写笔记，长黑发耳畔碎发被微风轻轻撩起，长睫毛投下细影，嘴角无意微微上翘专注模样，轻浅均匀呼吸，胸口极轻微起伏。远处夏日蝉鸣若隐若现，笔尖轻触纸面沙沙声。

[00:04-00:09] 切换到少年近景，校服领口微松，手肘撑桌偷偷侧头凝视她，眼底满是温柔克制的喜欢。突然察觉她笔尖停顿——慌乱迅速转头假装看自己笔记，耳廓迅速泛起薄红，指尖轻微颤抖捏紧笔杆，偶尔从刘海下偷瞄她一眼，呼吸稍显紊乱嘴角抿紧努力保持平静。环境安静，只有轻微呼吸和纸页翻动声。

[00:09-00:15] 极致双人脸部同框大特写慢镜头，目光骤然对上。少女缓缓转头先是迷蒙惊讶，迅速羞涩低头轻轻咬住下唇，脸颊耳根瞬间绽开樱花粉红，睫毛颤动后怯怯抬眼再对视。少女轻声害羞低语说：「……何を見てるの？」少年僵住愣了一瞬，慌乱小声结巴回应说：「べ……別に。」少女更小声偷瞄他说：「……嘘つき。」少年顿住，温柔低声说：「……君を見てた。」嘴角慢慢上扬露出腼腆温柔歪嘴笑眼角弯起，呼吸明显加重。两人脸之间暧昧张力拉满，背景完全融化成层层奶油梦幻光斑温暖光晕。淡入极轻空气感钢琴音符。

对白为自然低语耳语害羞语气，少女声音软糯害羞，少年声音低沉慌乱转温柔。每句台词严格由对应角色口型发出，禁止台词串角色或同时发声。口型仅说话时微动，自然精确同步。全程人物脸部发型服装严格一致，真实呼吸起伏，无任何文字水印字幕。

High-octane action blockbuster motorcycle chase on a collapsing suspension bridge at sunset. Photorealistic, relentless forward momentum, teal-and-orange blockbuster color grade, IMAX-scale spectacle, anamorphic lens flares, practical destruction realism, heavy smoke and golden-orange sunset light. 16:9 widescreen.

Characters: The Rider — athletic man in his 30s, black leather jacket, no helmet, focused determined expression, riding a matte-black sport motorcycle. The Gunship — black military attack helicopter with twin side cannons, relentless and low-flying. Location: massive suspension bridge over a bay, abandoned cars scattered across lanes, support cables under stress, sections of roadway cracking.

[00:00-00:03] Low tracking shot. The Rider weaves at full speed between abandoned cars. The Gunship drops into frame behind him, cannons spinning up. Steel cables snap overhead with metallic shrieks. Screaming motorcycle engine, rotor thunder closing in.

[00:03-00:06] Aerial chase angle. Cannon fire rips twin lines across the asphalt chasing the motorcycle. Cars explode on both sides in fireballs. The Rider leans hard through the explosions, sparks and debris flying past. Cannon thunder, explosions, wind rush.

[00:06-00:09] Front crash-zoom. The roadway ahead fractures and tilts upward at a steep angle. The Rider accelerates up the rising section using it as a ramp, engine screaming at redline. Groaning metal, cracking concrete, engine roar building.

[00:09-00:12] Slow-motion side wide shot. The motorcycle launches over the collapsed gap, suspended mid-air against the burning sunset sky. The bridge section falls away beneath him. The Gunship roars past below. Music drops to silence — only wind rush and distant groaning steel.

[00:12-00:15] Hard cut to rear tracking shot, normal speed. The Rider lands brutally on the far section — suspension compresses violently, sparks from the undercarriage. He stabilizes and accelerates toward the bridge exit as the entire span collapses into the bay behind him in a massive structural crash. Driving percussive orchestral score slams back in on landing. Splash and grinding metal behind.

Realistic vehicle physics and suspension compression on landing. Accurate destruction debris and water simulation. Stable character and motorcycle design throughout — no morphing, no deformation. Coherent high-speed motion. No text, no watermarks, no subtitles on screen.

电影感镜头，一位年轻优雅的女性花样滑冰运动员，穿着深蓝色渐变浅蓝色的亮片长袖 tutu 裙，头发盘成发髻。她在专业的室内冰场上表演，多束强烈的舞台聚光灯从上方打下，穿透薄雾，营造出戏剧性的氛围。她正在进行高速旋转和优美的滑行，白色冰刀划过冰面激起细碎的冰屑（冰雾）。动态镜头跟随，展现她专注的表情和流畅的肢体动作，8k 分辨率，超高画质，带有慢动作细节。

夜の都市屋上ステージ、背景にぼかした抽象的なネオンの光。黒・白・青のモード系衣装を着た3人の成人女性ボーカルユニットが横一列に立ち、軽いステップを踏みながらリズムに合わせて体を揺らす。センターの女性が正面を見据え、口を開いて歌う：「この夜を越えて、光になる」。表情はクールで透明感がある。カメラは正面から緩やかに前進してセンターの表情に寄る。シネマティック、都会的、上品、浅い被写界深度。

15秒の2Dアニメ格闘ゲーム風シーン、16:9横幅。舞台は夜のネオン街、雨上がりの路面にネオンの光が反射。スタイル：日本の90年代アーケード格闘ゲーム風、手描きセルアニメ、迫力ある作画、過度にリアルにしない。既存IPや実在キャラクターには似せないオリジナルデザイン。

キャラクター：銀髪ショートヘアの女性ファイター、黒いショートジャケット、青白いエネルギーをまとった拳。相手は暗い色合いの大柄な対戦相手（シルエット的存在）。

[00:00-00:03] サイドビュー横スクロール格闘ゲーム構図。主人公と相手が間合いを取る。画面下に体力ゲージ風UIが最小限表示。ネオンの反射が路面に揺れる。緊張感のあるシンセ音。

[00:03-00:07] 主人公が高速ステップで接近し3連撃を叩き込む。アニメ的スミア表現、インパクトフレーム（白フラッシュ）、スピードライン。打撃ごとに画面が微振動。打撃音とエネルギー放出音が連続。

[00:07-00:12] 超必殺技発動。背景が一瞬暗転、主人公の拳に青白いエネルギーが集中。ローアングルから一気にカメラが寄り、青白い龍のエネルギーが拳から放たれ相手を吹き飛ばす。画面全体にエネルギーの波動エフェクト。爆発的な効果音とBGMクライマックス。

[00:12-00:15] 勝利ポーズ。主人公が静かに立ち、銀髪とジャケットが風で揺れる。背景のネオン反射が美しく残る。BGMがフェードアウトし余韻。画面下にWINの文字が格ゲー風に表示。

全体を通じてキャラクターデザイン一貫維持。セルアニメの線画とベタ塗り質感を保持。テキスト最小限（体力ゲージとWIN表示のみ）。滑らかなアニメーション、フリッカーなし。

I2V 图生视频（首帧）

HappyHorse1.1 通过强化运动建模与帧间时序一致性优化，显著提升了动作连贯性和力量感，并大幅优化了部分场景中动作偏慢、运动不够流畅的问题。

针对 1.0 版本中“面部油光感”“过度锐化""纹理不自然"等普遍反馈，1.1 通过优化人物细节生成、真实肤质还原与镜头语言理解能力，提升画面质感、面部表现力和多镜头叙事连贯性。

Input (Text + Image) 输入文字+首帧图片
	男子迎面飞奔而来，镜头快速横摇跟随他冲过画面转为侧面跟拍，他撞倒路边水果摊，水果四散滚落，踉跄爬起穿过窄巷继续狂奔，回头惊恐一瞥后加速消失。追赶脚步声、碰撞巨响和人群慌乱喊叫。
	Wind surges through the bamboo forest. The white-robed swordswoman leaps onto bamboo tips, robes billowing like crane wings. A black-clad assassin bursts from the shadows — blades clash, ink-wash energy ripples outward instead of sparks. Rapid exchange: she spins midair dodging strikes, severed bamboo stalks tumble in slow motion. Bamboo leaves erupt upward like black rain as their fight intensifies. Camera pulls up to overhead view — white figure surrounded by dark silhouettes. Final thrust: her sword stops at the assassin's throat, everything freezes, leaves drift down slowly.Erta ink-wash animation style maintained throughout, no color shift. Sound: bamboo rustling, blade clashes, wind gusts, silence at the end.

📌 Prompt 优化 Skill （V1.0.0 迭代中）

更多 Prompt 和技能👉 https://github.com/modelstudioai/awesome-happyhorse-prompts

---
name: happyhorse-prompt-craft
description: HappyHorse 1.0/1.1 R2V/I2V/T2V prompt 创作与优化指南。基于 47+ 场景 100+ 次 A/B 实测经验。用于编写、优化、诊断 HappyHorse 视频生成 prompt，或对比 1.0 vs 1.1 模型差异时使用。
version: 1.0.0
---
# HappyHorse Prompt Craft
面向 HappyHorse 1.0 / 1.1 两版模型的 R2V / I2V / T2V prompt 创作与优化实战指南。
创作手册：https://alidocs.dingtalk.com/i/nodes/R1zknDm0WR6XzZ4Lt0GdojnzWBQEx5rG?utm_scene=team_space
模型体验：https://bailian.console.aliyun.com/cn-beijing?tab=demohouse&source_channel=hhpromptrepo#/experience/t2v
---
## 模块 1：R2V 四段式结构
R2V prompt 遵循严格的四段式（可扩展为五段）：
```
① [Image N] 声明与角色映射
② 风格氛围 + 角色卡
③ 分镜/表演主体（时间码或叙述体）
④ 全局约束尾段（文字控制 + 一致性 + 口型同步）
```
### 声明段规则
- 开篇必须声明每张参考图用途：`[Image 1]为书房场景参考，[Image 2]为男人参考，[Image 3]为女人参考。`
- `[Image 1]` **必须带空格**（硬要求，`[Image1]` 无空格会导致 API 解析失败）
- R2V 支持 1-9 张参考图，通过 `[Image 1]`~`[Image 9]` 引用
- 多角色场景推荐：[Image 1]=场景 / [Image 2]=角色A / [Image 3]=角色B
### 风格氛围段
紧跟声明之后，一段话交代：视觉风格 + 光线方向 + 色调 + 画面质感。
```
写实古装情感短剧，宋代夜晚书房。电影级浅景深，低饱和宋代美学，微胶片颗粒，真实皮肤纹理。
```
### 角色卡
每个角色一行，格式：`[Image N]角色名：外形 + 服装 + 情绪状态`
```
[Image 2]男人：宋代文官，深色圆领袍，束发，神色疲惫克制。
[Image 3]女人：宋代已婚女子，浅色褙子，发髻简洁，气质冷静压着情绪。
```
### 全局约束尾段（FOOTER）
放在 prompt 最末尾，包含三类约束：
```
人物口型与台词自然同步，每句台词必须完整念出不省略。
严格保持[Image 2]男人和[Image 3]女人面容服饰一致。
画面严禁出现任何字幕、简体字、印刷体、现代字符、印章、logo、水印。
```
---
## 模块 2：I2V 极简原则
I2V 的首帧已包含画面信息，prompt 绝不重复首帧内容。
### 核心原则
- **30-60 字**为最优区间（复杂武打场景可达 720 字例外）
- 聚焦三要素：**动作 + 运镜 + 音效**
- 不描述人物外观/服装/背景（首帧已有）
- 末尾可加音频描述
### 模板
```
[动作描述，2-3个具体动词] + [运镜指令] + [音效/环境音]
```
### 示例
```
女子缓缓转头望向窗外，发丝被微风轻拂。固定机位中近景。环境音：窗外蝉鸣、微风声。
```
---
## 模块 3：时间码 vs 松绑策略
**核心发现：1.1 对时间码和量化指令执行过于字面化，表演/情绪场景反而不如 1.0 自然。**
### 适合用时间码的场景（1.1 优势）
- 空间布局约束（人物站位、物件位置）
- 多镜头编排（8 格 storyboard 按序生成）
- 动作切换节点明确的叙事
- 品牌广告的精确节奏控制
```
[00:00-00:04] [中景] 女人走向书案，目光落在文书上。
[00:04-00:08] [近景] 男人抬头，手中毛笔停住。
[00:08-00:12] [双人中景] 两人对视，烛光摇曳。
```
### 适合松绑叙述的场景（表演/情绪戏）
- 表情微变化（隐忍、含泪、犹豫）
- 长停顿/哽咽类口语节奏
- 需要"自然感"的独白/对白
**松绑写法**：删掉所有 `[00:00-00:03]` 时间码和秒级约束（"停顿两秒"/"每字间半秒"），改用自然语序情绪意图描述：
```
❌ [00:05-00:13] 先吐出"我"字，停顿足足两秒...每个字之间留出半秒以上停顿
✅ 她极轻极慢地开口说出这句话，每个字都带着克制的气声和哽咽，像从胸腔里压出来
```
### 决策矩阵
| 场景类型 | 1.1 推荐 | 1.0 推荐 |
|----------|----------|----------|
| 空间/物件一致性 | 时间码 + 坐标约束 | 同 |
| 多镜头 storyboard | 时间码 + 格子编号 | 同 |
| 单人表情戏 | **松绑叙述** | 松绑叙述 |
| 多人对白（台词密） | 时间码分段（每段≤2句） | 同 |
| 高密度动作流 | 无时间码连续叙述 | 同 |
---
## 模块 4：台词/语音触发
### 格式选项
| 格式 | 适用场景 | 示例 |
|------|----------|------|
| [角色/语气/"台词"] 标签式 | 时间码分镜内 | `[女人/低声/克制/"你写了一夜。"]` |
| 「台词」嵌叙述句 | 松绑表演段 | `她开口：「我……终究是错付了。」` |
| "说：xxx" | 简单触发 | `男人低声说："走吧。"` |
### 关键规则
1. **语言必须匹配文化**：日式校园用日语「」、韩漫用韩语、中式古风用中文
2. **台词时长计算**：4字/秒 × 1.2 情绪倍数。例：17字 ≈ 5.1s，需至少给 5s 时间窗
3. **每段时间窗台词密度 ≤ 2 句**，模型口型同步触发率最高
4. **沉默占位**：无台词段用 `[角色/沉默/情绪/无台词]` 占位，避免模型"加戏"填充
5. **1.1 台词执行率高于 1.0**，但过度量化停顿节奏反而变机械
### 松绑场景台词写法
不用标签，把台词融入表演叙述中：
```
她极轻极慢地开口说出这句话，每个字都带着克制的气声和哽咽，像从胸腔里压出来：「我……终究是错付了。」说话时眼眶逐渐泛起水光。
```
---
## 模块 5：镜头运动
镜头运动必须作为**独立段落**，不混入表演描述中（避免互相干扰）。
### 三种模式
**固定机位**：
```
单一连续镜头，无剪切，无镜头移动。近景构图（胸像以上）。
```
**缓推 Dolly In**（聚焦情绪高潮）：
```
【镜头运动】镜头从胸像中近景开始，全程极其缓慢、平稳、匀速地向前推进（dolly in），最终落在女子面部脸庞特写（眼眶、泪痕、抿唇全部清晰可见）。推进速度极慢，不晃动不变焦不切镜，整体推近幅度大约 1.3 倍。
```
**运镜组合**（广告/叙事）：
```
Cell 1: Medium shot push in, girl on wooden porch discovers a glass wind chime.
Cell 5: Low angle track, kitten plays gently with the paper strip.
Cell 8: Extreme wide slow pull out, golden sunset fills the sky.
```
### 约束关键词
- 必须声明**不做什么**：不晃动、不变焦、不切镜
- 指定推近倍率（1.3 倍 / 1.5 倍）
- 如果要固定机位，原 prompt 里不能出现任何推镜暗示
---
## 模块 6：文字渲染控制
**问题**：1.1 对参考图忠实度极高，会把参考图上的标注文字/storyboard编号渲染进视频。
### 三层防御（由弱到强）
**第一层：分镜内描述**
```
文书上有宋代竖排行书背景质感（柔焦虚化、不可辨读）
```
**第二层：段尾局部约束**
```
所有纸面文字必须是宋代竖排毛笔行书风格的模糊背景质感，浅景深柔焦处理，不出现可清晰辨读的整段汉字。
```
**第三层：全局尾段**
```
画面严禁出现任何字幕、简体字、印刷体、现代字符、印章、logo、水印。
```
### "控字而非禁字"策略
当场景逻辑本身包含文字（如书法、文书），不能全禁。允许：宋代竖排行书虚化背景质感。禁止：可辨读整段汉字、简体字、现代字符。
### 最佳实践
- 源头治理：提交前擦除参考图上的标注文字（根本解决）
- Prompt 兜底：末尾加"画面严禁出现任何文字"
- 两者结合（推荐）
---
## 模块 7：内容安全规避
### 触发条件
- "Green net check failed for image (output)" = 输出帧被安全过滤
- 真实国家/民族对抗描写
- 激烈暴力词汇
### 规避策略
| 原文 | 替换 |
|------|------|
| China vs Argentina | Red Team vs Blue Team |
| erupts / thunderous | rises / triumphant |
| FIFA World Cup 2026 | 虚构赛事名 |
### 模型敏感度差异
- **1.0 比 1.1 更容易触发安全审核**（同 prompt 1.1 SUCCEEDED / 1.0 FAILED 多次验证）
- 1.1 对虚构替代更宽容
---
## 模块 8：多段连续叙事
### HEADER/FOOTER 模板化
多段共享同一 HEADER（角色映射+风格+角色卡）和 FOOTER（口型+一致性+文字防御），只有中间分镜段不同。
### 段间衔接写法
每段 prompt 开头加"延续上段"描述：
```
延续上段：男人笔尖停住，文书上有未干墨晕；女人位于书案左后方。
```
### Chain vs Spatial 策略
| 策略 | 参考图 | 衔接质量 | 成本 |
|------|--------|----------|------|
| Spatial（文字锚） | 仅 Image1+2+3 静态图 | ⭐⭐ 文字描述硬猜，断点明显 | 低 |
| Chain（帧锚） | Image1+2+3 + 上段 mid + 上段 last | ⭐⭐⭐⭐ 视觉对齐 | 中（需抽帧） |
Chain 抽帧策略：
- CLIP1→CLIP2A：用 mid3s + last 帧（避免末帧是微距特写无人物）
- CLIP2A→2B / 2B→2C：用 mid4s + last 帧
- 末帧命令：`ffmpeg -sseof -0.1 -i input.mp4 -vframes 1 out.png`
- 中段帧：`ffmpeg -ss 4 -i input.mp4 -vframes 1 out.png`
### Fadeout 兜底
段间视觉断点无法避免时，ffmpeg xfade 软衔接：
```bash
ffmpeg -y -i clip1.mp4 -i clip2.mp4 \
  -filter_complex "[0:v][1:v]xfade=transition=fade:duration=0.4:offset=11.72[vout];[0:a][1:a]acrossfade=d=0.4[aout]" \
  -map "[vout]" -map "[aout]" -c:v libx264 -crf 18 output.mp4
```
- 普通断点：0.4s fade
- 严重断点：1.0s fade
- offset = 前段累计时长 - fade duration
---
## 模块 9：1.0 vs 1.1 模型特性矩阵
| 维度 | 1.0 | 1.1 |
|------|-----|-------------------------|
| 指令遵循 | 中等（软提示理解） | 强（字面执行，易"过度服从"） |
| 表演自由度 | 高（自然即兴感强） | 低（需松绑才自然） |
| 参考图忠实度 | 中 | 高（会渲染图中文字） |
| 台词执行率 | 中偏低 | 高 |
| 内容安全阈值 | 严（更易触发） | 宽 |
| 中文 prompt 质量 | 弱于英文 | 接近英文 |
| 编码效率 | 普通 | 高（同画质体积小 20-30%） |
| 时间码响应 | 软提示 | 硬切换（情绪戏可能生硬） |
| 生成耗时（15s 1080P） | ~14min | ~12min |
| API model name | `happyhorse-1.0-r2v` | `happyhorse-1.1-r2v` |
### 选择建议
- **空间/物件/角色一致性 + 多镜头编排 + 台词密集**：选 1.1
- **单人表情微戏 + 隐忍情绪 + 需要"灵气"的表演**：选 1.0 或 1.1+松绑
- **内容可能边界敏感**：选 1.1（更宽容）
- **中文 prompt 优先**：选 1.1（中英差距已收窄）
---
## 模块 10：案例库
### 案例 1：古风女子隐忍含泪（单人表情 + 松绑 + Dolly）
**类型**：R2V / 1张参考图 / 9:16 / 15s
**模型**：1.1 松绑版最佳，1.0 原始指令版亦佳
**文件**：`guzhuangnv_15s_combo_v15_3.mp4`
```
[Image 1]为古风女子参考。
古风写实情感戏，单一连续镜头 15 秒一镜到底，无剪切。
【人物】[Image 1]女子：黑发束高髻配金步摇，浅米色绣花交领襦裙，柔暖光从画面右上斜入，皮肤纹理真实，电影级浅景深。严格保持[Image 1]女子面容、发饰、服饰一致。
【表演】女子从安静平静慢慢转入克制难过，全程视线低垂，不抬头不甩头不大幅转脸。开场她神情平静，呼吸平缓；接着嘴唇轻抿，嘴角微微下压，眉头轻皱，喉头一动像在咽下情绪，眼神变得失落委屈。她极轻极慢地开口说出这句话，每个字都带着克制的气声和哽咽，像从胸腔里压出来：「我……终究是错付了。」说话时眼眶逐渐泛起水光。话说完后她抿住嘴，左侧脸颊缓缓滑下一两滴细小自然的泪滴或泪痕，努力忍住不让自己哭出声。
【镜头运动】镜头从胸像中近景开始，全程极其缓慢、平稳、匀速地向前推进（dolly in），最终落在女子面部脸庞特写（眼眶、泪痕、抿唇全部清晰可见）。推进速度极慢，不晃动不变焦不切镜，整体推近幅度大约 1.3 倍。
【表情禁区】全程表情自然细腻，情绪安稳隐忍，不大哭，不张嘴哭喊，不夸张抽泣，不撇嘴，不挑眉，不甩头，不抬眼盯镜头。
【音频】只保留人物极轻微的真实声音：轻微鼻息、压抑呼吸、短促吸气、低声哽咽和克制哭腔混在台词里，台词整体音量很轻贴近面部，环境音几乎为零，无背景音乐。
【画面】背景采用浅景深虚化处理，隐约可见深色木制家具和屏风，柔暖光从画面右上斜入。无字幕，无文字，无水印。
```
**Lessons**：
- 松绑（删时间码+删秒级停顿）后 1.1 表演恢复自然
- 【镜头运动】独立段不干扰表演段
- 禁区清单比正向描述更有效控制过度表演
- 同 prompt 多次重抽结果差异大（8.1-8.5MB），择优是必要步骤
---
### 案例 2：宋代书房双人对白（多段连贯 + 方案 C 三段切分）
**类型**：R2V / 3张参考图 / 16:9 / 8+8+5s（方案C）
**模型**：1.1
**文件**：`song_clip2_methodC_v15.mp4`（21.3s 拼接版）
**CLIP2A (8s) prompt 示例**：
```
[Image 1]为书房场景参考，[Image 2]为男人参考，[Image 3]为女人参考。
写实古装情感短剧，宋代夜晚书房。电影级浅景深，低饱和宋代美学，微胶片颗粒。
空间布局（必须严格遵守）：书案横置中央，男坐右前方正中，女站左后方约0.5米；烛台右侧/砚台左前/窗左后。
[Image 2]男人：宋代文官，深色圆领袍，束发，神色疲惫克制。
[Image 3]女人：宋代已婚女子，浅色褙子，发髻简洁，气质冷静压着情绪。
延续上段：男人执笔疲惫悬停，文书上有宋代竖排行书（柔焦模糊）与未干墨晕。
[00:00-00:04] [中景] 女人从画面左后方缓步走近书案...
[女人/低声/平静关切/"你写了一夜。"]
[00:04-00:08] [近景] 男人手指微微收紧笔杆...
[男人/沉默/疲惫迟疑/无台词]
人物口型与台词自然同步，每句台词必须完整念出不省略。
严格保持面容服饰一致，光线方向与人物站位必须与空间布局完全一致。
所有纸面文字必须是宋代竖排毛笔行书风格的模糊背景质感。
```
**Lessons**：
- 方案 C (8+8+5) 三段切分：每段台词密度 ≤ 2 句，口型同步率最高
- 台词时长公式：4字/秒 × 1.2 情绪倍数，17字需 5.1s 最低
- HEADER/FOOTER 模板化：三段共用声明+风格+角色卡+约束尾段
- "延续上段"文字描述 + spatial 约束可保持基本连续感
---
### 案例 3：韩漫便利店 9 格 Storyboard（格子编号法）
**类型**：R2V / 1张参考图（3x3 grid）/ 16:9 / 15s
**模型**：1.0 + 1.1 均 SUCCEEDED
```
按照故事板序列生成视频。参考图片是一张 3x3 的故事板拼图。请严格按照从左到右、从上到下的顺序...
【风格与氛围】韩漫电影感，温暖店内灯光与冷色雨夜对比...
【角色设定】女主：穿长外套的年轻女生...
【分镜指令】
格子1（左上）：全景，雨夜街角的便利店亮着暖白灯光。
...
格子9（右下）：收束镜头，女主捧着热饮站在店门外。
【生成要求】保持角色特征与光影氛围全程一致。
```
**Lessons**：
- "格子N（位置）"编号法 + 明确阅读顺序声明
- 台词用韩语匹配韩漫文化
- 9 格 storyboard R2V 15s 可一次性生成
---
### 案例 4：Cyberpunk Chase（无时间码连续动作流）
**类型**：T2V / 16:9 / 15s
**模型**：1.1 SUCCEEDED
**特点**：1814 字英文、全程无时间码、纯连续叙述体
**Lessons**：
- 高密度动作场景不需要时间码，连续流叙述体更自然
- 无时间码时模型自由分配节奏，动作衔接更流畅
- 英文长 prompt（1800+ chars）在 1.1 上完全可行
---
### 案例 5：Happy Run v5（文字残留治理 + API 参数踩坑）
**类型**：R2V / 1张参考图 / 16:9 / 15s
**模型**：1.1
**迭代路径**：v1（文字残留）→ v2（加禁文字约束）→ v3（旁白化）→ v4（强化运镜）→ v5（全面优化版）
**Lessons**：
- `size` 参数 `1080P` 已废弃，必须用 `1920*1080`
- 基本的"No text on screen"不足以对抗 1.1 视觉忠实度，需更强三层防御
- 旁白化台词（旁白：「xxx」）比直接引语更不易触发嘴型冲突
---
### 案例 6：World Cup v2（内容安全规避实例）
**类型**：T2V / 16:9 / 15s
**模型**：v1 1.0+1.1 均 FAILED → v2 1.1 SUCCEEDED / 1.0 仍 FAILED
**改动**：China vs Argentina → Red Team vs Blue Team，erupts→rises
**Lessons**：
- 真实国家对抗是内容安全红线
- 1.0 比 1.1 安全审核更严格
- FAILED 任务不返回 orig_prompt，需从脚本/日志恢复
---
## 附录 A：API 参数速查
| 参数 | 值 |
|------|-----|
| R2V endpoint | `POST .../services/aigc/video-generation/video-synthesis` |
| Header | `X-DashScope-Async: enable` |
| 1.1 model | `happyhorse-1.1-r2v` |
| 1.0 model | `happyhorse-1.0-r2v` |
| media type | `reference_image`（R2V）/ `first_frame`（I2V） |
| size | `1920*1080` / `1080*1920`（竖版）— `1080P` 已废弃 |
| ratio | 16:9 / 9:16 / 3:4 / 4:3 / 1:1 等 |
| duration | 3-15 秒 |
| 图片格式 | URL 或 `data:image/png;base64,...` |
| 参考图数量 | 1-9 张 |
## 附录 B：诊断 Checklist
### 模型不念台词（口型不同步）
1. 减少台词密度（每段 ≤ 2 句）
2. 砍掉入场动作描述（角色已在场则不写"走进来"）
3. 在台词前加"张口/嘴唇微动"动作触发词
4. 检查时间窗是否足够（4字/秒 × 1.2）
### 模型"加戏"（prompt 外自由发挥）
1. 缩短 duration（15s→12s/10s）
2. 填充沉默占位：`[角色/沉默/情绪/无台词]`
3. 检查 prompt 内容是否覆盖了目标时长
### 段间断点严重
1. 检查 reference_image 列表是否含上段帧（chain vs spatial）
2. 加 ffmpeg xfade 0.4-1.0s 兜底
3. 增强"延续上段"描述的具体性（站位/手部/光线/道具状态）
### 文字渗透到画面
1. 源头擦除参考图标注
2. 三层防御补全
3. 改用"控字"策略（允许虚化行书质感）
## 附录 C：台词时长计算
```
净时长 = 字数 ÷ 4 × 1.2（情绪戏）
缓冲 = 短句 +0.5s / 长句 +1.0s
```
示例：「我……终究是错付了。」= 8字（含省略号按1字计）÷ 4 × 1.2 = 2.4s + 停顿缓冲 1.5s ≈ 给 4-5s
12s 单段最多装 ~32 字台词，15s 最多 ~40 字。超出则必须拆段。

HappyHorse 1.1 已上线！快乐小马最新模型使用指南来噜～

🚀 模型核心能力升级

🎬 模型 Case Demo

R2V 参考生视频（支持图片输入）

九宫格故事板

多角色/物品 x 场景参考

T2V 文生视频

I2V 图生视频（首帧）

📌 Prompt 优化 Skill （V1.0.0 迭代中）

阿里云百炼

热门文章

最新文章

相关电子书