一个人 + 一套 AI 工作流,工业化生产竖屏短剧。
下面是《完美合伙人的惊天秘密》——从几张定妆图,到一部 3 分钟带配音、对口型、字幕、彩蛋的成片,完整过程。
四条核心方法论,是这套工作流能跑通的底层逻辑。
视频模型的人物一致性只能靠「首帧」锁定——首帧里有谁才能演谁。所以分镜的本质是把人物关进首帧可控范围。
用可控、便宜(¥0.42/张)、可反复重生的 GPT image-2 画准关键帧,去撬动按秒烧钱的视频模型的可靠性。把最难的一致性,压在最便宜的图像层解决。
多人站位靠 3C:机位锚点(Camera)、绝对朝向(Compass,以镜头为北极星)、视觉遮挡(Concealment,物理动作翻译成"镜头看到什么")。口诀:别告诉 AI 他们在干什么,告诉它镜头看到了什么。
视频按秒计费、单段上限 12 秒。段内能演多少演多少(动作+台词一气呵成),别过度拆分——段数由"一致性能撑住的情节量"决定,不由时长决定。
每一步都有可见的中间产物,人在关键节点确认,不是黑箱。









一部 3 集正片 + 片尾彩蛋、成片 3 分 16 秒的真实 API 账单——数字直接取中转站返回的美元计费,可逐条复算。
| 项目 | 用量 | 单价 | 小计 |
|---|---|---|---|
| 视频生成 · Seedance 1.5 480p 3 集 + 彩蛋共 36 段,含 8 秒被剪的 B-roll | 239 秒 | $0.09/秒 | $21.5 |
| 关键帧 + 定妆 + 场景图 · GPT image-2 36 关键帧 + 8 定妆/场景 + 4 彩蛋帧,可反复重生 | ≈48 张 | $0.0828/张 | $4.0 |
| whisper 转写 / ffmpeg 合成 / 字幕烧录 | 本地 | — | $0 |
| 整部合计(3 集 + 彩蛋,平摊每集约 $8) | ≈ $25.5 | ||