AI 制片厂 · DRAMA STUDIO

从零到成片

一个人 + 一套 AI 工作流,工业化生产竖屏短剧。
下面是《完美合伙人的惊天秘密》——从几张定妆图,到一部 3 分钟带配音、对口型、字幕、彩蛋的成片,完整过程。

为什么一个人能造一部剧

四条核心方法论,是这套工作流能跑通的底层逻辑。

首帧锁定

视频模型的人物一致性只能靠「首帧」锁定——首帧里有谁才能演谁。所以分镜的本质是把人物关进首帧可控范围。

GPT 杠杆

用可控、便宜(¥0.42/张)、可反复重生的 GPT image-2 画准关键帧,去撬动按秒烧钱的视频模型的可靠性。把最难的一致性,压在最便宜的图像层解决。

3C 空间调度

多人站位靠 3C:机位锚点(Camera)、绝对朝向(Compass,以镜头为北极星)、视觉遮挡(Concealment,物理动作翻译成"镜头看到什么")。口诀:别告诉 AI 他们在干什么,告诉它镜头看到了什么。

分段经济学

视频按秒计费、单段上限 12 秒。段内能演多少演多少(动作+台词一气呵成),别过度拆分——段数由"一致性能撑住的情节量"决定,不由时长决定。

制作流水线 · 7 步

每一步都有可见的中间产物,人在关键节点确认,不是黑箱。

1

角色定妆 · N宫格

先为每个角色生成一张多视图定妆表(正/侧/背 + 表情),作为长期资产存档。
N宫格
2

派生七分身正面照

从 N宫格派生单张七分身正面照(脸够大、服装全)——这才是喂关键帧的人物参考。实测:喂关键帧用单张正面照远胜 N宫格(后者会让 image2 身份崩)。
3

场景图

每个场景一张参考图(会议室 / 深夜办公室),和角色正面照一起喂关键帧、锁住空间一致性。
4

关键帧故事板

用 GPT image-2 多图参考(角色正面照 + 场景图) + IDENTITY LOCK 图文双锁,逐镜生成关键帧。人物一致性、视线朝向、姿态连贯、打光都在这一步定死。¥0.42/张·可反复重生
16镜故事板
5

图生视频 · 配音对口型

关键帧作首帧喂 Seedance 1.5,prompt 给台词 → 原生配音 + 精准对口型,音色靠文字描述、多人对话口型不串。无需独立配音环节。$0.09/秒·480p
6

合成 + 字级精确字幕

ffmpeg 拼接各镜。字幕用 whisper 字级时间戳 + 原台词文本 difflib 对齐——时间精确到每个字、文本零错字,白字黑边大字。
7

封面 + 彩蛋钩子

封面直接 AI 生成(标题立体字一体,胜过后期叠字);片尾彩蛋用 3C 空间调度做幕后大佬纵深镜(背影不露脸 + 跪地求饶 + 未完待续),留续集钩子。

成本账

一部 3 集正片 + 片尾彩蛋、成片 3 分 16 秒的真实 API 账单——数字直接取中转站返回的美元计费,可逐条复算。

项目用量单价小计
视频生成 · Seedance 1.5 480p
3 集 + 彩蛋共 36 段,含 8 秒被剪的 B-roll
239 秒$0.09/秒$21.5
关键帧 + 定妆 + 场景图 · GPT image-2
36 关键帧 + 8 定妆/场景 + 4 彩蛋帧,可反复重生
≈48 张$0.0828/张$4.0
whisper 转写 / ffmpeg 合成 / 字幕烧录本地$0
整部合计(3 集 + 彩蛋,平摊每集约 $8)≈ $25.5
≈$25.5
整部成本(3集+彩蛋)
≈$8
平摊每集
42分钟
熟练后单集纯生产