AI 制片厂 · 从零到成片的完整 Demo

为什么一个人能造一部剧

四条核心方法论，是这套工作流能跑通的底层逻辑。

视频模型的人物一致性只能靠「首帧」锁定——首帧里有谁才能演谁。所以分镜的本质是把人物关进首帧可控范围。

用可控、便宜(¥0.42/张)、可反复重生的 GPT image-2 画准关键帧，去撬动按秒烧钱的视频模型的可靠性。把最难的一致性，压在最便宜的图像层解决。

多人站位靠 3C：机位锚点(Camera)、绝对朝向(Compass，以镜头为北极星)、视觉遮挡(Concealment，物理动作翻译成"镜头看到什么")。口诀：别告诉 AI 他们在干什么，告诉它镜头看到了什么。

视频按秒计费、单段上限 12 秒。段内能演多少演多少(动作+台词一气呵成)，别过度拆分——段数由"一致性能撑住的情节量"决定，不由时长决定。

每一步都有可见的中间产物，人在关键节点确认，不是黑箱。

先为每个角色生成一张多视图定妆表(正/侧/背 + 表情)，作为长期资产存档。

从 N宫格派生单张七分身正面照(脸够大、服装全)——这才是喂关键帧的人物参考。实测：喂关键帧用单张正面照远胜 N宫格(后者会让 image2 身份崩)。

每个场景一张参考图(会议室 / 深夜办公室)，和角色正面照一起喂关键帧、锁住空间一致性。

用 GPT image-2 多图参考(角色正面照 + 场景图) + IDENTITY LOCK 图文双锁，逐镜生成关键帧。人物一致性、视线朝向、姿态连贯、打光都在这一步定死。¥0.42/张·可反复重生

关键帧作首帧喂 Seedance 1.5，prompt 给台词 → 原生配音 + 精准对口型，音色靠文字描述、多人对话口型不串。无需独立配音环节。$0.09/秒·480p

ffmpeg 拼接各镜。字幕用 whisper 字级时间戳 + 原台词文本 difflib 对齐——时间精确到每个字、文本零错字，白字黑边大字。

封面直接 AI 生成(标题立体字一体，胜过后期叠字)；片尾彩蛋用 3C 空间调度做幕后大佬纵深镜(背影不露脸 + 跪地求饶 + 未完待续)，留续集钩子。

一部 3 集正片 + 片尾彩蛋、成片 3 分 16 秒的真实 API 账单——数字直接取中转站返回的美元计费，可逐条复算。

项目	用量	单价	小计
视频生成 · Seedance 1.5 480p 3 集 + 彩蛋共 36 段，含 8 秒被剪的 B-roll	239 秒	$0.09/秒	$21.5
关键帧 + 定妆 + 场景图 · GPT image-2 36 关键帧 + 8 定妆/场景 + 4 彩蛋帧，可反复重生	≈48 张	$0.0828/张	$4.0
whisper 转写 / ffmpeg 合成 / 字幕烧录	本地	—	$0
整部合计（3 集 + 彩蛋，平摊每集约 $8）			≈ $25.5

≈$25.5

整部成本(3集+彩蛋)

≈$8

平摊每集

42分钟

熟练后单集纯生产