AI 影视打工人

一台 NAS + 一张 3060,我给自己雇了 4 个不知疲倦的 AI 影视打工人

Spread the love

做短视频最消耗精力的绝对不是剪辑,而是前期无休止的折腾:写脚本、找素材、生成配音、对齐字幕。

今天我们直接用技术把桌子掀了。这篇教程将手把手带你打通 Linux (OpenClaw 大脑) + Win11 (ComfyUI 肌肉) + NAS (中央仓库) 的跨设备工作流。

只要你在终端输入一篇文章,系统就会自动完成:改写多平台口播脚本 $\rightarrow$ 提取英文分镜 Prompt $\rightarrow$ 唤醒显卡批量生成 9:16 竖屏图 $\rightarrow$ 生成带时间轴的配音字幕 $\rightarrow$ 输出小红书/B站专属宣发文案,并全部分门别类存入 NAS。你唯一要做的,就是把文件拖进剪映里“包饺子”。


🏗️ 架构准备与核心思路

  • 调度中枢: 一台运行 OpenClaw 的 Linux 服务器(负责分配任务、执行 Bash 脚本)。
  • 生图节点: 局域网内一台带 RTX 3060 12G 显卡的 Win11 电脑(运行 ComfyUI)。
  • 文件枢纽: NAS 存储(挂载到两台设备上,实现文件秒传)。

第一步:构建 OpenClaw 多智能体“董事会”

单独一个 AI 模型干不了这么复杂的活。我们需要在 OpenClaw 里建立四个明确分工的 Agent。

1. 创建 Agent

在 Linux 终端直接执行以下命令建制团队:

Bash

openclaw agents add scriptwriter
openclaw agents add visual-director
openclaw agents add publisher

2. 配置模型与避坑指南

⚠️ 踩坑预警: 运行这套长链路工作流时,极其容易遇到两个报错:

  • HTTP 404 (model_not_found):通常是使用了免费且不稳定的超大参数模型节点。
  • API rate limit reached:主控 Agent 频繁拆解长文本触发了并发限制。

极客解法:openclaw.json 中配置高并发、响应快的模型。对于宣发和脚本改写,推荐使用 moonshot-v1-256k (Kimi) 或 deepseek-chat 以保证中文网感;对于主控路由,强烈推荐配置 Gemini。

(注:配置 Gemini 时,provider 键名必须是 google 而非 google-genai,模型 ID 填写 gemini-1.5-flash-latest。)

3. 注入灵魂(System Prompts)

去 OpenClaw 网页端(或直接编辑 ~/.openclaw/agents/*/identity.md),为它们注入极其严苛的工作流约束:

  • main (Boss 总包 Sop): 必须在提示词最下方写死执行顺序:“当你收到启动指令时,必须:1. 在 NAS 中创建当前时间命名的项目文件夹。2. 调度 @scriptwriter 改写脚本并用 bash 存为 pure_voice.txt。3. 调度 @visual-director 生成分镜清单 prompts-list.json。4. 运行 edge-tts 命令生成音频。5. 运行 python3 batch_run.py 唤醒显卡。6. 调度 @publisher 生成宣发物料并存入 NAS。”
  • @scriptwriter (文案编剧): 赋予它“智能人设切换”。要求它判断文章是科技干货(用幽默吐槽风)还是情感故事(用温暖共情风),并在关键节点标注 [画面:xxx] 的导演视觉提示。
  • @visual-director (视觉导演): 同样需要模式判断。科技类输出 Cyberpunk、8k 等词库;情感类输出 Cinematic lighting、film grain(胶片颗粒)等词库,最终输出包含 10-15 个镜头的 JSON。
  • @publisher (宣发管家): 要求根据成片脚本,自动输出带有 emoji 的小红书爆款文案、B 站造梗标题以及 10 个精确的 SEO Hashtag 标签,并保存为 publish_kit.md

第二步:打通 ComfyUI 本地显卡生图链路

我们要让 Linux 服务器通过 Python 脚本,直接操控 Win11 上的 ComfyUI 批量生图。

1. 导出 API JSON 与节点定位

在 ComfyUI 调好 Z-Image Turbo 工作流,点击 Save (API Format) 保存为 z_turbo_api.json

打开这个 JSON 文件,精准定位两个核心节点编号(Node ID):

  • CLIPTextEncode(正向提示词): 找到 "class_type": "CLIPTextEncode" 对应的外层数字(例如 "45")。
  • SaveImage(保存图像): 找到 "class_type": "SaveImage" 对应的外层数字(例如 "9")。

2. 编写 Python 批量触发脚本

在 Linux 服务器新建 batch_run.py,核心逻辑是读取 Boss 传来的 JSON 清单,循环替换提示词并提交给 API:

Python

import json
import urllib.request
import time
import sys
import os

list_path = sys.argv[1] # 接收 NAS 中的 prompts-list.json 路径
project_dir_name = os.path.basename(os.path.dirname(list_path))
comfyui_url = "http://192.168.100.8:8000/prompt" # 替换为你的 Win11 IP

with open(list_path, 'r', encoding='utf-8') as f:
    prompts_data = json.load(f)
with open('/home/hhdz/comfy_api/z_turbo_api.json', 'r', encoding='utf-8') as f:
    workflow = json.load(f)

for shot in prompts_data.get("shots", []):
    # 注入提示词 (Node 45)
    workflow["45"]["inputs"]["text"] = shot["prompt"]
    # 注入文件名,包含 NAS 项目子目录前缀 (Node 9)
    workflow["9"]["inputs"]["filename_prefix"] = f"nas_mount/{project_dir_name}/Shot_{shot['id']}"
    
    p = {"prompt": workflow}
    req = urllib.request.Request(comfyui_url, data=json.dumps(p).encode('utf-8'))
    urllib.request.urlopen(req)
    time.sleep(0.5)

⚠️ 踩坑预警:短视频分辨率陷阱

ComfyUI 默认吐出 1024×1024 的方图,放进剪映里上下全是黑边。千万别强行拉到 1080×1920,12G 显存极其容易 OOM(爆显存)。

极客解法: 直接在 ComfyUI 的 Empty Latent Image 节点中,将分辨率改为 768 x 1344。这是最完美的 9:16 竖屏甜点分辨率,出图极快且不会崩溃。


第三步:零成本搞定“真声配音+毫秒级字幕”

放弃笨重的本地部署,直接白嫖微软的 Edge-TTS。

⚠️ 踩坑预警:环境污染报错

如果你在 Debian 12 或较新的 Linux 系统上直接 pip3 install edge-tts,会遇到 externally-managed-environment 报错,系统会拒绝安装以保护自带的 Python 环境。

极客解法: 使用 pipx 隔离安装。

Bash

sudo apt install pipx
pipx ensurepath
pipx install edge-tts

安装完成后,在 Boss 的 SOP 里加上这句神级命令:

Bash

edge-tts --voice zh-CN-YunxiNeural --file pure_voice.txt --write-media final_audio.mp3 --write-subtitles final_subtitles.vtt

它不仅会生成媲美真人的 mp3 音频,还会附带一份精确到毫秒的 .vtt 字幕文件,后期拖进剪映直接严丝合缝对齐。


第四步:空间跃迁,打破 ComfyUI 存储限制

整个流程最棘手的问题:ComfyUI 的 SaveImage 节点默认拒绝绝对路径,它只会把图片死板地存在 Win11 本地的 ComfyUI/output/ 目录,Linux 端的 NAS 根本拿不到图。

极客解法:Windows 目录联接(软链接传送门)

在 Win11 电脑上,以管理员身份打开 CMD,进入 ComfyUI 的 output 目录,建立一个指向 NAS 的快捷映射:

DOS

cd /d D:\ComfyUI\output
mklink /D nas_mount "\\192.168.100.6\你的NAS共享文件夹"

完成这一步,当 Python 脚本将前缀设为 nas_mount/项目名/ 时,ComfyUI 以为自己存在了本地,但图片实际上已经顺着局域网直接落入了 NAS 硬盘。


🚀 最终点火

配置完毕后,你只需要在 Telegram 里对 OpenClaw 发送一句:

“启动视频产线!文章内容如下:[粘贴你的万字长文]”

一杯咖啡的时间后,打开你的 NAS 项目文件夹,你将看到按镜头完美编号的竖屏分镜图、带情绪的配音 MP3、对齐的 VTT 字幕,以及一份全平台发布的 Markdown 文案包。

剩下的,就是把它们拖进剪映,给图片加一点轻微的“肯·伯恩斯”缩放关键帧,享受“赛博工厂”为你打工的极致快感吧。

💡 常见问题解答 (FAQ)

Q1:我没有 RTX 3060 12G,显存比较低或者用的是 Mac,能抄这套作业吗?

A: 核心逻辑完全可以抄,但“肌肉”部分需要替换。 这套架构的精髓在于 OpenClaw 的中枢调度。如果你本地显卡跑不动 ComfyUI,可以直接修改 Python 桥接脚本,把请求发给云端的生图 API(比如阿里云、智谱或者其他 AI 绘画接口)。只要你的大模型和 NAS 挂载配置正确,自动化产线依然能丝滑运转,只是把“本地压榨显卡”换成了“云端呼叫外援”。

Q2:跑通这套全自动流水线,大概需要多少成本?

A: 除了你家里的电费,几乎是零成本白嫖

  1. 画面: ComfyUI 跑在本地显卡上,免费。
  2. 声音: Edge-TTS 调用的是微软的官方语音接口,免费且自带 VTT 字幕。
  3. 大脑: OpenClaw 本身开源免费。唯一可能产生微小费用的,是调用教研和宣发 Agent 时消耗的 API Token。但目前很多国产大模型(如 Kimi、DeepSeek)价格极低,一篇文章几分钱;如果你接入带免费额度的 API 节点,那就是真正的完全零成本。

Q3:教程里是生成 9:16 的静态分镜图,我能直接让系统批量生成 AI 动态视频(比如 LTX-2)吗?

A: 技术上绝对可以,底层逻辑和代码完全一样,你只需要把导出的工作流 JSON 换成 LTX-2 的视频工作流即可。 但实战中强烈不建议“全片上视频”。 跑一段高质量的 AI 视频极其吃算力和时间,在 RTX 3060 上跑 60 个分镜的视频可能会让显卡连续满载两三天。最聪明的“工业化”做法是:开场和结尾的 3 个关键镜头用动态视频抓眼球,中间的干货讲解继续用静态图,然后在剪映里一键加上“缓慢缩放”的运动关键帧。出片极快,且观众不会产生视觉疲劳。

Leave a Reply Cancel reply