一台 NAS + 一张 3060，我给自己雇了 4 个不知疲倦的 AI 影视打工人

Spread the love

做短视频最消耗精力的绝对不是剪辑，而是前期无休止的折腾：写脚本、找素材、生成配音、对齐字幕。

今天我们直接用技术把桌子掀了。这篇教程将手把手带你打通 Linux (OpenClaw 大脑) + Win11 (ComfyUI 肌肉) + NAS (中央仓库) 的跨设备工作流。

只要你在终端输入一篇文章，系统就会自动完成：改写多平台口播脚本 $\rightarrow$ 提取英文分镜 Prompt $\rightarrow$ 唤醒显卡批量生成 9:16 竖屏图 $\rightarrow$ 生成带时间轴的配音字幕 $\rightarrow$ 输出小红书/B站专属宣发文案，并全部分门别类存入 NAS。你唯一要做的，就是把文件拖进剪映里“包饺子”。

Table of Contents

Toggle

🏗️ 架构准备与核心思路

调度中枢： 一台运行 OpenClaw 的 Linux 服务器（负责分配任务、执行 Bash 脚本）。
生图节点： 局域网内一台带 RTX 3060 12G 显卡的 Win11 电脑（运行 ComfyUI）。
文件枢纽： NAS 存储（挂载到两台设备上，实现文件秒传）。

第一步：构建 OpenClaw 多智能体“董事会”

单独一个 AI 模型干不了这么复杂的活。我们需要在 OpenClaw 里建立四个明确分工的 Agent。

1. 创建 Agent

在 Linux 终端直接执行以下命令建制团队：

Bash

openclaw agents add scriptwriter
openclaw agents add visual-director
openclaw agents add publisher

2. 配置模型与避坑指南

⚠️ 踩坑预警： 运行这套长链路工作流时，极其容易遇到两个报错：

HTTP 404 (model_not_found)：通常是使用了免费且不稳定的超大参数模型节点。
API rate limit reached：主控 Agent 频繁拆解长文本触发了并发限制。

极客解法： 在 openclaw.json 中配置高并发、响应快的模型。对于宣发和脚本改写，推荐使用 moonshot-v1-256k (Kimi) 或 deepseek-chat 以保证中文网感；对于主控路由，强烈推荐配置 Gemini。

(注：配置 Gemini 时，provider 键名必须是 google 而非 google-genai，模型 ID 填写 gemini-1.5-flash-latest。)

3. 注入灵魂（System Prompts）

去 OpenClaw 网页端（或直接编辑 ~/.openclaw/agents/*/identity.md），为它们注入极其严苛的工作流约束：

main (Boss 总包 Sop)： 必须在提示词最下方写死执行顺序：“当你收到启动指令时，必须：1. 在 NAS 中创建当前时间命名的项目文件夹。2. 调度 @scriptwriter 改写脚本并用 bash 存为 pure_voice.txt。3. 调度 @visual-director 生成分镜清单 prompts-list.json。4. 运行 edge-tts 命令生成音频。5. 运行 python3 batch_run.py 唤醒显卡。6. 调度 @publisher 生成宣发物料并存入 NAS。”
@scriptwriter (文案编剧)： 赋予它“智能人设切换”。要求它判断文章是科技干货（用幽默吐槽风）还是情感故事（用温暖共情风），并在关键节点标注 [画面：xxx] 的导演视觉提示。
@visual-director (视觉导演)： 同样需要模式判断。科技类输出 Cyberpunk、8k 等词库；情感类输出 Cinematic lighting、film grain（胶片颗粒）等词库，最终输出包含 10-15 个镜头的 JSON。
@publisher (宣发管家)： 要求根据成片脚本，自动输出带有 emoji 的小红书爆款文案、B 站造梗标题以及 10 个精确的 SEO Hashtag 标签，并保存为 publish_kit.md。

第二步：打通 ComfyUI 本地显卡生图链路

我们要让 Linux 服务器通过 Python 脚本，直接操控 Win11 上的 ComfyUI 批量生图。

1. 导出 API JSON 与节点定位

在 ComfyUI 调好 Z-Image Turbo 工作流，点击 Save (API Format) 保存为 z_turbo_api.json。

打开这个 JSON 文件，精准定位两个核心节点编号（Node ID）：

CLIPTextEncode（正向提示词）： 找到 "class_type": "CLIPTextEncode" 对应的外层数字（例如 "45"）。
SaveImage（保存图像）： 找到 "class_type": "SaveImage" 对应的外层数字（例如 "9"）。

2. 编写 Python 批量触发脚本

在 Linux 服务器新建 batch_run.py，核心逻辑是读取 Boss 传来的 JSON 清单，循环替换提示词并提交给 API：

Python

import json
import urllib.request
import time
import sys
import os

list_path = sys.argv[1] # 接收 NAS 中的 prompts-list.json 路径
project_dir_name = os.path.basename(os.path.dirname(list_path))
comfyui_url = "http://192.168.100.8:8000/prompt" # 替换为你的 Win11 IP

with open(list_path, 'r', encoding='utf-8') as f:
    prompts_data = json.load(f)
with open('/home/hhdz/comfy_api/z_turbo_api.json', 'r', encoding='utf-8') as f:
    workflow = json.load(f)

for shot in prompts_data.get("shots", []):
    # 注入提示词 (Node 45)
    workflow["45"]["inputs"]["text"] = shot["prompt"]
    # 注入文件名，包含 NAS 项目子目录前缀 (Node 9)
    workflow["9"]["inputs"]["filename_prefix"] = f"nas_mount/{project_dir_name}/Shot_{shot['id']}"
    
    p = {"prompt": workflow}
    req = urllib.request.Request(comfyui_url, data=json.dumps(p).encode('utf-8'))
    urllib.request.urlopen(req)
    time.sleep(0.5)

⚠️ 踩坑预警：短视频分辨率陷阱

ComfyUI 默认吐出 1024×1024 的方图，放进剪映里上下全是黑边。千万别强行拉到 1080×1920，12G 显存极其容易 OOM（爆显存）。

极客解法： 直接在 ComfyUI 的 Empty Latent Image 节点中，将分辨率改为 768 x 1344。这是最完美的 9:16 竖屏甜点分辨率，出图极快且不会崩溃。

第三步：零成本搞定“真声配音+毫秒级字幕”

放弃笨重的本地部署，直接白嫖微软的 Edge-TTS。

⚠️ 踩坑预警：环境污染报错

如果你在 Debian 12 或较新的 Linux 系统上直接 pip3 install edge-tts，会遇到 externally-managed-environment 报错，系统会拒绝安装以保护自带的 Python 环境。

极客解法： 使用 pipx 隔离安装。

Bash

sudo apt install pipx
pipx ensurepath
pipx install edge-tts

安装完成后，在 Boss 的 SOP 里加上这句神级命令：

Bash

edge-tts --voice zh-CN-YunxiNeural --file pure_voice.txt --write-media final_audio.mp3 --write-subtitles final_subtitles.vtt

它不仅会生成媲美真人的 mp3 音频，还会附带一份精确到毫秒的 .vtt 字幕文件，后期拖进剪映直接严丝合缝对齐。

第四步：空间跃迁，打破 ComfyUI 存储限制

整个流程最棘手的问题：ComfyUI 的 SaveImage 节点默认拒绝绝对路径，它只会把图片死板地存在 Win11 本地的 ComfyUI/output/ 目录，Linux 端的 NAS 根本拿不到图。

极客解法：Windows 目录联接（软链接传送门）

在 Win11 电脑上，以管理员身份打开 CMD，进入 ComfyUI 的 output 目录，建立一个指向 NAS 的快捷映射：

DOS

cd /d D:\ComfyUI\output
mklink /D nas_mount "\\192.168.100.6\你的NAS共享文件夹"

完成这一步，当 Python 脚本将前缀设为 nas_mount/项目名/ 时，ComfyUI 以为自己存在了本地，但图片实际上已经顺着局域网直接落入了 NAS 硬盘。

🚀 最终点火

配置完毕后，你只需要在 Telegram 里对 OpenClaw 发送一句：

“启动视频产线！文章内容如下：[粘贴你的万字长文]”

一杯咖啡的时间后，打开你的 NAS 项目文件夹，你将看到按镜头完美编号的竖屏分镜图、带情绪的配音 MP3、对齐的 VTT 字幕，以及一份全平台发布的 Markdown 文案包。

剩下的，就是把它们拖进剪映，给图片加一点轻微的“肯·伯恩斯”缩放关键帧，享受“赛博工厂”为你打工的极致快感吧。

💡 常见问题解答 (FAQ)

Q1：我没有 RTX 3060 12G，显存比较低或者用的是 Mac，能抄这套作业吗？

A：核心逻辑完全可以抄，但“肌肉”部分需要替换。这套架构的精髓在于 OpenClaw 的中枢调度。如果你本地显卡跑不动 ComfyUI，可以直接修改 Python 桥接脚本，把请求发给云端的生图 API（比如阿里云、智谱或者其他 AI 绘画接口）。只要你的大模型和 NAS 挂载配置正确，自动化产线依然能丝滑运转，只是把“本地压榨显卡”换成了“云端呼叫外援”。

Q2：跑通这套全自动流水线，大概需要多少成本？

A：除了你家里的电费，几乎是零成本白嫖。

画面： ComfyUI 跑在本地显卡上，免费。
声音： Edge-TTS 调用的是微软的官方语音接口，免费且自带 VTT 字幕。
大脑： OpenClaw 本身开源免费。唯一可能产生微小费用的，是调用教研和宣发 Agent 时消耗的 API Token。但目前很多国产大模型（如 Kimi、DeepSeek）价格极低，一篇文章几分钱；如果你接入带免费额度的 API 节点，那就是真正的完全零成本。

Q3：教程里是生成 9:16 的静态分镜图，我能直接让系统批量生成 AI 动态视频（比如 LTX-2）吗？

A：技术上绝对可以，底层逻辑和代码完全一样，你只需要把导出的工作流 JSON 换成 LTX-2 的视频工作流即可。 但实战中强烈不建议“全片上视频”。 跑一段高质量的 AI 视频极其吃算力和时间，在 RTX 3060 上跑 60 个分镜的视频可能会让显卡连续满载两三天。最聪明的“工业化”做法是：开场和结尾的 3 个关键镜头用动态视频抓眼球，中间的干货讲解继续用静态图，然后在剪映里一键加上“缓慢缩放”的运动关键帧。出片极快，且观众不会产生视觉疲劳。

🏗️ 架构准备与核心思路

第一步：构建 OpenClaw 多智能体“董事会”

1. 创建 Agent

2. 配置模型与避坑指南

3. 注入灵魂（System Prompts）

第二步：打通 ComfyUI 本地显卡生图链路

1. 导出 API JSON 与节点定位

2. 编写 Python 批量触发脚本

第三步：零成本搞定“真声配音+毫秒级字幕”

第四步：空间跃迁，打破 ComfyUI 存储限制

🚀 最终点火

💡 常见问题解答 (FAQ)

Leave a Reply Cancel reply