1. 项目概述最近在折腾AI视频生成的朋友估计都经历过一个痛苦循环脑子里有个绝妙的创意兴冲冲地打开某个文生视频工具输入一句描述满怀期待地等上几分钟结果出来的东西要么角色“精神分裂”要么镜头逻辑混乱要么剧情前言不搭后语。想微调对不起请从头再来。这感觉就像你雇了个不听话的导演你只能提个开头后面怎么拍、谁来演、镜头怎么切你完全插不上手最后给你一个无法修改的“黑盒”成片用不用随你。这正是传统单点式AI视频工具的痛点。它们擅长“生成一个片段”但离“制作一部作品”还差得远。一个完整的视频创作从剧本构思、角色设计、分镜规划到画面生成、剪辑合成是一个环环相扣、高度结构化的流程。任何一个环节失控最终效果都会大打折扣。今天要聊的AIGC-Claw就是为解决这个问题而生的。它不是另一个文生视频模型而是一个AI导演系统或者说是一个全流程的AI视频生产流水线。你只需要给它一个想法比如“程序员被裁后逆袭收购原公司”它就能像真正的导演团队一样把这个想法拆解成剧本、角色、分镜、参考图再一步步生成视频片段最后剪辑成片。最关键的是这个过程中的每一个中间产物——剧本、角色设定图、分镜稿、参考画面——你都能看到并且可以随时介入修改、调整然后基于你的修改继续往后生成。这彻底改变了我们与AI协作创作视频的方式从“一次性的抽奖”变成了“可迭代、可控制的共创”。2. 核心设计理念与工作流拆解2.1 为什么需要“导演系统”而非“生成工具”要理解AIGC-Claw的价值得先明白当前AI视频生成的几个核心挑战角色一致性难题让同一个角色在不同镜头、不同场景下保持外貌、衣着、发型稳定是文生视频模型的“阿喀琉斯之踵”。AIGC-Claw的解法是在流程早期就通过文生图模型生成确定的角色设定图并将此图作为后续所有视频生成环节的“角色锚点”极大地提升了一致性。叙事连贯性缺失AI生成的单镜头可能很美但镜头之间缺乏逻辑关联无法构成有起承转合的故事。AIGC-Claw引入了结构化剧本和分镜规划。先由大语言模型LLM将故事梗概扩展为包含场景、对话、动作描述的详细剧本再进一步将每个场景拆解为具体镜头如远景、中景、特写为每个镜头生成描述和参考图确保了叙事逻辑。创作过程不可控大多数工具是“输入提示词输出视频”中间过程不可见、不可调。AIGC-Claw将整个流程模块化、可视化。你可以在生成剧本后觉得某个情节不合理直接修改文本可以在看到角色设定图后要求“把发型从长发改成短发”可以在分镜阶段调整镜头语言。你的每次干预都会作为新的输入影响后续所有环节。资产无法复用传统流程中如果对最终视频的某一秒不满意往往需要重头来过之前的生成算力全部浪费。AIGC-Claw的流程是资产沉淀式的。所有中间产物剧本、角色图、分镜描述、参考图都被保存下来。你可以选择从任意一个环节比如修改了某个分镜的参考图重新开始后续的视频生成实现了资产的积累和复用。2.2 AIGC-Claw 核心工作流全景整个系统的工作流可以概括为以下六个核心阶段它们构成了一个完整、可回溯的创作管道用户输入一个想法 ↓ [阶段一] 剧本生成与策划 ↓ [阶段二] 角色与场景视觉设计 ↓ [阶段三] 分镜规划与参考图生成 ↓ [阶段四] 视频片段生成 ↓ [阶段五] 后期剪辑与合成 ↓ [阶段六] 成果输出与资产归档这个流程不是单向的。在阶段二、三、四系统都会产生可视化的中间结果并等待用户确认或修改。用户可以在任何一个决策点进行干预系统则会基于用户的最新输入重新执行后续所有或部分流程。这种“生成-确认-修改-继续”的交互模式是AIGC-Claw区别于其他工具的核心。3. 系统架构与模块深度解析AIGC-Claw采用了一种松耦合、模块化的多智能体Multi-Agent System架构。每个核心功能模块都由一个或多个专门的“智能体”负责它们各司其职通过中心调度器协同工作。下面我们来拆解每个关键模块。3.1 剧本生成与结构化代理Script Agent这是流水线的起点。它的任务是把用户模糊的、一句话的创意例如“一个乡村教师在末世坚持授课”扩展成一个结构清晰、可供拍摄的剧本。输入用户故事梗概一句话或一段话。核心工作故事扩写调用LLM如Qwen、GPT-4o基于梗概生成故事大纲包括标题、故事类型、主题、主要角色介绍和情节概要。剧本结构化将大纲进一步细化成分场剧本。每一场包含场次号、场景如室内-破旧教室、时间如黄昏、出场角色、情节描述、角色对话和动作指示。这一步的输出是一个标准的、可读的剧本文档。关键元素提取从结构化剧本中自动提取出所有唯一角色和唯一场景为下一阶段的视觉设计提供清单。技术细节与调优提示词工程这是剧本质量的关键。AIGC-Claw的提示词模板不仅要求LLM输出结构还引导其考虑“可视性”。例如会要求“情节描述应包含丰富的视觉细节如环境、人物动作、表情避免纯心理或抽象描写”。可控性与续写用户可以对生成的任何一场戏进行编辑。更强大的是“智能续写”功能。用户可以在剧本末尾输入“接下来我想让主角发现一个秘密”剧本代理会理解当前故事上下文并自然地续写后续场次。实操心得剧本阶段不宜过度追求文学性而应强调“可拍摄性”。在提示词中明确要求“每场戏的描述应能转化为1-3个具体的镜头”能为后续分镜阶段打下坚实基础。3.2 视觉概念设计代理Visual Design Agent剧本是文字的但电影是视觉的。这个模块负责将剧本中的抽象描述转化为具体的视觉参考。输入从剧本中提取的“角色列表”和“场景列表”。核心工作角色设计对于每个角色调用文生图模型如豆包-Seedream、即梦生成多张角色设定图。提示词会结合剧本中对角色的描述年龄、职业、性格以及用户可能指定的风格如“写实照片风”、“二次元动漫风”。场景设计对于每个独特场景生成场景氛围图。这不仅是给视频生成模型看的更是给“导演”用户看的用于统一全片的视觉基调。技术细节与调优一致性种子为同一个角色生成多角度、多表情的设定图时可以使用固定的随机种子Seed并配合角色描述的一致性来获得相对稳定的形象。负向提示词在生成角色和场景时系统会预设一组负向提示词如“ugly, deformed, bad anatomy, extra limbs”以过滤掉低质量的生成结果。用户干预点这是第一个重要的视觉确认点。用户可以看到所有生成的角色和场景图可以选择最满意的一张作为“官方设定”也可以要求重新生成或提出修改意见如“把这个角色的衣服换成西装”。被选定的图片其文件名和路径会被系统记录并绑定到对应的角色/场景名上贯穿后续所有流程。3.3 分镜与镜头规划代理Storyboard Agent这是将剧本转化为具体拍摄指令的核心环节也是AI担任“导演”职责的集中体现。输入结构化剧本、已确定的角色设定图、场景氛围图。核心工作镜头拆分分析每一场戏的情节和对话将其分解为若干个镜头。例如一场“两人对话”的戏可能被拆分为“A说话的中景”、“B反应的特写”、“两人的过肩镜头”等。镜头描述生成为每个镜头生成详细的文生视频提示词。这个提示词是综合信息的结晶场景描述来自剧本角色及外观来自角色设定图文件名/描述镜头语言如“medium shot, low angle, cinematic lighting”动作与情绪来自剧本。分镜参考图生成为了更直观地预览系统会为每个镜头的描述调用文生图模型生成一张静态的“分镜草图”。这张图不追求最终视频的质量而是为了确认构图、角色位置、大致氛围是否正确。技术细节与调优镜头语言库系统内部维护了一个镜头类型库远景、全景、中景、近景、特写、仰拍、俯拍等LLM会根据情节自动选择合适的镜头类型并写入提示词。用户也可以自定义或扩充这个库。提示词组装这是技术关键点。最终的视频生成提示词是多个部分的智能拼接。例如[场景破旧教室黄昏] [角色1老教师穿着旧中山装表情坚毅] [角色2年轻学生眼神好奇] [动作教师指着黑板上的字] [镜头medium close-up, shallow depth of field, warm sunset light through window]。这种结构化的提示词能极大提升视频生成模型输出的可控性和准确性。实操心得分镜阶段生成的参考图至关重要。它是对镜头描述的一次“视觉校验”。如果参考图都和你想象的不一样那生成的视频大概率会跑偏。务必在这个阶段花时间调整提示词直到参考图符合预期。3.4 视频生成与后期代理Video Generation Editing Agent这是执行“拍摄”的环节将分镜转化为动态视频并进行初步组装。输入每个镜头的最终版提示词、对应的角色设定图用于图生视频、场景氛围图作为风格参考。核心工作视频片段生成调用视频生成模型如Wan2.7, Seedance以镜头提示词和角色设定图为条件生成单个短视频片段通常为2-5秒。图生视频I2V模式在这里非常重要它是保证角色一致性的最后一道也是最有效的技术关卡。片段排序与剪辑将所有生成的视频片段按照剧本和分镜的顺序进行排列。基础后期处理进行简单的转场添加如淡入淡出、背景音乐/音效的匹配根据场景情绪从素材库选择、以及字幕的添加根据剧本对话生成SRT字幕文件并压入视频。技术细节与调优模型选择策略不同的视频模型擅长不同的风格。AIGC-Claw支持配置多种模型。例如wan2.7-i2v可能更适合写实风格而doubao-seedance可能在某些动画风格上表现更好。系统允许在配置文件中指定首选模型。失败重试与降级视频生成是计算密集且可能失败的过程。代理需要监控生成任务如果失败如API超时、内容违规应能自动重试或根据配置降级到其他可用模型。资产管理每个视频片段、每条音轨、每个字幕文件都被妥善命名和存储并与剧本、分镜建立关联。这样如果用户对其中某个片段不满意可以单独替换该片段而无需重做整个视频。踩坑记录视频生成是最耗时的环节成本也最高。强烈建议在分镜参考图阶段反复打磨确认无误后再启动批量视频生成。否则生成一堆不满意的片段浪费的是真金白银的API调用费用和大量的等待时间。4. 部署与实操指南AIGC-Claw提供了多种部署方式适应不同用户的使用习惯。下面我将以最通用的手动部署为例详细走一遍流程并分享其中的关键配置和避坑点。4.1 环境准备与后端部署首先你需要准备好API密钥。AIGC-Claw本身不提供模型它是一个调度框架需要接入各大云服务商的模型API。目前主要支持阿里云灵积DashScope、字节跳动火山方舟Ark等。克隆代码与创建环境git clone https://github.com/HITsz-TMG/AIGC-Claw.git cd AIGC-Claw/aigc-director/aigc-claw/backend python -m venv venv # 创建虚拟环境 # Windows: venv\Scripts\activate # Linux/Mac: source venv/bin/activate pip install -r requirements.txt关键配置.env文件。 这是项目的核心配置文件直接拷贝示例文件并填写你的密钥。cp .env.example .env用文本编辑器打开.env文件你需要关注以下部分# LLM 配置负责剧本、分镜等文本推理 LLM_MODELqwen3.5-plus # 可选deepseek-chat, gpt-4o等 VLM_MODELqwen-vl-plus # 视觉语言模型用于分析图像 # 图像生成负责角色、场景、分镜图 IMAGE_T2I_MODELdoubao-seedream-5-0-260128 # 文生图模型 IMAGE_IT2I_MODELdoubao-seedream-5-0-260128 # 图生图模型 # 视频生成核心耗资环节 VIDEO_MODELwan2.7-i2v # 图生视频模型 VIDEO_RATIO16:9 # 视频比例 # ---------------- API Keys (必填) ---------------- DASHSCOPE_API_KEYsk-xxxxxxxxxxxxxxxx # 阿里云灵积Key ARK_API_KEYxxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx # 火山方舟Key DEEPSEEK_API_KEYsk-xxxxxxxxxxxxxxxx # DeepSeek Key模型选择建议对于个人开发者或预算有限的用户qwen3.5-plus和deepseek-chat是性价比极高的LLM选择。视频模型方面wan2.7-i2v和doubao-seedance是目前效果和稳定性较好的但API调用费用不菲建议先小额测试。密钥安全务必确保.env文件不被提交到Git等公开仓库。.gitignore文件通常已将其忽略。启动后端服务python api_server.py如果一切正常你会看到服务运行在http://localhost:8000并且输出了Swagger API文档的地址。后端服务提供了所有流程控制的RESTful API。4.2 前端部署与交互AIGC-Claw提供了一个现代化的Web界面让你能直观地管理整个创作流程。安装依赖并构建cd ../../frontend # 从backend目录返回进入frontend npm install # 安装Node.js依赖这步可能需要一些时间 npm run build # 构建生产版本 npm start # 启动开发服务器访问http://localhost:3000即可打开前端界面。界面核心功能导览项目管理创建新项目输入你的故事创意。流程看板以看板形式直观展示当前项目所处的阶段剧本、设计、分镜、生成、剪辑每个阶段都可以点击进入详情。资产管理器集中查看和管理项目生成的所有资产包括剧本文本、角色图、分镜图、视频片段。你可以在这里进行“选择”、“替换”、“重新生成”等操作。实时日志显示后台任务的执行状态和日志方便排查问题。4.3 通过OpenClaw集成高阶玩法对于已经使用OpenClaw一个AI智能体平台的用户AIGC-Claw可以作为一个Skill技能无缝集成实现用自然语言对话来驱动视频创作。安装Skill 向你的OpenClaw助手发送指令帮我克隆git仓库https://github.com/HITsz-TMG/AIGC-Claw.git 然后把AIGC-Claw中的aigc-director文件夹递归复制到.openclaw/workspace/skills目录下用作AIGC相关的skillOpenClaw会自动处理克隆和复制。使用技能 之后你就可以像使唤一个员工一样通过对话来创作视频用aigc-director来生成一个视频内容是“一位宇航员在火星基地发现了一株未知植物”OpenClaw会自动调用AIGC-Claw的后端API启动整个工作流并将进度和结果反馈给你。你同样可以在关键节点进行干预比如回复“我不喜欢这个角色的头盔设计换成透明的”。这种集成方式的巨大优势在于你将视频创作流程嵌入到了一个更通用的AI智能体工作流中。你可以让OpenClaw先帮你调研“火星植物的科学猜想”整理成资料再交给AIGC-Claw去生成视频实现了跨任务的自动化协作。5. 实战经验与避坑指南在实际使用AIGC-Claw生成了几十个视频片段后我总结了一些至关重要的经验和常见问题的解决方法。5.1 提示词Prompt优化是成败关键AI生成的质量八成取决于你的输入。在AIGC-Claw的流程中你有多次机会优化提示词。剧本阶段给你的初始创意加上“风格限定词”。不要只说“一个侦探故事”要说“一个带有黑色电影风格、充满霓虹灯和雨夜氛围的赛博朋克侦探故事”。这能帮助LLM锁定更具体的叙事基调。角色设计阶段描述要具体、可视化。“一个英俊的男主角”是无效的。“一个28岁左右的亚洲男性短发略有凌乱穿着修身的灰色羊毛大衣眼神锐利但带有疲惫感嘴角有一道淡淡的疤痕”这样的描述能生成稳定得多的形象。分镜提示词学会使用“摄影术语”。cinematic lighting电影感灯光、shallow depth of field浅景深、Dutch angle荷兰角、slow motion慢动作这些词能极大地提升画面的专业感。可以参考电影摄影的词汇表来丰富你的提示词库。5.2 成本控制与生成策略视频生成是最大的成本中心必须精打细算。分镜图作为低成本试错在进入昂贵的视频生成前务必在‘分镜参考图’阶段反复调整和确认。生成一张图的成本远低于生成一段视频。确保每个镜头的分镜图都符合你的想象。分段生成分批审核不要一次性生成一个10分钟视频的所有片段。可以先生成前30秒的关键片段检查角色一致性、画面质量、节奏是否符合预期。确认无误后再继续生成后续部分。利用种子Seed对于需要多角度展示的同一角色或场景在文生图时尝试使用相同的seed值并结合高度一致的描述可以获得更统一的结果。虽然视频生成的seed控制不如图片精确但仍有参考价值。模型降级策略在配置中可以为视频模型设置备选。例如首选wan2.7-i2v如果失败或预算不足可以自动切换到wan2.6-i2v-flash可能速度更快或成本更低。5.3 常见问题与排查问题现象可能原因解决方案后端启动失败提示缺少模块Python依赖未安装完整或虚拟环境未激活1. 确认虚拟环境已激活 (venv)。2. 在backend目录下运行pip install -r requirements.txt --force-reinstall。前端无法连接到后端后端服务未启动或端口被占用或CORS问题1. 检查api_server.py是否在运行端口8000。2. 查看前端控制台(F12)的Network报错。3. 在后端代码中确认CORS设置已正确配置项目通常已设置好。生成视频全是灰色/失败视频模型API调用失败或API Key无效/余额不足1. 检查.env中的ARK_API_KEY或对应视频模型的API Key是否正确。2. 登录对应云平台控制台确认服务已开通、且有充足余额。3. 查看后端日志寻找具体的API错误信息。角色在不同镜头中形象变化大1. 角色设计阶段描述不够具体。2. 图生视频时角色参考图未被正确使用。1. 返回“视觉设计”阶段重新生成并选定一个特征更清晰、角度更标准的角色图作为“主设定图”。2. 检查分镜提示词中是否包含了类似[character: john, wearing suit from reference image]的指令确保系统知道要调用哪张参考图。生成的视频动作僵硬或不符合描述视频生成模型的局限性提示词中对动作的描述不够精确。1. 在分镜描述中将动作分解为更简单、更具体的指令。例如不说“他激动地跑过来”而说“他从画面右侧入画向左侧快速奔跑脸上带着喜悦的表情头发被风吹起”。2. 尝试在提示词中加入动作相关的风格词如dynamic movement,smooth motion。剧本情节逻辑混乱LLM在长文本生成中可能出现逻辑漂移。1. 在剧本生成后仔细阅读并手动编辑不合理之处。2. 利用系统的“续写”功能时在输入中简要重申之前的关键情节帮助LLM保持上下文。5.4 进阶技巧打造你的风格化工作流AIGC-Claw的配置是高度可定制的你可以打造专属的创作流水线。自定义模型如果你有访问其他模型API的权限如OpenAI的Sora、Stability AI的模型可以研究项目代码中的模型调用层通常是一个model_provider目录按照现有模式添加新的模型适配器。预设风格模板你可以创建多个.env的变体文件。例如一个env.anime配置全套动漫风格的模型LLM用DeepSeek图用即梦视频用特定动漫模型另一个env.cinematic配置电影写实风格。根据不同项目需求切换环境变量文件即可。外部工具集成生成的视频片段和音频是标准文件。你可以用更专业的工具如DaVinci Resolve, Adobe Premiere进行精剪、调色、混音然后将最终成片导回项目作为最终版本。AIGC-Claw负责的是“粗剪”和“内容生成”专业后期可以在此基础上锦上添花。AIGC-Claw代表了一种新的方向AI不是替代创作者而是成为一个高度可控、可协作的“超级生产助理”。它把那个令人头疼的“黑盒”打开了让你能看到并掌控从灵感到成片的每一个环节。虽然目前生成的视频在动作连贯性、物理真实性上还与专业影视有差距但对于短视频、概念片、故事板、个人创意表达来说它已经是一个强大得惊人的工具。它的价值不在于替代谁而在于极大地降低了高质量视频叙事的门槛让每个人都能像导演一样去构思、调整并最终实现自己的视觉故事。