别被“智能体”吓跑:扣子编程快速搭建“助手”——以AI视频为例

很多人一听“智能体”就觉得要复杂的搭建流程，现实是不少平台（比如扣子编程）一句指令就能拉起一个能跑的AI助手。

关键是：你想让它干“体力活”还是“脑力活”？

既然提到了智能体，那就免不了提到另一个词——工作流。

先说说工作流和智能体的简单区别：

工作流：流水线，无前置推理，就是内容——条件识别——根据条件去做事情，全程确定性强，比较可控；

智能体：带有一定的推理，在你输入内容后，先进入模型推理，再进行调用工具，（可以调用单一工具和依次多工具）并通过输出内容依次按照提示词进行加工完成任务，且在智能体输出时也会通过大语言模型，但整体会有一定程度上的不可控。

简单来说，工作流更适合“体力劳动”，智能体更适合“脑力劳动”，涉及一些内容创作到加工到完成整体性流程，智能体比较占优势。但是，不缺少某一部分出现问题因其不稳定性。

比如：我们调用API去执行任务，会返回一个URL，工作流一般是直到任务完成会输出完整的原始返回的URL（这个过程会持续跟进）；而智能体，创建任务后会即时反馈，可能你让他隔一段时间去查询任务进度，但到最后任务完成，返回的URL可能不是原始的URL导致打不开链接，至使白费token（这可能是逻辑设计和调用工具出现的问题，不过光靠指令修复有概率性（乱了直接回退版本），不懂改项目文件修就是硬伤）。

所以在任务阶段，选好使用工具很重要。

这篇主要是说通过指令搭建智能体的（如果是调整好的直接购买使用的Agent，尤其是软件商，做到的智能体调整是比较精致的，出错的概率会比较小，精确度在实际应用体验更好，本文不探讨这部分）。

拆解项目——项目需求——项目流程

项目流程即完成我们的想法所需要的流程——比如说：“想做一个视频，主题是有家人在，哪里都是家”，有主题后将项目拆解到具体需要什么工具去完成项目这个中间的载体。

如果说没有基础想法，可以找个模型探讨，也可以把这个功能加在智能体里，不过这部分记得多交流以显著提升整个内容的归属性以便在面临一些侵权问题占据主动权。

再回到项目流程，上方以视频为例，那么需要人物、脚本（含台词+镜头）、分镜、视频生成、视频合成（本文该部分未提到使用智能体完成，自己剪视频还能审核）。

这里可以先有脚本，也可以先有人物，这个就是顺序的问题，比如我就想用一个特定形象的人物去写剧本，那其实是人物——脚本，是通过人物设计脚本；反过来是通过脚本设计人物。

人物（单一人物）需要设定年龄外貌等基础信息，当在生成人物时需要配合这些信息以及整个视频的一个风格，比如需要漫画风格，这个时候就在提示词里加上漫画风格，然后调用相应的视觉模型。

如果没有想法，你就可以把这部分丢给智能体，因为它也可以像工作流那样流式执行——比如说我给了个主题，你给我生成个人物——脚本（含台词+镜头）——分镜——最后生成视频，这个完全没问题，但你这部分最出问题的是人物一致性和最后生成视频时，多分镜、多个首尾帧一起生成视频（后面也会提到）。

保持人物一致性是放在了带场景的情况（这部分见后），这个时候就是说应该有这个分镜了，要把背景粘上去，那么有分镜的前提那就是脚本有了。

所以这个时候脚本（含台词+镜头）的创建就很重要了，要先生成符合主题的文案 / 剧本 / 脚本（这里是以先有人物和主题生成脚本（含台词+镜头），反之可以先用主题生成脚本再去设计人物形象，但是对于你的人物特征是有一定限制的）

这部分肯定是调用大语言模型了，这个部位看你想用哪个模型，看你脚本侧重推理逻辑还是说希望更“自由”一点，如果侧重推理逻辑，用deepseek吧，如果更“自由”一点，doubao更好用，不一定非要用pro，可以用2.0mini，这样成本会压缩。

这里我要说一个问题，智能体和工作流都是，你执行完单次任务后修改提示词或让给智能体反馈让智能体再次调用功能，这个部位的上下文关联很有可能缺失了，因为可能默认是一个新的任务ID。

生成剧本后就可以分镜了，这部分你得调整，比如分了7个镜头，那就是需要生成8张图片做为首尾帧，这八张图片是融入场景的。

这个图片就涉及到人物一致性，必须保证所有的人物特征与之前创建的白底人物特征一致，可以通过之前人物的提示词加参考图加场景提示词完成图片（图片提示词可以让智能体写，因为完成生成图片是要写词的），也可以先有多人物的白底图再加场景，当然这里你可以同时让智能体替你完成一次性创建多任务生成图片，不过不符合一致性的图片还是需要再次“洗图”（洗图就是用固定/微调提示词或图片生成满足条件图片。注意：配饰一致是比较难的，这里看需求，不要因为过多细节花费大量积分）。

然后是生成视频了，使用的是加工的分镜提示词和对应首尾帧图片，这段就是给智能体并发生成视频，但需要测试一下平台有没有并发数限制（因为软件现在迭代也比较快，至于现在有没有限制还是大家自己来试），我是倾向于建议让智能体把提示词生成出来视频提示词，再一个个手动提交（好整理文件还省积分，中途还可以修改）。

合成视频用视频软件剪一下，剪映就挺好，剪的时候把首尾帧衔接部分修一修，避免画面停留那一段时间过长（一帧画面停两秒没必要）。

实战部分：我以扣子智能体为例，使用提示词：“打开扣子编程选择智能体，给他以下提示词：“你需要具备以下几个功能：1.创造人物形象；2.生成视频文案或剧本或脚本；3.根据提示词和提供图片创造人物场景结合形象；4.能根据提示词创作视频首尾帧图片；5.根据提供的图片或文字合成视频；”

这个时候你可以直接给提示词，哪个部位调用哪个模型，把调用的代码和API给智能体；比如我在扣子智能体用完这段提示词没指定模型，得到的是：“

·技术栈

LLM
·doubao-seed-1-8-251228（多模态 Agent 优化模型）
图像生成
·ImageGenerationClient（支持 2K/4K 分辨率）
视频生成
·VideoGenerationClient（支持 480p/720p/1080p）
框架
·LangGraph 1.0 + LangChain 1.0
记忆
·滑动窗口记忆（最近 20 轮对话）”

这套技术栈实际体验：省积分，但是到一定任务提交数会限流直到第二天

llm的部分，可以是有一个智能体对话用的llm，还有做工具指定工具调用的模型，比如和智能体对话整体使用个doubao2.0，完全可以在创建剧本这个工具指定用deepseek对应模型，这里模型要看内置集成有没有，没有就是得api调用了。像deepseek应该是有个v3.，直接就能拿过来用

一键生成视频使用提示词的范式：“脚本主要主题：XXX；环境为XXX，生成脚本。根据这个脚本进行每个镜头人物形象设计、场景与人物融合创作、视频首尾帧设计、视频生成（人物和场景漫画写实风，不要过度二次元，适当写实，人物比例与真人一致，保持人物一致性）。”

注：模型对此部分理解偏差大，需实测微调。

如果说想在某一步添加人工确认后再生成，可以直接在某个功能后面加上：“要求人工确认后再生成”。这样会在使用某块功能结束后在调用下个工具之前让你进行确认。（像这种需要通过编码执行的功能，要在对话框左框输入内容。）

智能体能自动完成工作，但不一定保质保量。

你是如何搭建智能体的？评论区聊一聊大家搭建智能体的方式。