普通人的AI实战07:别囤AI工具了,普通人必备的7类AI工具

你有没有这种感觉：

AI 工具越收藏越多，真正每天在用的，却永远只有两三个。

今天有人说这个模型最强，明天又有人推荐另一个神器。结果会员开了一堆，工作流没搭起来，光研究工具就把时间耗完了。

我现在越来越觉得：

普通人根本不用了解所有 AI 工具，只需要在每个常用场景里，选一个顺手的主力工具。

所以这篇不做大而全的排行榜。

我就按 7 个最常见的场景，直接告诉你：

我更推荐哪个
它适合干什么
普通人怎么开始用

先看结论：这张表就够了

如果你只想快速抄作业，可以直接用这一套：

ChatGPT + Obsidian + GPT-image2 图像 + 即梦 + MiniMax Audio + Claude Code / Codex + Skill

编程这一项可以这样选：

海外工具：Claude Code 或者 Codex
国内工具：Zcode + GLM-5.2
普通人和新手入门：Trae

当然，你完全不用一次全部学会。

先从自己使用频率最高的一个场景开始就行。

写东西：ChatGPT 依然是普通人的第一选择

如果只能选一个通用 AI 工具，我还是更推荐 ChatGPT。

不是因为它每一项都是最强，而是因为它什么都能接住：

聊选题
拆提纲
修改文章
搜集资料
生成图片
写代码
整理成文件
把文章改成小红书、短视频和口播稿

对于普通人来说，少切换工具，本身就是效率。

不要一上来就说：

“帮我写一篇公众号文章。”

更好的方法是先把自己的真实想法说出来：

“我想写一篇 AI 工具推荐，但不想写成排行榜。我的真实感受是，普通人买了很多工具，最后没有形成自己的工作流。请先帮我整理观点，不要直接写正文。”

等它帮你梳理完逻辑，再让它分章节写。

备选怎么选：

更重视长文表达和改稿：Claude
中文高频使用、成本敏感：DeepSeek
一次要读大量资料：Gemini 或 Kimi

不知道选什么，先用 ChatGPT；写长文可以再加 Claude。

知识管理：我更推荐 Obsidian

知识管理这件事，我现在更看重的不是"AI 能不能帮我总结"，而是内容最后能不能真正留在自己手里。

所以这一类，我更推荐 Obsidian。

它适合长期保存：

自己写过的文章
内容卡片
选题库
提示词
项目复盘
工具使用方法
可以重复调用的 Skill 和流程

它最大的优势不是某一个 AI 功能，而是：

内容保存在本地，使用 Markdown，结构由自己决定，也不会被某个平台完全锁住。

对于持续做内容的人来说，今天的一篇文章，可能会在以后变成：

一条小红书
一期短视频
一段课程内容
一个 Skill
一套自己的方法论

这些内容如果一直散落在聊天记录、收藏夹和不同平台里，很难真正形成积累。

刚开始不用把 Obsidian 搞得特别复杂。

可以先建 5 个文件夹：

00_内容卡片
01_正在创作
02_已经发布
03_提示词与Skill
04_项目复盘

平时看到有价值的内容，不要整篇搬进去。

只记录四样东西：

它讲了什么
哪个观点对你有用
你自己的判断是什么
以后能用在哪

这样 Obsidian 才是知识库，而不是另一个高级收藏夹。

NotebookLM 仍然很好用，但我更愿意把它当成"临时研究工具"。

需要读一批 PDF、网页或资料时，把它们放进 NotebookLM 里快速消化；真正值得长期保留的结论，再整理回 Obsidian。

也就是说：

NotebookLM 负责读，Obsidian 负责留。

备选怎么选：

临时研究大量资料：NotebookLM
微信公众号资料较多：腾讯 ima
团队协作：飞书或 Notion

想建立自己的长期内容资产，主库用 Obsidian；NotebookLM 只负责阶段性研究。

图片生成：GPT-image2 图像最适合普通人反复修改

普通人做图，真正难的不是生成第一张，而是修改。

比如：

人物不变，换衣服
横版改成竖版
减少页面文字
保留脸部形象
换背景
按文章内容继续生成一组配图

这类任务，ChatGPT 图像的优势很明显：可以直接用自然语言持续改。

不要只说"帮我生成一张爆款封面"。

最好把要求拆清楚：

主题
使用平台
图片比例
人物形象
主色
文字区域
想突出什么
不要出现什么

例如：

“生成一张公众号封面图，21:9 横版。主题是’普通人的AI实战07：别再乱买AI工具’。画面重点是一个普通人被大量 AI 工具图标包围，表情困惑；右侧突出’7类工具就够了’。整体简洁，不要信息过密。”

备选怎么选：

中文短视频封面和平台素材：即梦
参考图延展和角色一致性：Gemini
概念感和氛围视觉：Midjourney

要"边看边改"，用 ChatGPT 图像；要快速做中文平台素材，用即梦。

视频生成：普通人优先用即梦跑通完整流程

视频生成这一类，我更推荐普通人先用即梦。

原因不是它在所有指标上都一定最强，而是它对中文用户更友好，而且图片、视频和内容平台素材可以放在一个相对连贯的流程里完成。

它适合：

文生视频
图生视频
人物动作
产品展示
短视频空镜
封面图延展成动态素材
连续生成同一主题下的多组画面

如果你本来就在用即梦生图，再继续用它做视频，切换成本也更低。

不要直接让 AI 生成一条完整成片。

先把视频拆成多个 3-8 秒镜头。

比如一条"AI 工具太多"的视频，可以拆成：

电脑上同时打开大量 AI 工具
人物看着屏幕一脸困惑
桌面上的工具被逐个删掉
最后只保留常用的几类工具
画面出现"工具不在多，关键是形成流程"

每个镜头分别生成，再放到剪映里组合、配音和加字幕。

这样比一句话生成完整视频更稳定。

备选怎么选：

更重视人物动作和真实感：可灵
追求高质感概念镜头：Veo
动漫或参考图驱动：Vidu

普通人先用即梦把"图片—视频素材—剪辑"跑通，再根据具体镜头补充可灵或 Veo。

音频配音：中文内容优先试 MiniMax Audio

TTS 就是把文字变成语音。

它特别适合：

短视频旁白
文章音频版
课程讲解
产品演示
批量口播
固定个人音色

MiniMax Audio 对中文内容比较友好，也支持音色复刻，适合想建立固定个人声音的创作者。

最简单的流程：

准备一段背景安静的人声录音
创建或选择音色
输入已经处理好断句的文案
先生成一小段试听
调整语速、停顿和情绪
再生成完整版本

注意，公众号文章不能直接拿去配音。

书面句子通常太长，需要先改成口语：

原文：

“现在的 AI 工具越来越多，但真正能够稳定进入个人工作流的工具并不多。”

口播版：

“现在的 AI 工具，真的越来越多。但真正能留下来、每天都用的，其实没几个。”

备选怎么选：

多语言和情绪表达：ElevenLabs
想接 API 和自动化：Fish Audio
只想快速给视频配音：剪映文本朗读

中文个人配音优先试 MiniMax Audio，图省事就直接用剪映。

AI 编程：海外看 Claude Code 和 Codex，国内看 Zcode + GLM-5.2

现在的 AI 编程，已经不只是"在编辑器里补几行代码"。

更值得关注的是，它能不能：

理解整个项目
自己拆任务
修改多个文件
运行命令和测试
发现错误后继续修复
最后交付一个可以验证的结果

海外主推荐：Claude Code + Codex

Claude Code 更适合处理：

阅读完整代码库
修改多个文件
Debug
重构
执行命令
跑测试
根据项目规范持续工作

它更像一个能够直接进入项目干活的编程 Agent，而不只是代码补全工具。Claude Code 官方也把理解完整代码库、构建功能、修复错误和自动化开发任务作为核心能力。

Codex 更适合把不同任务分开交出去。

例如：

修复一个 issue
给一个模块补测试
检查一组代码
实现一个独立功能
同时处理多个任务，再统一审核结果

现在的 Codex 已经提供桌面应用、IDE 和本地 CLI 等形态，也支持并行线程、Git 和自动化工作方式。

我的理解是：

Claude Code 更适合持续深入一个复杂项目，Codex 更适合把任务拆开并行推进。

二者不是非得二选一，反而可以组合使用。

国内主推荐：Zcode + GLM-5.2

国内这一套，我更推荐智谱的 Zcode 配合 GLM-5.2。

GLM-5.2 面向长任务和工程级上下文，官方文档强调了 1M 上下文、复杂工程、多文件任务和长程执行能力。

这套组合更适合：

中文需求描述
从需求到完整项目
长时间连续开发
小程序、网页和应用开发
需要国产模型或国内服务的场景

Zcode 更像承载开发流程的工具，GLM-5.2 则是背后负责理解、规划和执行的模型。

Trae：适合普通人低门槛入门

如果你刚开始接触 AI 编程，Trae 依然可以作为更容易上手的选择。

它适合：

体验 Vibe Coding
做简单网页
修改小项目
通过对话理解代码
不想一开始折腾命令行

无论用哪一个工具，都不要只说：

“帮我做一个工具。”

至少要交代：

它解决什么问题
谁来使用
输入和输出是什么
哪些功能必须有
哪些功能暂时不要
什么结果算完成
完成后要运行什么测试

例如：

“做一个本地运行的图片批量改尺寸工具。用户选择一个文件夹后，自动输出 16:9、4:3 和 3:4 三种比例。原图不能被覆盖，失败时显示具体错误。先完成最小可用版本，不做账号和云端功能。完成后实际运行并验证三种尺寸是否正确。”

复杂项目用海外 Claude Code，任务并行用 Codex；国内优先试 Zcode + GLM-5.2，新手可以从 Trae 开始。

自动化：真正值得沉淀的不是工具，而是 Skill

前面几篇文章里，我已经介绍过 Agent。

所以这一篇不再重复讲"什么是 Agent"，也不再继续堆一批 Agent 产品。

相比再找一个所谓的全能 Agent，我现在更看重的是：

把自己经常重复的任务，沉淀成可以反复调用的 Skill。

Skill 到底是什么：

你可以把 Skill 理解成：

一套已经写清楚输入、步骤、工具和输出标准的固定能力。

例如：

把网页保存为 Markdown
把文章改成小红书
根据文章生成封面和配图要求
把长文改成口播稿
调用 TTS 生成配音
把一组数据整理成周报
检查代码并运行测试

普通 Prompt 通常只解决当前一次对话。

Skill 更强调：

可以重复使用
输入和输出固定
有明确执行步骤
可以调用文件、脚本或其他工具
能不断根据使用结果继续优化

为什么我更推荐先做 Skill：

因为模型会变，平台也会变。

但你总结出来的：

工作步骤
判断标准
文件模板
提示词
脚本
验收规则

这些东西可以一直留下来。

比如"把公众号文章改成短视频"，真正值钱的不是某一句 Prompt，而是整套流程：

提取文章核心观点
选择一个最适合视频表达的冲突
改写成口语
拆成镜头
生成画面提示词
生成 TTS 配音
输出剪辑清单
检查时长和信息密度

这套流程写清楚以后，就能成为一个可以反复使用的 Skill。

可视化流程：可以用扣子 Coze

如果不想写代码，又希望把流程直观地搭出来，可以使用扣子 Coze。

扣子支持通过可视化画布和节点搭建工作流，也可以把模型、知识库、代码和不同步骤连接起来。

例如可以搭一条这样的流程：

输入文章 → 提取重点 → 生成小红书文案 → 生成短视频口播稿 → 输出标题和封面文案

这类流程比"让 Agent 自己决定一切"更可控，也更适合普通人逐步调整。

Agent 不在这一篇重复展开

Agent 我之前已经单独写过一篇文章。

这一篇只保留一个判断：

Agent 负责执行任务，Skill 负责沉淀你的方法。

与其继续比较哪个 Agent 更强，不如先把自己最常做的一件事，整理成一个稳定 Skill。

自动化优先沉淀 Skill；需要可视化搭建，再使用扣子 Coze；Agent 的完整使用逻辑可以回看前面的专题文章。

普通人到底应该怎么配

看完上面这些工具，不要又全部注册一遍。

根据自己的任务选一套就够了。

做公众号、小红书和短视频：

ChatGPT + Obsidian + ChatGPT 图像 + 即梦 + MiniMax Audio + 剪映

基本可以覆盖资料沉淀、写作、图片、视频、配音和剪辑。

想做自己的小工具：

海外复杂项目：Claude Code + Codex
国内开发方案：Zcode + GLM-5.2
普通人和新手入门：Trae

它们不是整篇文章的通用工具组合，而是编程场景下的不同选择。

想把重复工作固定下来：

优先做 Skill。

需要可视化流程时，再用扣子 Coze。

不要一开始追求"全自动运营"。

先把一条重复流程写清楚、跑通，再考虑交给 Agent 执行。

最后说一句

AI 工具不会越买越会用。

真正有价值的，不是你收藏了多少工具，而是你有没有用一个工具，完整解决过一个真实问题。

所以看完这篇，不要马上去注册 7 个平台。

先问自己一个问题：

我现在最想省掉的重复工作，是什么？

找到它。

选一个工具。

跑通一次。

然后把这个流程留下来。

这才是普通人的 AI 实战。

关注公众号「AI淇橦学」，和 AI 一起成长。有问题或建议？后台留言即可。