AI 不是从聊天开始的,而是从“伪造现实”开始的

AI 不是从聊天开始的，而是从“伪造现实”开始的

很多人第一次接触 AI，是从 ChatGPT 开始的。
但对我来说，AI 的起点不是聊天框，而是一次把自己换成钢铁侠的实验。

现在是 2026 年 5 月 11 日。

最近几个月最热闹的，莫过于哪个大模型又升级了，哪个大模型功能更强了。

自 2022 年 ChatGPT 发布以来，AI 从工具逐渐变成助手，已经过去了四年。很多人觉得 AI 是从 ChatGPT 开始突然爆火的，但对我来说，AI 不是突然出现的。

它不是从聊天开始的。

它是从一次“伪造现实”开始的。

一、DeepFaceLab：朴实无华的大模型

最早进入我视野的，不是一个简单的聊天框，也不是现在的 Codex 和 Claude Code，甚至也不是一大篇大模型论文。

而是一次朴素到有点笨拙的换脸实验。

DeepFaceLab 是一款开源的深度伪造（Deepfake）软件，主要用于创建高质量的人脸替换视频，由开发者 Ivan Perov（iperov）主要创建和维护 [10] [12]。该软件基于深度学习与神经网络技术，通过提取人脸数据、训练定制化 AI 模型及合成渲染等步骤，实现逼真的换脸效果。（来源：百度百科）

2020 年 1 月，当时的我还在读大二，经常喜欢折腾一些奇奇怪怪的东西。

那时我注意到了一个叫 DeepFaceLab 的玩意。

它的宣传视频，是把自己的脸换到钢铁侠身上去。

这得研究啊。

我当时就想看看，自己变成钢铁侠是什么样子。

DeepFaceLab 的程序很简单，但也很繁琐。

使用方式并不复杂：把工程文件放到对应文件夹，再按步骤运行不同的 bat 脚本。

原理也可以粗略理解为：

先把录制好的自己的人脸视频抽成大量图片，再把目标视频也抽成图片；随后模型会学习两组人脸在角度、表情、光照上的对应关系。训练得越久，合成效果通常越稳定；最后再把生成好的图片重新合成为视频。

现在回头看，那次折腾其实非常原始。

我当时的显卡是 1050Ti，算力很有限。整个过程也不像今天的 AI 工具那样：

输入一句话，等几秒钟，就给你结果。

它需要准备素材、抽帧、提取人脸、清洗 faceset、训练模型、观察 loss、反复调整，最后再合成视频。

我当时经常让电脑开一晚上，只为了多跑一点训练。

也正是这段经历，让我很早就建立了一个对 AI 的朴素认知：

AI 不是魔法。
它需要数据、训练、算力和时间，而且经常失败。

比如换脸，它并不是真的“认识我”。

它只是从大量脸部图片中学习我的五官、角度、表情和光照变化，再试图把这些特征迁移到另一个视频里。

它看起来像是把“我”放进了另一个世界，但本质上仍然是数据、模型和训练共同作用的结果。

后来我也学过一些人工智能基础，知道这里面涉及数据集、训练、参数、损失函数、推理等概念。

换脸、生图、对话，表面上看是完全不同的产品，但底层逻辑其实有相通之处：

用数据训练模型，再让模型根据输入输出结果。

只是我没想到，几年之后，这种“训练出来的东西”会从换一张脸，发展到生成图片、生成视频、写代码、读项目，甚至开始像一个助手一样参与我的真实工作。

二、Stable Diffusion：AI 从“替换现实”走向“生成现实”

后来，AI 生图开始火起来。

那会儿 Adobe 的 PS 推出了 AI 功能，用起来已经很神奇；除了 PS，我最关注的就是 Stable Diffusion（简称 SD）。

身边做平面设计的朋友还和我吐槽，有些公司招聘设计师都开始要求会用 Stable Diffusion。

当时不只是 SD，还有 DALL·E 和 Midjourney。

但我没怎么用 Midjourney，因为那会儿觉得它太贵了，于是把精力主要放在了 Stable Diffusion 上。

它给我的感觉和 DeepFaceLab 完全不一样：

DeepFaceLab 更像是在已有素材上“改变事实”。
Stable Diffusion 则是根据文字生成一张原本不存在的图片。
它不是替换现实，而是在创造现实。

我研究 SD 的原因很简单：

开源、可控、可以本地部署、可以安装插件。

那会儿我还没用到秋叶大佬的整合包（PS：下载记得去 B 站找对地方，有银狐伪造过）。

安装好后启动 Web 页面，如下图：

实际上 Web 页面一目了然，但真想用好，你还得学一堆新词：

checkpoint
采样器
CFG
seed
VAE
LoRA
ControlNet

学起来确实麻烦，但这也是它的魅力所在：

很多参数都能被你控制，很多效果也能被你反复调出来。

我当时还写过一篇文章，介绍一些基础应用：比如生成一张图片，再修改图片中的局部细节。

简单两句话，其实就涉及文生图、图生图这些概念。

那篇博客后来我注销了，平台还把它改成了 VIP 付费文章；如果大家想看，我后面可以再整理一版发出来。

三、ControlNet、LoRA、ComfyUI：从抽卡到工作流

如果说 Stable Diffusion 让我第一次真正投入 AI 生图，那么 ControlNet、LoRA 和 ComfyUI 的出现，则让我进入了另一个阶段。

早期玩 AI 生图，有时候很像抽卡。

你写一个 prompt，点生成，然后等结果。

好看的留下，不好的删掉。

再改一点词，再抽一轮。

很多时候你不是在创作，而是在碰运气。

是的，我经常抽卡。

但 ControlNet 改变了这种感觉。

它可以用姿势、边缘、深度图、线稿等方式约束生成结果。

你不再只是告诉 AI：

我要什么风格。

而是可以告诉它：

这个人怎么站，构图大概是什么样，线条结构是什么，空间关系是什么。

LoRA 也非常关键。

它让特定角色、特定风格、特定服装、特定概念变得更加稳定。

以前你可能需要很复杂的 prompt 才能接近某种效果，后来一个 LoRA 就能把模型往某个方向拉过去。

我最开始是在 SD WebUI 里使用 ControlNet 和 LoRA。

那时候已经觉得很强了，因为它让 AI 生图从随机变得更可控，效果也会更好。

但后来我直接切换到了 ComfyUI。

在 B 站打开秋叶大佬首页时，我第一次注意到这个工具。刚开始我还以为它只是 SD WebUI 的某种改进版，结果打开之后发现完全不是一回事。

一堆节点。

一堆线。

latent、conditioning、VAE decode、KSampler、CLIP Text Encode……

看起来像电路图，也像某种可视化编程界面。

可以给大家看看：

虽然和原神解密有的一比，但它是真的强。

如果说 SD WebUI 是一个面板，那么 ComfyUI 就是一套管线。

它真正吸引我的地方在于：

你可以把整个生成过程拆解成节点，然后重新组合。
你的操作和 AI 的运行过程都能被看见。

这让我对 AI 创作的理解又进了一步。

以前我以为 AI 生图的核心是 prompt，后来我发现，真正高阶的 AI 使用，是 workflow（工作流）。

这也是我想写给很多人的一点：

不要只迷信某个神奇提示词，也不要只收藏一堆模型和插件。
真正重要的是，你能不能形成自己的工作流。

四、ChatGPT：AI 从工具变成助手

大哥来了。

他来了，他来了。

ChatGPT 带着他的音响走来了。

2022 年 11 月 30 日，OpenAI 发布 ChatGPT；2023 年 3 月 14 日，又推出 GPT-4。

对很多人来说，这是第一次真正感受到：

AI 不只是能生成图片、替换人脸。
它还可以通过语言和人协作。

当时我一直用的是免费版，就趁着每天的免费额度问东问西。

能上传图片就上传，能让它看代码就让它看代码。

那会儿我第一次觉得：

有 AI 真好使。

比如：

帮我生成一个脚本，功能如下……
帮我分析一下这段代码是干什么的……
帮我开发一个原神，呸，说错了，开发一个运营平台。

我们的排错方式，也从几十个标签页、博客园、CSDN、简书，慢慢变成了：

先问 AI。

再到后来，很多人一有什么事就开始问 AI：

豆包豆包，你看一下这个。
鲸鱼鲸鱼，我最近想买衣服，但没钱。
我的八字是 xx，帮我算一下我的姻缘。

这个时候比较火的还有情感机器人。

有人会把语言模型接入 QQ 或者微信，我当时也接入了一段时间，后来被警告了一顿，嘤嘤嘤~~~

当然，接入并不只是为了好玩。

那会儿我也研究过 Dify + RAGFlow 这一套：

工作流 + 知识库 + 向量检索。

你可以自定义 AI 能做什么、遇到什么情况该怎么做。

Dify 还是很好用的，特别是还支持本地部署。

下图是我当时接入微信的娜娜机器人工作流：

五、AI 视频：从图片到镜头

接着，OpenAI 展示了 Sora。

无论后来产品节奏如何变化，它当时展示出来的效果确实很震撼：

根据图片和提示词生成视频，
不再只是“生成一张图”，
而是开始生成一段有运动、有镜头、有时间感的内容。

那段时间我也和很多朋友介绍过 Sora：

后来我又注意到字节相关的 AI 视频生成工具。

分镜、导演视角、镜头语言这些能力，都开始被放进产品里。

说实在的，AI 生成视频这一块我还没有深入研究（SD 体系里其实也能做一些），但经常刷短视频的朋友应该能感受到：

AI 视频正在把很多以前只能靠想象的故事，变成可以被看见的画面。

比如“误入后室”这类第一视角视频，就很适合用 AI 去生成那种诡异、沉浸的氛围。

后续我可能会研究一下这一块，用来实现自己的一些小心思。

就像曾经在大学时期想做动画，但苦于自己只会 Flash，最后没能做出来。

六、桌面级生产力：AI 开始进入真实工作

大的来了。

OpenClaw 这类桌面级 Agent 工具爆火后，一个很有意思的现象出现了：

很多人没有靠使用工具赚到钱，反而是教别人怎么用工具的人先赚到钱了。

大部分人安装之后，一时不知道该让它干什么。

热度过去以后，真正留下来的，还是那些能扛能打、能进入真实工作流的工具。

比如 Codex 和 Claude Code（简称 CC）。

我现在已经深度使用 Codex 和 CC 了，以至于变得很懒，连安装 Java 环境这种事都懒得自己动手：

当然，要用它写一个项目，前提是你得描述清楚。

我还记得有一次让它写一个项目，我自己先写了 1000 字的小论文，把需求、功能、边界和预期效果都讲清楚，最后效果还是蛮好的。

这也是我后来越来越确定的一点：

AI 不是让你完全不用思考。
它更像是把“模糊想法”变成“可执行任务”的放大器。

七、AI 时代要做的事情

目前我在做的事情，是提升自己的 AI 核心竞争力。

但我说的竞争力，并不是：

会用多少个 AI 工具；
用 AI 做过多少项目；
收藏了多少提示词；
装了多少插件和模型。

我更想做的是：

借助 AI，逐渐塑造一个真正属于我自己的秘书，或者说管家。

它能建立我的知识库，成为我的第二大脑。

它能接入我的工作流，帮我处理重复任务。

它也能逐渐嵌入我的生活。

手机端目前还有很多限制，但电脑端已经可以尝试了。

现在的 AI 还分散在不同对话、不同项目、不同 skills、agent 和 MCP 里。

但我觉得最终形态应该更简单：

只有一个输入框，支持文字和语音，背后连接所有能力。
它不只是聊天框，而是我的贾维斯。

写在最后

这篇文章只是我记录 AI 的开篇。

后续我还会围绕不同 AI 工具，整理一些教程、小 tips，以及我自己踩过的坑。

希望这些内容不仅是我的折腾记录，也能帮大家节省一点时间。

也希望几年之后再回头看，我能清楚地看到：

自己是怎么一步一步，从“玩 AI”，走向“用 AI 重塑工作和生活”的。