AI 大航海时代

这篇文章其实规划了很久，会包含很多内容。

我想随便聊一聊：这几年我使用 AI、折腾 AI、看 AI 生态、体验 AI 工具，以及亲身经历过的一些东西。也会顺便说说我对未来的一些期许。

它不算一篇特别严肃的行业分析，更像是一个程序员视角下的阶段性复盘。很多判断未必完全正确，但基本都是我真实使用、真实折腾之后的感受。

LLM 的发展史

这一节，先从我个人——一个程序员的视角说起。

严格来说，LLM 当然不是 2022 年才突然出现的。如果真要往前追，2017 年 6 月 12 日，Google 那篇《Attention Is All You Need》把 Transformer 架构带出来，这才算是后面这波大模型浪潮的真正起点。

再往后，2018 年的 GPT-1 和 BERT，2019 年的 GPT-2，2020 年的 GPT-3，都在一步步把模型能力往上推。只不过说实话，在 ChatGPT 出来之前，这些东西对大多数普通程序员来说还是有点远。你知道它很强，但它更多还是论文、Demo、API 和技术新闻里的东西，真要说改变每天的工作流，还差点意思。

真正把这东西打到所有人脸上的，是 2022 年 11 月 30 日发布的 ChatGPT。

我第一次接触 LLM，用的就是 ChatGPT。当时真的被震撼到了。它不但能聊天，还能写代码、改代码、解释代码、写邮件、写文案、翻译、总结、做题，甚至还能一本正经地胡说八道。

这玩意第一次让我感觉到：原来“自然语言”真的可以变成一种新的操作系统入口。

作为一个程序员，我的生产方式也从那时开始发生变化。

以前遇到问题，是去 Google、Bing 这类传统搜索引擎里找资料、翻文档、看 Stack Overflow，然后自己拼代码、调代码。后来逐渐变成了：直接问 LLM，让它生成代码，再复制到 IDE 里运行、修改、验证。

最早其实就是复制粘贴流。

问一句，复制一段；报错了，再把报错贴回去；它再改，我再跑。现在看起来很原始，但当时已经足够震撼了。因为它第一次把“查资料 + 理解 + 写代码”这几个步骤压缩到了一起。

2023 年 3 月 14 日，GPT-4 和 Claude 基本前后脚进入大众视野。GPT-4 让大家开始把 LLM 当生产力工具，而不是玩具；Claude 给我的第一印象则是上下文长、文字舒服、代码也强，尤其在编程上非常能打。

国内这边也差不多是 2023 年开始集中爆发。文心一言、通义千问、ChatGLM、Kimi、DeepSeek 都是在这一年陆续进入大家视野。早期国内模型其实挺抽象的，但后面 Kimi 把长文本打出来，DeepSeek 把性价比和代码能力打出来，国内模型才算真正开始有点气候。

2024 年之后，模型竞争就更卷了。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0、DeepSeek-V3 这些模型陆续出来，尤其是 Claude 3.5 Sonnet，对很多程序员来说非常关键，因为它在编码体验上确实强，甚至一度让我感觉：这才是 AI 写代码真正开始好用的阶段。

2025 年到 2026 年，则基本进入了“高速迭代期”。DeepSeek-R1 把推理模型、开源路线、低成本训练重新点燃；OpenAI 一路推到 GPT-5、GPT-5.1、GPT-5.2、GPT-5.5；Anthropic 进入 Claude 4.x；Google 推 Gemini 2.5 和 Gemini 3；国内则是 DeepSeek、Qwen、Kimi、GLM 各自找自己的位置。

简单拉一条主线，大概就是：

1. 2017：Transformer，底层架构出现；
2. 2018-2020：GPT / BERT / GPT-2 / GPT-3，大模型能力开始堆起来；
3. 2022：ChatGPT，LLM 正式破圈；
4. 2023：GPT-4、Claude、LLaMA、国产大模型集中爆发，模型开始真正进入生产力场景；
5. 2024：GPT-4o、Claude 3.5、Gemini 2.0、DeepSeek-V3，多模态、编码、开源路线全面开卷；
6. 2025-2026：GPT-5 系列、Claude 4.x、Gemini 3、DeepSeek-R1、Qwen3.5，LLM 进入高频迭代和 Agent 化阶段。

所以我觉得，LLM 的发展并不是单纯模型越来越大、参数越来越多。

对用户来说，真正重要的是：它从一个“会聊天的网页”，变成了一个“能接工具、能读文件、能改代码、能跑命令、能做任务”的东西。

这才是最关键的变化。

模型能力是一层，产品形态是一层，工作流又是一层。只看模型排行榜，其实看不到完整故事。

比如同一个模型，放在网页里就是聊天机器人；放在 IDE 里就是编程助手；放在 CLI 里就是开发 Agent；接上浏览器和文件系统，它就开始像一个能办事的数字员工。

现在回头看，这几年其实就是程序员生产工具快速换代的几年。

从搜索引擎，到聊天框；从聊天框，到 IDE；从 IDE，到 CLI Agent；从 CLI Agent，再到各种专用 Agent 和工作流。

这条线非常清楚：AI 一开始只是帮你回答问题，后来开始帮你生成内容，再后来开始帮你执行任务。

而我后面要聊的很多东西，包括 AI IDE、CLI、白嫖、Agent、未来发展，本质上都是围绕这条线展开的。

第一话，我的白嫖史

AI IDE

最早的白嫖项目是cursor，其实当时根本不了解这竟然是一条黑/灰产业链。白嫖cursor的过程中学会了、接触了如下知识：

1. 自定义域名邮箱，可以通过在cf挂域名转发拥有无数个域名邮箱。
2. 2925临时域名邮箱
3. cfmail自建域名邮箱
4. gmail+随机后缀邮箱
5. 利用卡头生成银行卡号的算法：Luhn Algorithm

然后同理又白嫖了Augment，windsurf，kiro等等一系列的ai ide。

AI IDE的使用过程确实是很丝滑的，当下很多人转去用CLI，但是真实体验上，cursor还是要远远优于CLI的，不管是代码审计，还是sub-agent的编排上，亦或者提示词、skill、mcp的管控上都要比cli方便得多。

当然，不要犟，这东西个人所好，尽管我现在也转CLI了。

CLI IDE

很快，claude code问世，身边很多朋友转去了claude code，同时cursor的白嫖只能用auto，不能用高级模型，于是我也转去了claude code。不得不说，sonnet 3.5在当时确实是史诗级领先。claude code的白嫖一直是走的公益站，公益站基本都是反代的antigravity和kiro。后面随着A\收紧了口袋，antigravity和kiro也大批封号之后，用的越来越少了，目前也就anyrouter还能用到。学会的技术就是反代。

不重要，主角是codex，这个是我想说的，claude code我总共也没用多少，加上A\反华，我很讨厌这个蠢逼，相反，openai大善人就不一样了。学会技术如下：

1. 搭建cpa免费号号池，team号池
2. 搭建sub2api转发，
3. 注册机编写
4. 支付长链接获取
5. codex提示词注入，让codex去给我写注册机
6. pro账号的double-pay漏洞利用
7. 理解了ip、地区、浏览器指纹对于服务运营的重要性

openai针对免费号引入了add-phone机制，然后又删了team月试用机制，然后又大量拒绝了paypal支付机制，如今可能只有印尼地区的gopay还是公开可用的方案了。

付费账户

付费账户的白嫖主要包括一个是ai服务和服务器云主机。ai服务包括gemini pro的学生认证，gpt k12教师认证和大兵认证super grok的亚马逊支付回调漏洞等。服务器云主机则有aws的试用、甲骨文的服务器等。目前还存货的也就只有财大气粗的谷歌和grok了，openai感觉是真被大家薅麻了。除此之外，用教育邮箱也能薅到其余的一些服务，比如cursor的教育认证，figma的教育认证等，有兴趣的额可以去
https://studentdiscounts-43kxjpre.manus.space/ 这个网站看，是L站一个佬友做的。

白嫖史总结

其实到现在，ai服务想白嫖已经越来越难了，各大厂基本已经拿出了3年的时间给用户使用，也挺好了，你看看国内的各个大哥们，起步还晚，deepseek火了之后才算开始有起色，一开始的什么文心一言，科大讯飞啥的，现在已经不知道去哪了，至于现在火起来的GLM,KIMI，当时根本还不知名。然而越是起步晚，好家伙，还要上价去了，而且是越要越贵，就连豆包也开始准备割草了，我早期开的老用户套餐好家伙人家反手直接就是一个不承认。对，我说的就是Z\。Z\是真要跟A\比比肩了，看看到底是字母表第一更畜生，还是它字母表倒数第一更畜生。

言归正传，其实LLM走到现在，就像当年的滴滴打车，外卖大战，先是让你习惯，让你染上ai的瘾，只不过这个瘾是真的让你爽，让你方便，让你效率更高了。于是，你真的依赖了，到最后也真的就戒不掉了，就只能付费了。你比如，我。

第二话：聊聊当下 AI 的实力

家用 AI

以我个人以及身边朋友的使用情况来说，现在的 AI 除了没有身子，脑子其实已经跟人差不多了。

但这里有个前提：问题不能太绕，最好是通用知识。

LLM 的本质，是根据上下文里的词去预测接下来要输出的词。最终输出的，是概率最高的那个结果。所谓“回答”，本质上只不过是一个概率分布里的高概率路径。

我们考虑两个问题：

1. 洗车店离家 100 米，我去洗车，要不要开车去？
2. 中国的首都是——

很明显，对 AI 来说，第二个题不可能回答不对。因为这是一个在任何语料里都完全一致的答案：中国的首都就是北京。这个输出词的概率基本可以看作接近 100%。

但是第一个题就不一样了。

模型的训练语料里，可能没有完全一样的句子。也就是说，对于模型而言，“要”和“不要”都有可能成为高概率答案。它需要进一步理解“洗车”这个动作背后的隐含条件：你不是去洗人，而是去洗车，所以当然要把车开过去。

这里再考虑到逻辑推理，其实推理的本质也是概率，只不过是一个展开后的概率路径。它把原本的 A -> B，变成了 A -> C -> B。

但在一个完全未训练、或者语料覆盖不足的情况下，模型回答不准确的概率还是很高。这里就体现出优质模型的重要性了。优质模型插入的 C 路径更合理，也就能让最终输出正确 B 的概率大幅增加。

那么回到我一开始说的：什么是不绕的、通用知识？

其实就是通用语料，或者说干扰很小的语料。也就是说，日常起居、通用讯息、基础常识这类非专业级数据。

对于普通人来说，现在各家的主流模型在生活起居、日常问答、基础解释这些场景里，已经完全够用了。当下最新的任何一家模型，都已经能够替代过去很多工具。最常见的就是搜索引擎。

我身边一些不是 IT 行业的朋友，现在搜东西基本都在用豆包了。

也就是说，在通用领域，AI 给出的答案，我们可以 99% 相信。

当然，这里的“相信”不是说完全不验证，而是说它已经足够成为普通人的第一信息入口。

专用 AI

这里就拿编程举例子吧。

其实目前 AI 行业发展最好的方向，一个是编码，另一个就是短视频。

但是，虽然很多报道都在说：编码现在可以不停歇地跑一个周，可以改各种老 bug、老漏洞，可以开 100000 个 sub-agent 不停歇地 review PR、merge PR，但实际上呢？

纯属扯皮。

还是我上文说的，LLM 的本质是概率输出。现在 LLM 的上下文最大已经到了 1M，但我实际编码过程中，基本不会去用满 1M。

为什么？

因为上下文遗忘的问题根本就没有解决。

实际编码中，我遇到的问题主要有这些：

1. 编码过程写着写着就会变成一堆屎山，就连 OpenClaw 都难以避免；
2. 遇到复杂逻辑，LLM 明显会绕进去，需要人为把它拉出来；
3. 指令遵循也经常跑偏；
4. 上下文越长，不代表它越能稳定抓住重点；
5. 它经常会自信地给出一个看起来很合理、实际上完全不对的方案。

一时半会也想不到更多了。其实真实编码过程中还有很多问题，但主要能想到的就是上面这些。

根源其实就两个：

一个是上下文问题；另一个是 LLM 本身就不是确定状态机，而是概率化序列推断系统。所谓的“智慧”，也不过是局部算法结构与类推理行为组合出来的表现。

综上，我想说的是：在专用领域，AI 给出的答案，我们只能 80% 相信。

剩下的 20%，必须靠人来审、来测、来兜底。

AI 实力总结

为什么我前面说，除了没身子，AI 的脑子已经跟人差不多了？

因为如果你给现在的 AI 装上身子，并且让这个身子可以一直感受外界输入，它确实是可以像人一样“活着”的。

在通用领域，它可能就是一个会生活的大人。

而在专业领域，它也不过就是一个会犯错的孩子罢了。

你不能说它没用，因为它真的能做很多事；但你也不能完全放手，因为它错起来也非常自然。

最后也说一下，目前在一些专用领域里，AI 的表现情况大概是这样：

1. Grok 的搜索能力是大家最认可的；
2. 在编码领域，目前 Claude 4.6 or 4.7 Think 和 GPT-5.5 并驾齐驱；
3. 图片生成领域，GPT Images 2 一马当先；
4. 视频生成领域，Seedance 2 一骑绝尘；
5. 具体到编码领域，Claude 在规划上明显更好，GPT 则在执行上更能完成任务，Gemini 的前端效果更好；
6. DeepSeek 4 Pro，便宜，性价比高。除了 DS，国内其余的，就呵呵一笑吧。

其实你看，AI 在每个领域、每个领域的子领域里，能力本身各不相同。

这不也是和人一样吗，哈哈。

第三话：AI Agent

第二话提到的 LLM，其实是底层能力。

这一话聊一下 Agent，也就是应用层。

当下，AI Agent 其实是最适合开发者创业的方向之一。我也看到过很多好的项目，这里简单罗列一下自己看到过的东西：

1. AI Agent 生成简历；
2. AI Agent 生成 PPT；
3. AI Agent 生成短剧、短视频；
4. AI Agent 生成 AI 音乐；
5. AI Agent 写小说；
6. 其它定制工作流，比如根据发票生成 Word，根据需求报告摘要 Word 等。

上面说的这些都是专用 Agent，也就是针对某一个固定工作流的 Agent。

还有一类是通用 Agent。这一类的代表，最火爆的是 Manus，除此之外还有 Reddit、Grok 等。通用 Agent 不太适合个人开发者，这种一般是大平台在做，就不多展开了。

还有一种形式，就是开发 Skill 或者 MCP。

目前来看，Skill 的开发者应该更多。Skill 不算是固定工作流，它更像是给 LLM 提供一些能力和能力说明。这样 AI 就可以利用这个 Skill，去完成某个工作流。

一些 Skill 相关的网站：

1. https://www.skillhub.club/
2. https://skills.sh/
3. https://getdesign.md/

说到这里，其实我自己也想找一些志同道合的开发者一起做东西。

就算不做东西，能认识一下、交流一下，也是很好的。

希望有兴趣相识的各位可以私聊我。

第四话：AI 发展预期

瞎胡扯

不知道“第三次工业革命”现在算不算共识，但是在我心中，它已经开始了。

我认为现在只是一个开始。但同时我们也可以看到，这一轮 AI 的发展速度非常快。说它是开始也对，说它可能已经到了中期，其实也不是完全没道理。

这两天看到一句话：

短期缺算力，中期缺能源，长期缺存储。

目前来看，各家大模型的能力差距已经不是非常明显了。真正显著的制约，其实就在算力上。只有出现更强大的算力，才能支撑 AI 有进一步提升。当然，算法优化、减少算力使用，也是一条可能的路。

就我目前看来，国内几家在疯狂蒸馏国外模型；国外模型发展应该也在瓶颈期了，结果又跑来蒸馏国内模型。蒸来蒸去，其实进步空间真的已经不大了。

再加上能被用来训练的语料，也基本已经被用光了。所以我的判断是：LLM 的发展应该会遇到一段时间的瓶颈期。

这个瓶颈期可能是数月，也可能以年计。

不过，这不重要。

重要的是应用层，是我们怎么去用 LLM 开发出好的产品。

底层模型摆在那了，不管怎么变，总是往上走吧。应用只需要换一下模型，东西还是一样跑。

我的理想状态是：当下 IT 行业所有的工作流，全部由 AI 工作流替代。

一开始，可以是固化工作流 + LLM 介入引导；后续再逐渐演变为纯 LLM 工作流，由 LLM 自行推断、自行决定。

上面说的是 IT 实现的工作流，包括软件和硬件两部分。

软件就是办公类的；硬件则包括制造业、机器人控制这些。我认为这些都可以逐步由 AI 替代。

那么发展到最后，人的定位和可以干的活是什么呢？

1. 监督者。监督 AI 工作，就像蒸汽机出现之后，人类从亲自烧锅炉，变成一个看着机器烧锅炉的人一样。
2. 纯体力劳动。比如搬砖工人、外卖员。不过我想这些在终局也会被硬件替代，也就是被机器人替代。

在当下，我觉得这两个工作是人应该做的。

那么，要成为一个好的监督者，其实就需要你对自己所属行业的业务做到精通，对自己所在领域做到精通。

只有这样，你才能正确地监督 AI 工作。

如果你自己都不懂，也就谈不上监督了。

真方向

1. Token 分发。 这个没得说，只要你的渠道够低价，肯定能赚钱。之前 Codex free 号的时候我也想搞，但是一想到渠道塌了之后还要维权就头疼，遂放弃。不过这肯定是个路子，毕竟连特朗普都在做……
2. 做开源 Agent 的开发。 大家也能看到，AI 时代之后，GitHub 的 Star 就跟不要钱一样。只要是个差不多的项目，然后帖子一发，基本就有流量。后面 Star 起来了，可以专门做开源维护，再接一下商单。
3. 定制 Agent 工作流。 这个就需要你本身有门路了。现在很多传统行业，尤其是小企业，想转型但是又不想投入大成本，你就可以去接这种单子。
4. AI 短视频或者 AI 自媒体。 我个人感觉这个方向也可以，这个就不多说了。

大总结

刚开始写的时候，想说的东西真的很多。

但是写着写着，就变成了言简意赅；然后再忘一些；最后就变这么短了。

不过这次是真的手敲的，累了，哈哈。

后续想到什么，我会继续更新这篇文章，就当置顶文吧。

后面我一定要坚持更新！！！

这是最好的时代，这是最坏的时代。

希望大家都能在时代的浪潮下分到一杯羹。

参考链接

1. OpenAI：https://openai.com/
2. Anthropic：https://www.anthropic.com/
3. Google AI：https://blog.google/technology/ai/
4. Meta AI：https://ai.meta.com/
5. DeepSeek：https://www.deepseek.com/
6. Qwen：https://qwenlm.github.io/
7. SkillHub：https://www.skillhub.club/
8. Claude Skills：https://skills.sh/
9. GetDesign：https://getdesign.md/
10. 学生优惠信息整理：https://studentdiscounts-43kxjpre.manus.space/