这篇文章其实规划了很久,会包含很多内容。
我想随便聊一聊:这几年我使用 AI、折腾 AI、看 AI 生态、体验 AI 工具,以及亲身经历过的一些东西。也会顺便说说我对未来的一些期许。
它不算一篇特别严肃的行业分析,更像是一个程序员视角下的阶段性复盘。很多判断未必完全正确,但基本都是我真实使用、真实折腾之后的感受。
LLM 的发展史

这一节,先从我个人——一个程序员的视角说起。
严格来说,LLM 当然不是 2022 年才突然出现的。如果真要往前追,2017 年 6 月 12 日,Google 那篇《Attention Is All You Need》把 Transformer 架构带出来,这才算是后面这波大模型浪潮的真正起点。
再往后,2018 年的 GPT-1 和 BERT,2019 年的 GPT-2,2020 年的 GPT-3,都在一步步把模型能力往上推。只不过说实话,在 ChatGPT 出来之前,这些东西对大多数普通程序员来说还是有点远。你知道它很强,但它更多还是论文、Demo、API 和技术新闻里的东西,真要说改变每天的工作流,还差点意思。
真正把这东西打到所有人脸上的,是 2022 年 11 月 30 日发布的 ChatGPT。
我第一次接触 LLM,用的就是 ChatGPT。当时真的被震撼到了。它不但能聊天,还能写代码、改代码、解释代码、写邮件、写文案、翻译、总结、做题,甚至还能一本正经地胡说八道。
这玩意第一次让我感觉到:原来“自然语言”真的可以变成一种新的操作系统入口。
作为一个程序员,我的生产方式也从那时开始发生变化。
以前遇到问题,是去 Google、Bing 这类传统搜索引擎里找资料、翻文档、看 Stack Overflow,然后自己拼代码、调代码。后来逐渐变成了:直接问 LLM,让它生成代码,再复制到 IDE 里运行、修改、验证。
最早其实就是复制粘贴流。
问一句,复制一段;报错了,再把报错贴回去;它再改,我再跑。现在看起来很原始,但当时已经足够震撼了。因为它第一次把“查资料 + 理解 + 写代码”这几个步骤压缩到了一起。
2023 年 3 月 14 日,GPT-4 和 Claude 基本前后脚进入大众视野。GPT-4 让大家开始把 LLM 当生产力工具,而不是玩具;Claude 给我的第一印象则是上下文长、文字舒服、代码也强,尤其在编程上非常能打。
国内这边也差不多是 2023 年开始集中爆发。文心一言、通义千问、ChatGLM、Kimi、DeepSeek 都是在这一年陆续进入大家视野。早期国内模型其实挺抽象的,但后面 Kimi 把长文本打出来,DeepSeek 把性价比和代码能力打出来,国内模型才算真正开始有点气候。
2024 年之后,模型竞争就更卷了。GPT-4o、Claude 3.5 Sonnet、Gemini 2.0、DeepSeek-V3 这些模型陆续出来,尤其是 Claude 3.5 Sonnet,对很多程序员来说非常关键,因为它在编码体验上确实强,甚至一度让我感觉:这才是 AI 写代码真正开始好用的阶段。
2025 年到 2026 年,则基本进入了“高速迭代期”。DeepSeek-R1 把推理模型、开源路线、低成本训练重新点燃;OpenAI 一路推到 GPT-5、GPT-5.1、GPT-5.2、GPT-5.5;Anthropic 进入 Claude 4.x;Google 推 Gemini 2.5 和 Gemini 3;国内则是 DeepSeek、Qwen、Kimi、GLM 各自找自己的位置。
简单拉一条主线,大概就是:
- 1. 2017:Transformer,底层架构出现;
- 2. 2018-2020:GPT / BERT / GPT-2 / GPT-3,大模型能力开始堆起来;
- 3. 2022:ChatGPT,LLM 正式破圈;
- 4. 2023:GPT-4、Claude、LLaMA、国产大模型集中爆发,模型开始真正进入生产力场景;
- 5. 2024:GPT-4o、Claude 3.5、Gemini 2.0、DeepSeek-V3,多模态、编码、开源路线全面开卷;
- 6. 2025-2026:GPT-5 系列、Claude 4.x、Gemini 3、DeepSeek-R1、Qwen3.5,LLM 进入高频迭代和 Agent 化阶段。
所以我觉得,LLM 的发展并不是单纯模型越来越大、参数越来越多。
对用户来说,真正重要的是:它从一个“会聊天的网页”,变成了一个“能接工具、能读文件、能改代码、能跑命令、能做任务”的东西。
这才是最关键的变化。
模型能力是一层,产品形态是一层,工作流又是一层。只看模型排行榜,其实看不到完整故事。
比如同一个模型,放在网页里就是聊天机器人;放在 IDE 里就是编程助手;放在 CLI 里就是开发 Agent;接上浏览器和文件系统,它就开始像一个能办事的数字员工。
现在回头看,这几年其实就是程序员生产工具快速换代的几年。
从搜索引擎,到聊天框;从聊天框,到 IDE;从 IDE,到 CLI Agent;从 CLI Agent,再到各种专用 Agent 和工作流。
这条线非常清楚:AI 一开始只是帮你回答问题,后来开始帮你生成内容,再后来开始帮你执行任务。
而我后面要聊的很多东西,包括 AI IDE、CLI、白嫖、Agent、未来发展,本质上都是围绕这条线展开的。
第一话,我的白嫖史

AI IDE
最早的白嫖项目是cursor,其实当时根本不了解这竟然是一条黑/灰产业链。白嫖cursor的过程中学会了、接触了如下知识:
- 1. 自定义域名邮箱,可以通过在cf挂域名转发拥有无数个域名邮箱。
- 2. 2925临时域名邮箱
- 3. cfmail自建域名邮箱
- 4. gmail+随机后缀邮箱
- 5. 利用卡头生成银行卡号的算法:Luhn Algorithm
然后同理又白嫖了Augment,windsurf,kiro等等一系列的ai ide。
AI IDE的使用过程确实是很丝滑的,当下很多人转去用CLI,但是真实体验上,cursor还是要远远优于CLI的,不管是代码审计,还是sub-agent的编排上,亦或者提示词、skill、mcp的管控上都要比cli方便得多。
当然,不要犟,这东西个人所好,尽管我现在也转CLI了。
CLI IDE
很快,claude code问世,身边很多朋友转去了claude code,同时cursor的白嫖只能用auto,不能用高级模型,于是我也转去了claude code。不得不说,sonnet 3.5在当时确实是史诗级领先。claude code的白嫖一直是走的公益站,公益站基本都是反代的antigravity和kiro。后面随着A\收紧了口袋,antigravity和kiro也大批封号之后,用的越来越少了,目前也就anyrouter还能用到。学会的技术就是反代。
不重要,主角是codex,这个是我想说的,claude code我总共也没用多少,加上A\反华,我很讨厌这个蠢逼,相反,openai大善人就不一样了。学会技术如下:
- 1. 搭建cpa免费号号池,team号池
- 2. 搭建sub2api转发,
- 3. 注册机编写
- 4. 支付长链接获取
- 5. codex提示词注入,让codex去给我写注册机
- 6. pro账号的double-pay漏洞利用
- 7. 理解了ip、地区、浏览器指纹对于服务运营的重要性
openai针对免费号引入了add-phone机制,然后又删了team月试用机制,然后又大量拒绝了paypal支付机制,如今可能只有印尼地区的gopay还是公开可用的方案了。
付费账户
付费账户的白嫖主要包括一个是ai服务和服务器云主机。ai服务包括gemini pro的学生认证,gpt k12教师认证和大兵认证super grok的亚马逊支付回调漏洞等。服务器云主机则有aws的试用、甲骨文的服务器等。目前还存货的也就只有财大气粗的谷歌和grok了,openai感觉是真被大家薅麻了。除此之外,用教育邮箱也能薅到其余的一些服务,比如cursor的教育认证,figma的教育认证等,有兴趣的额可以去
https://studentdiscounts-43kxjpre.manus.space/ 这个网站看,是L站一个佬友做的。
白嫖史总结
其实到现在,ai服务想白嫖已经越来越难了,各大厂基本已经拿出了3年的时间给用户使用,也挺好了,你看看国内的各个大哥们,起步还晚,deepseek火了之后才算开始有起色,一开始的什么文心一言,科大讯飞啥的,现在已经不知道去哪了,至于现在火起来的GLM,KIMI,当时根本还不知名。然而越是起步晚,好家伙,还要上价去了,而且是越要越贵,就连豆包也开始准备割草了,我早期开的老用户套餐好家伙人家反手直接就是一个不承认。对,我说的就是Z\。Z\是真要跟A\比比肩了,看看到底是字母表第一更畜生,还是它字母表倒数第一更畜生。
言归正传,其实LLM走到现在,就像当年的滴滴打车,外卖大战,先是让你习惯,让你染上ai的瘾,只不过这个瘾是真的让你爽,让你方便,让你效率更高了。于是,你真的依赖了,到最后也真的就戒不掉了,就只能付费了。你比如,我。
第二话:聊聊当下 AI 的实力

家用 AI
以我个人以及身边朋友的使用情况来说,现在的 AI 除了没有身子,脑子其实已经跟人差不多了。
但这里有个前提:问题不能太绕,最好是通用知识。
LLM 的本质,是根据上下文里的词去预测接下来要输出的词。最终输出的,是概率最高的那个结果。所谓“回答”,本质上只不过是一个概率分布里的高概率路径。
我们考虑两个问题:
- 1. 洗车店离家 100 米,我去洗车,要不要开车去?
- 2. 中国的首都是——
很明显,对 AI 来说,第二个题不可能回答不对。因为这是一个在任何语料里都完全一致的答案:中国的首都就是北京。这个输出词的概率基本可以看作接近 100%。
但是第一个题就不一样了。
模型的训练语料里,可能没有完全一样的句子。也就是说,对于模型而言,“要”和“不要”都有可能成为高概率答案。它需要进一步理解“洗车”这个动作背后的隐含条件:你不是去洗人,而是去洗车,所以当然要把车开过去。
这里再考虑到逻辑推理,其实推理的本质也是概率,只不过是一个展开后的概率路径。它把原本的 A -> B,变成了 A -> C -> B。
但在一个完全未训练、或者语料覆盖不足的情况下,模型回答不准确的概率还是很高。这里就体现出优质模型的重要性了。优质模型插入的 C 路径更合理,也就能让最终输出正确 B 的概率大幅增加。
那么回到我一开始说的:什么是不绕的、通用知识?
其实就是通用语料,或者说干扰很小的语料。也就是说,日常起居、通用讯息、基础常识这类非专业级数据。
对于普通人来说,现在各家的主流模型在生活起居、日常问答、基础解释这些场景里,已经完全够用了。当下最新的任何一家模型,都已经能够替代过去很多工具。最常见的就是搜索引擎。
我身边一些不是 IT 行业的朋友,现在搜东西基本都在用豆包了。
也就是说,在通用领域,AI 给出的答案,我们可以 99% 相信。
当然,这里的“相信”不是说完全不验证,而是说它已经足够成为普通人的第一信息入口。
专用 AI
这里就拿编程举例子吧。
其实目前 AI 行业发展最好的方向,一个是编码,另一个就是短视频。
但是,虽然很多报道都在说:编码现在可以不停歇地跑一个周,可以改各种老 bug、老漏洞,可以开 100000 个 sub-agent 不停歇地 review PR、merge PR,但实际上呢?
纯属扯皮。
还是我上文说的,LLM 的本质是概率输出。现在 LLM 的上下文最大已经到了 1M,但我实际编码过程中,基本不会去用满 1M。
为什么?
因为上下文遗忘的问题根本就没有解决。
实际编码中,我遇到的问题主要有这些:
- 1. 编码过程写着写着就会变成一堆屎山,就连 OpenClaw 都难以避免;
- 2. 遇到复杂逻辑,LLM 明显会绕进去,需要人为把它拉出来;
- 3. 指令遵循也经常跑偏;
- 4. 上下文越长,不代表它越能稳定抓住重点;
- 5. 它经常会自信地给出一个看起来很合理、实际上完全不对的方案。
一时半会也想不到更多了。其实真实编码过程中还有很多问题,但主要能想到的就是上面这些。
根源其实就两个:
一个是上下文问题;另一个是 LLM 本身就不是确定状态机,而是概率化序列推断系统。所谓的“智慧”,也不过是局部算法结构与类推理行为组合出来的表现。
综上,我想说的是:在专用领域,AI 给出的答案,我们只能 80% 相信。
剩下的 20%,必须靠人来审、来测、来兜底。
AI 实力总结
为什么我前面说,除了没身子,AI 的脑子已经跟人差不多了?
因为如果你给现在的 AI 装上身子,并且让这个身子可以一直感受外界输入,它确实是可以像人一样“活着”的。
在通用领域,它可能就是一个会生活的大人。
而在专业领域,它也不过就是一个会犯错的孩子罢了。
你不能说它没用,因为它真的能做很多事;但你也不能完全放手,因为它错起来也非常自然。
最后也说一下,目前在一些专用领域里,AI 的表现情况大概是这样:
- 1. Grok 的搜索能力是大家最认可的;
- 2. 在编码领域,目前 Claude 4.6 or 4.7 Think 和 GPT-5.5 并驾齐驱;
- 3. 图片生成领域,GPT Images 2 一马当先;
- 4. 视频生成领域,Seedance 2 一骑绝尘;
- 5. 具体到编码领域,Claude 在规划上明显更好,GPT 则在执行上更能完成任务,Gemini 的前端效果更好;
- 6. DeepSeek 4 Pro,便宜,性价比高。除了 DS,国内其余的,就呵呵一笑吧。
其实你看,AI 在每个领域、每个领域的子领域里,能力本身各不相同。
这不也是和人一样吗,哈哈。
第三话:AI Agent

第二话提到的 LLM,其实是底层能力。
这一话聊一下 Agent,也就是应用层。
当下,AI Agent 其实是最适合开发者创业的方向之一。我也看到过很多好的项目,这里简单罗列一下自己看到过的东西:
- 1. AI Agent 生成简历;
- 2. AI Agent 生成 PPT;
- 3. AI Agent 生成短剧、短视频;
- 4. AI Agent 生成 AI 音乐;
- 5. AI Agent 写小说;
- 6. 其它定制工作流,比如根据发票生成 Word,根据需求报告摘要 Word 等。
上面说的这些都是专用 Agent,也就是针对某一个固定工作流的 Agent。
还有一类是通用 Agent。这一类的代表,最火爆的是 Manus,除此之外还有 Reddit、Grok 等。通用 Agent 不太适合个人开发者,这种一般是大平台在做,就不多展开了。
还有一种形式,就是开发 Skill 或者 MCP。
目前来看,Skill 的开发者应该更多。Skill 不算是固定工作流,它更像是给 LLM 提供一些能力和能力说明。这样 AI 就可以利用这个 Skill,去完成某个工作流。
一些 Skill 相关的网站:
- 1. https://www.skillhub.club/
- 2. https://skills.sh/
- 3. https://getdesign.md/
说到这里,其实我自己也想找一些志同道合的开发者一起做东西。
就算不做东西,能认识一下、交流一下,也是很好的。
希望有兴趣相识的各位可以私聊我。
第四话:AI 发展预期

瞎胡扯
不知道“第三次工业革命”现在算不算共识,但是在我心中,它已经开始了。
我认为现在只是一个开始。但同时我们也可以看到,这一轮 AI 的发展速度非常快。说它是开始也对,说它可能已经到了中期,其实也不是完全没道理。
这两天看到一句话:
短期缺算力,中期缺能源,长期缺存储。
目前来看,各家大模型的能力差距已经不是非常明显了。真正显著的制约,其实就在算力上。只有出现更强大的算力,才能支撑 AI 有进一步提升。当然,算法优化、减少算力使用,也是一条可能的路。
就我目前看来,国内几家在疯狂蒸馏国外模型;国外模型发展应该也在瓶颈期了,结果又跑来蒸馏国内模型。蒸来蒸去,其实进步空间真的已经不大了。
再加上能被用来训练的语料,也基本已经被用光了。所以我的判断是:LLM 的发展应该会遇到一段时间的瓶颈期。
这个瓶颈期可能是数月,也可能以年计。
不过,这不重要。
重要的是应用层,是我们怎么去用 LLM 开发出好的产品。
底层模型摆在那了,不管怎么变,总是往上走吧。应用只需要换一下模型,东西还是一样跑。
我的理想状态是:当下 IT 行业所有的工作流,全部由 AI 工作流替代。
一开始,可以是固化工作流 + LLM 介入引导;后续再逐渐演变为纯 LLM 工作流,由 LLM 自行推断、自行决定。
上面说的是 IT 实现的工作流,包括软件和硬件两部分。
软件就是办公类的;硬件则包括制造业、机器人控制这些。我认为这些都可以逐步由 AI 替代。
那么发展到最后,人的定位和可以干的活是什么呢?
- 1. 监督者。监督 AI 工作,就像蒸汽机出现之后,人类从亲自烧锅炉,变成一个看着机器烧锅炉的人一样。
- 2. 纯体力劳动。比如搬砖工人、外卖员。不过我想这些在终局也会被硬件替代,也就是被机器人替代。
在当下,我觉得这两个工作是人应该做的。
那么,要成为一个好的监督者,其实就需要你对自己所属行业的业务做到精通,对自己所在领域做到精通。
只有这样,你才能正确地监督 AI 工作。
如果你自己都不懂,也就谈不上监督了。
真方向
- 1. Token 分发。 这个没得说,只要你的渠道够低价,肯定能赚钱。之前 Codex free 号的时候我也想搞,但是一想到渠道塌了之后还要维权就头疼,遂放弃。不过这肯定是个路子,毕竟连特朗普都在做……
- 2. 做开源 Agent 的开发。 大家也能看到,AI 时代之后,GitHub 的 Star 就跟不要钱一样。只要是个差不多的项目,然后帖子一发,基本就有流量。后面 Star 起来了,可以专门做开源维护,再接一下商单。
- 3. 定制 Agent 工作流。 这个就需要你本身有门路了。现在很多传统行业,尤其是小企业,想转型但是又不想投入大成本,你就可以去接这种单子。
- 4. AI 短视频或者 AI 自媒体。 我个人感觉这个方向也可以,这个就不多说了。
大总结

刚开始写的时候,想说的东西真的很多。
但是写着写着,就变成了言简意赅;然后再忘一些;最后就变这么短了。
不过这次是真的手敲的,累了,哈哈。
后续想到什么,我会继续更新这篇文章,就当置顶文吧。
后面我一定要坚持更新!!!
这是最好的时代,这是最坏的时代。
希望大家都能在时代的浪潮下分到一杯羹。
参考链接
- 1. OpenAI:https://openai.com/
- 2. Anthropic:https://www.anthropic.com/
- 3. Google AI:https://blog.google/technology/ai/
- 4. Meta AI:https://ai.meta.com/
- 5. DeepSeek:https://www.deepseek.com/
- 6. Qwen:https://qwenlm.github.io/
- 7. SkillHub:https://www.skillhub.club/
- 8. Claude Skills:https://skills.sh/
- 9. GetDesign:https://getdesign.md/
- 10. 学生优惠信息整理:https://studentdiscounts-43kxjpre.manus.space/
夜雨聆风