
乔氪智造站点上有一个叫"工具雷达"的子项目。它干的事情很简单:每周自动扫描全网新发布的 AI 工具,用 5 个维度(实用 / 上手 / 工程 / 生态 / 续航)给每个工具打分。
到这周为止,它累计评了 796 个 AI 工具。
我前两天把这 796 条数据拉出来跑了一遍统计,看到的不是繁荣,是泡沫。
平均分 5.18。411 个工具不到 5 分。9.5 分以上的,全是 Docker、SQLite、Git 这些非 AI 老牌基础设施。

第一层:5.18 这个平均分意味着什么。
5 分在工具雷达的评测体系里是个临界值——意味着"能用,但你没什么理由花两小时上手"。51% 的 AI 工具连这条线都没到。
很多人以为这是评测标准过严。其实不是。这套体系里 5 分对应的是"产品能跑、解决了一个具体问题、有最小可用文档"。这本来就是任何商业软件应该达到的水平。
有一半 AI 工具连商业软件的最低标准都没到,但它们都拿到了融资、上了 Product Hunt 首页、有人写公关稿。
第二层:分类数据告诉你的真相,更扎心。
按品类拆开看,平均分梯度是这样的:
- 应用类(app, 471 个):4.70
- 开发者工具类(devtool, 108 个):5.29
- 库类(library, 63 个):5.86
- 平台类(platform, 76 个):6.04
- 模型类(model, 64 个):6.13
- 基础设施类(infra, 14 个):7.99
发现什么没?越靠近最终用户,分数越低;越靠近底层架构,分数越高。
应用层(C 端 / B 端 app)是 AI 创业最热闹的赛道,也是质量最差的赛道。这不是巧合。
热闹意味着大量"我也搞个 AI 应用"的项目涌进来。绝大多数缺乏对场景的真理解、缺乏数据壁垒、缺乏对用户工作流的洞察。它们做出来的东西像速食面——能吃,但没营养。
而 infra 类(基础设施层)只有 14 个项目,平均 7.99 分。这意味着:愿意做底层的人少,但能做出来的,质量都很硬。
第三层:高分榜单几乎没有 AI 工具。
我把所有评分 9 分以上的工具拉出来看了一遍。前 8 名是这样的:
Docker、SQLite、Git、VS Code、React、PostgreSQL、ChatGPT、Bun。
前 6 个都不是 AI 工具。它们是过去 10-30 年积累下来的"行业基石"。第七位 ChatGPT 9.1 分,是少数能站到这个梯队的 AI 工具,靠的也是"定义了一类产品"——不是因为它最好用。
你可能要问:那 Claude Code、Cursor、Copilot、Devin 这些当红的 agent 工具呢?数据在这——
- Claude Opus 4.7:8.5
- GitHub Copilot:8.2
- Claude Code / Sonnet 4.6:7.7
- OpenAI Codex 3.0:7.6
- LangChain:7.2
- Cursor:7.1
- Replit / Windsurf / Lovable:6.6-7.0
- Bolt.new / v0:6.2-6.3
- Devin:5.8
这些是当下被讨论最多的 AI 工具,确实都高于均分。但你看清楚了吗——没有一个进入 9 分以上的"行业基石级"区间。
最高的 Claude Opus 4.7 也只到 8.5。Copilot 8.2。Cursor 7.1。Devin 5.8——是的,那个被吹到 20 亿美金估值的 Devin,在这套 5 维评测里只值 5.8 分。
这意味着一件事:AI 工具到目前为止,还没有产生它自己的 Docker / Git / VS Code 这种"行业基石级" 产品。
这件事的潜台词比表面意思重要得多。AI 工具赛道的成熟度,远低于它的舆论温度。舆论上 AI 工具已经"颠覆"了一切,数据上 AI 工具还在为"达到老牌工具的可靠度" 苦苦挣扎。

所以这 796 个数据点拼起来,告诉我三个判断。
第一,AI 应用层会大洗牌。当 471 个应用类工具的平均分只有 4.70,意味着这个赛道里 80% 以上的项目活不过 18 个月。今年下半年到明年上半年,会出现明显的"AI 应用尸横遍野"现象。这不是悲观,是数学。
第二,真正的机会在 infra 层。14 个 infra 项目均分 7.99——这数字说明这个赛道供给严重不足。任何能做出"AI 时代的 Git / Docker / VS Code" 的团队,都会拿到不成比例的回报。问题是这种产品需要时间打磨,3-5 年起。但凡是有耐心做底层的团队,现在是入场的最好时机。
第三,老牌工具加 AI 比 AI 工具加老牌方向,胜率高得多。VS Code 加 Copilot 比"全新 AI IDE"成功率高一个数量级。Postgres 加 vector search 比"AI 原生数据库" 成功率更高。原因很简单——信任和工作流的迁移成本,远高于 AI 能力本身的差距。
最后一句不那么好听的话:
数据告诉我,AI 行业过去 18 个月真正发生的事,不是"AI 工具的爆发",是"低质量 AI 工具的爆发"。
舆论会继续欢呼下一个估值新高、下一个明星项目。但那 411 个评分不到 5 分的工具,会用最沉默的方式提醒所有人——热闹不等于价值。
如果你正在做 AI 创业,或者打算做,先把自己的产品放在这条 5.18 的均分线上比一比。能稳定打过 7 分,再谈下一步。

夜雨聆风