跑了 796 个 AI 工具的评分数据后,我看到的不是繁荣,是泡沫

乔氪智造站点上有一个叫"工具雷达"的子项目。它干的事情很简单：每周自动扫描全网新发布的 AI 工具，用 5 个维度（实用 / 上手 / 工程 / 生态 / 续航）给每个工具打分。

到这周为止，它累计评了 796 个 AI 工具。

我前两天把这 796 条数据拉出来跑了一遍统计，看到的不是繁荣，是泡沫。

平均分 5.18。411 个工具不到 5 分。9.5 分以上的，全是 Docker、SQLite、Git 这些非 AI 老牌基础设施。

第一层：5.18 这个平均分意味着什么。

5 分在工具雷达的评测体系里是个临界值——意味着"能用，但你没什么理由花两小时上手"。51% 的 AI 工具连这条线都没到。

很多人以为这是评测标准过严。其实不是。这套体系里 5 分对应的是"产品能跑、解决了一个具体问题、有最小可用文档"。这本来就是任何商业软件应该达到的水平。

有一半 AI 工具连商业软件的最低标准都没到，但它们都拿到了融资、上了 Product Hunt 首页、有人写公关稿。

第二层：分类数据告诉你的真相，更扎心。

按品类拆开看，平均分梯度是这样的：

应用类（app, 471 个）：4.70
开发者工具类（devtool, 108 个）：5.29
库类（library, 63 个）：5.86
平台类（platform, 76 个）：6.04
模型类（model, 64 个）：6.13
基础设施类（infra, 14 个）：7.99

发现什么没？越靠近最终用户，分数越低；越靠近底层架构，分数越高。

应用层（C 端 / B 端 app）是 AI 创业最热闹的赛道，也是质量最差的赛道。这不是巧合。

热闹意味着大量"我也搞个 AI 应用"的项目涌进来。绝大多数缺乏对场景的真理解、缺乏数据壁垒、缺乏对用户工作流的洞察。它们做出来的东西像速食面——能吃，但没营养。

而 infra 类（基础设施层）只有 14 个项目，平均 7.99 分。这意味着：愿意做底层的人少，但能做出来的，质量都很硬。

第三层：高分榜单几乎没有 AI 工具。

我把所有评分 9 分以上的工具拉出来看了一遍。前 8 名是这样的：

Docker、SQLite、Git、VS Code、React、PostgreSQL、ChatGPT、Bun。

前 6 个都不是 AI 工具。它们是过去 10-30 年积累下来的"行业基石"。第七位 ChatGPT 9.1 分，是少数能站到这个梯队的 AI 工具，靠的也是"定义了一类产品"——不是因为它最好用。

你可能要问：那 Claude Code、Cursor、Copilot、Devin 这些当红的 agent 工具呢？数据在这——

Claude Opus 4.7：8.5
GitHub Copilot：8.2
Claude Code / Sonnet 4.6：7.7
OpenAI Codex 3.0：7.6
LangChain：7.2
Cursor：7.1
Replit / Windsurf / Lovable：6.6-7.0
Bolt.new / v0：6.2-6.3
Devin：5.8

这些是当下被讨论最多的 AI 工具，确实都高于均分。但你看清楚了吗——没有一个进入 9 分以上的"行业基石级"区间。

最高的 Claude Opus 4.7 也只到 8.5。Copilot 8.2。Cursor 7.1。Devin 5.8——是的，那个被吹到 20 亿美金估值的 Devin，在这套 5 维评测里只值 5.8 分。

这意味着一件事：AI 工具到目前为止，还没有产生它自己的 Docker / Git / VS Code 这种"行业基石级" 产品。

这件事的潜台词比表面意思重要得多。AI 工具赛道的成熟度，远低于它的舆论温度。舆论上 AI 工具已经"颠覆"了一切，数据上 AI 工具还在为"达到老牌工具的可靠度" 苦苦挣扎。

所以这 796 个数据点拼起来，告诉我三个判断。

第一，AI 应用层会大洗牌。当 471 个应用类工具的平均分只有 4.70，意味着这个赛道里 80% 以上的项目活不过 18 个月。今年下半年到明年上半年，会出现明显的"AI 应用尸横遍野"现象。这不是悲观，是数学。

第二，真正的机会在 infra 层。14 个 infra 项目均分 7.99——这数字说明这个赛道供给严重不足。任何能做出"AI 时代的 Git / Docker / VS Code" 的团队，都会拿到不成比例的回报。问题是这种产品需要时间打磨，3-5 年起。但凡是有耐心做底层的团队，现在是入场的最好时机。

第三，老牌工具加 AI 比 AI 工具加老牌方向，胜率高得多。VS Code 加 Copilot 比"全新 AI IDE"成功率高一个数量级。Postgres 加 vector search 比"AI 原生数据库" 成功率更高。原因很简单——信任和工作流的迁移成本，远高于 AI 能力本身的差距。

最后一句不那么好听的话：

数据告诉我，AI 行业过去 18 个月真正发生的事，不是"AI 工具的爆发"，是"低质量 AI 工具的爆发"。

舆论会继续欢呼下一个估值新高、下一个明星项目。但那 411 个评分不到 5 分的工具，会用最沉默的方式提醒所有人——热闹不等于价值。

如果你正在做 AI 创业，或者打算做，先把自己的产品放在这条 5.18 的均分线上比一比。能稳定打过 7 分，再谈下一步。