我把主流AI工具都试了一遍,聊聊真实体验

从大模型到编程助手，从手机智能体到本地部署，讲透当下最值得关注的AI工具生态。

你有没有发现一个现象：

2024年的时候，大家还在讨论「AI到底能不能用」。到了2025年，话题变成了「哪个AI更好用」。而现在，2026年，问题已经变成了，你还在用哪个AI？

选不选已经不是问题了，问题是用哪个。

这篇文章，我把自己实际用过的、研究过的AI工具做了一次系统梳理。

先搞懂几个高频词

在聊具体工具之前，有几个词你一定见过但可能没完全搞明白。别跳过这段，后面会反复出现。

Token（词元）

AI处理文本的最小单位。你可以理解为AI的「计量单位」，就像加油按升算、用电按度算，AI干活按Token算。你每次跟AI对话，消耗的都是Token。有的按量收费，有的包月包含额度。

Agent（智能体）

不是普通的聊天机器人。Agent能自己规划、自己调工具、分步骤完成复杂任务。比如你说「帮我把这个论文复现了」，它会自己读代码、改代码、装依赖、跑测试。这是2025年以来AI最大的变化，从「你问我答」变成了「你吩咐我干」。

MCP（模型上下文协议）

让AI能连接外部工具和数据的「通用接口」。你可以理解为AI的USB口，有了它，AI就能读你的文件、调你的API、访问你的数据库。

Prompt（提示词）

你给AI下的指令。写得好，AI是神队友；写得不好，AI是人工智障。

Skill（技能）

有一套固定的流程，告诉AI该做什么要怎么做，理念很像SOP。

国内大模型厂商

先说国内。2024年的时候，国产模型的体验可以用四个字形容：惨不忍睹。常识性问题瞎编，牛头不对马嘴。

但自从2025年DeepSeek发布开始，一切都不一样了，国内大模型集体变得可用了。DS功不可没。

阿里，通义千问和Qwen

最新模型是Qwen 3.6-Plus，2026年4月2日发布。

阿里的开源做得非常好。Qwen系列在开源社区的口碑一直很稳，很多企业本地部署用的就是它。百炼平台是阿里的API服务平台，价格也很有竞争力。

Token价格方面，输入0.8元/百万Token，输出4.8元/百万Token（128K上下文以内）。新用户有7000万Token免费额度，各模型各100万，90天有效。

如果你想自己部署一个模型试试水，Qwen大概是最稳的起点。

月之暗面，Kimi

最新模型是Kimi K2.6，2026年4月20日发布。

Kimi的长文本处理能力一直是它的招牌。PPT生成功能也很好用。Kimi Code是它的编程工具，Kimi Claw是它的智能体平台。

49元/月，新人有15元免费额度。

如果你经常需要处理长文档或者做PPT，Kimi值得试试。

字节跳动，豆包

字节的AI产品线比较全。基座模型是Seed 2.0，图像生成是Seedream 4.0，视频生成是Seedance 2.0。

豆包的C端体验确实是国内做得最好的。桌面端划词翻译，Alt+空格快捷唤出豆包。音视频能力也是国内最强的那一档。

怎么说呢，如果你只想装一个AI在手机和电脑上，不想折腾，豆包可能就是最省心的选择。

智谱，GLM

最新模型是GLM-5.1，2026年4月7日发布，75.4B MoE架构，全量开源。

坦率的讲，目前国产编程模型里最强的就是它。能连续干活好几个小时不停歇，代码能力和长推理能力都很突出。GLM Coding Plan是它的编程订阅服务。

44.1元/月，但目前所有产品全部售罄，可见有多火。新人有2000万Token。

MiniMax

最新模型是MiniMax M2.7，2026年3月发布。

MiniMax在语音和视频方面的能力很强。海螺视频、MiniMax语音都是它的产品。适合openclaw。

29元/月，新人有15元免费额度。

DeepSeek

DeepSeek是国产模型里的「技术流」。它不做花哨的产品，专注底层创新。671B参数的V3模型开源，直接推动了企业大模型本地部署的浪潮。R1是国产第一个长思维链推理模型。

现在最新的已经是DeepSeek V4了，部分使用的是华为昇腾GPU，助力国产化。价格方面，缓存未命中输入1元/百万Token，缓存命中0.02元，输出2元/百万Token，没有包月。当前deepseek-v4-pro模型2.5折，优惠期延长到2026年5月31日。

DeepSeek不跟你玩花的，就是把模型做好，把价格打下来。

小米，MiMo

最新模型是MiMo V2.5 Pro。

这匹黑马你可能没太关注。它匿名上线OpenRouter后，连续多日全球调用量排名第一。社区评价非常高，小米在AI领域的布局比很多人想象的要深。

39元/月，目前有送百亿Token活动，通过成功率很高。适合配合Claude Code使用。

腾讯，元宝和混元

腾讯这个公司钱可以说是这里面最多的，投入不小，但说实话，产品体验一直不太行。钱花了不少，效果嘛。。。

国外大模型厂商，格局已经变了

OpenAI，ChatGPT和Codex

最新模型是GPT-5.5，图像生成模型是GPT Image 2。

2022年11月GPT-3.5发布，大模型第一次进入公众视野。到今天，OpenAI依然是最大的玩家。ChatGPT的记忆功能是所有AI里做得最好的。

Codex是OpenAI的编程智能体，属于ChatGPT生态的一部分。它能读代码、写代码、跑测试，是一个很强大的编程助手。后面我还会聊到Claude Code，那是Anthropic的产品，两个完全不一样，别搞混了。

订阅价格方面，Go是8美元/月，Plus是20美元/月，Pro是100美元/月和200美元/月，还有Business、Team、Enterprise等更高额度的企业方案。

新出的文生图模型据说比Gemini还好，可以打开浏览器体验一下。

Anthropic，Claude

最新模型是Claude Opus 4.7和Sonnet 4.6。

Claude是目前最强的AI编程工具之一。虽然容易封号，但大家还是前赴后继地使用。现在还要求实名认证，精准封号。

Claude Code是Anthropic的编程工具，跟OpenAI的Codex是两个完全不同的产品。Claude Code跑在终端里，最大的好处是可以搭配不同的模型使用。比如你可以用cc-switch把它接到GLM 5.1或者小米MiMo V2.5 Pro上，用国内模型还不用折腾网络。

订阅价格方面，Pro约20美元/月（基础订阅），Max 5x约100美元/月（5倍用量），Max 20x约200美元/月（20倍用量）。

Google，Gemini

最新模型是Gemini 3 Pro，本地部署模型是Gemma 4，支持多模态。

Google的图片生成能力非常强。免费用户上传图片的额度也很高。如果你主要用AI处理图片，Gemini是首选。

订阅价格方面，Google AI Pro是19.99美元/月，Google AI Ultra约249.99美元/月。

xAI，Grok

最新模型是Grok 3。

Elon Musk的AI产品，背靠X（原Twitter），时效性非常高。如果你想获取最新的前沿资讯，Grok是不错的选择。不过今天（5月7日）马斯克说要停止xAI的支持了，要把显卡卖给Anthropic，后续会怎样还不好说。

OpenClaw（小龙虾）

这是一个开源免费的智能体框架，你可以接入任何外部模型。它的定位是「秘书」，帮你协调其他工具、管理定时任务、连接手机。

需要注意的是，不要指望小龙虾直接干活，它的强项是协调和管理。Claude Code已经禁止OpenClaw接入。

Hermes Agent

开源免费的智能体框架，内置自学习循环。可以直接「夺舍」OpenClaw，功能更强大。

OpenCode

Claude Code的开源替代品。但目前已经被Claude Code封禁。

我实际用过的几个工具

Codex，复现论文这件事

Codex是OpenAI的编程智能体。我用它复现过一篇叫VGGT-SLAM的论文。

传统方式复现论文，你得自己读论文、读代码、配环境、调参数，折腾好几天是常态。但用Codex，几句话就跑通了。它自己读论文、读代码、装依赖、调参数，我只需要在关键节点确认一下。

这是用官方数据集跑出来的结果，和论文中的一模一样：

这种效率提升，已经到了「原来做不到，现在能做到」的程度。

Claude Code，搭配国产模型

Claude Code是Anthropic的编程工具，跑在终端里。它本身不带模型，你可以接Claude自家的模型，也可以通过cc-switch接到国产模型上。

我现在用的组合是Claude Code搭配GLM 5.1或者小米MiMo V2.5 Pro。

用国内模型的好处是不用折腾网络，而且这两个模型的编程能力都很能打。GLM 5.1连续干活好几个小时不停歇，MiMo V2.5 Pro社区口碑爆棚，各有各的好。说实话我自己也还在摸索最佳搭配，但目前这个组合用下来确实顺手。

豆包，桌面端用了就离不开

豆包的桌面端有个功能，划词就会出现翻译和解释。Alt+空格快捷键唤出豆包。

这个功能一旦用习惯了，就离不开了。

移动端的智能体也很有意思，可以配合音视频功能，做复试模拟。

用AI做自我分析

大语言模型特别适合做文本总结。

我做了一个实验：把我这几年写的笔记和日记喂给AI，让它从这个侧面来分析我是一个什么样的人，有什么行为模式，给出后续的建议。

结果非常惊艳。AI能从大量文本中提炼出行为模式、心理特征、变化趋势，它给出的分析报告，有些洞察比我自己想的还要深。

如果你也有长期记录的习惯，强烈建议试试这个玩法。你会发现，AI看你的方式，可能和你自己看自己的方式完全不同。

中美AI发展对比

时间	美国	中国
2022年末	GPT-3.5把大模型第一次推到大众面前。AI先被理解成一个会聊天、会写作、会答题的玩具。	国内还在快速跟进和观察，更多是在判断这条路线会不会成为下一代通用入口。
2023年	GPT-4把模型能力往前推了一大步，能理解图像了。大家开始意识到AI不是简单陪聊，而是通用能力平台。	文心一言、通义千问等产品集中出现，重点放在中文能力和企业服务上。用户体验：不可用。
2024年	GPT o1发布，第一个长推理链模型，能力远超国产。	从「模型追赶」转向「应用爆发」。铺天盖地的广告。用户体验几乎不可用，常识性问题都在瞎编。
2025年	进入「Agent化」阶段。Claude Code、Codex说明AI开始从聊天框走向执行环境，能读代码、改代码、跑测试。	DeepSeek-R1带动巨大关注，国产模型开始变得可用，一下子发展起来。
2026年	继续往「更强自主执行」推进，重点不只是回答得更好，而是能不能稳定完成整段工作流程。	大模型的代差已经很小了，最多只有一年。中国投入产出比远高于美国。继续往「更便宜、更普及、更贴近场景」推进。

你仔细看这个表，会发现一个挺有意思的事情。

2024年的时候，国产模型和GPT的差距是「能不能用」的问题。2025年变成了「好不好用」的问题。到了2026年，已经是「哪个更划算」的问题了。

差距在缩小，速度比很多人预想的要快。

两年后我们毕业，到那个时候，看着AI越来越好用，不免有些焦虑。

会不会用AI这件事，会越来越简单，简单到不需要学。

更重要的能力是，你知道要用AI去做什么。

工具从来不是壁垒，想法才是。AI可以帮你写代码、做PPT、分析数据、复现论文，但它不能帮你决定「这件事值不值得做」。

所以，与其焦虑AI会不会取代你，不如想清楚一个问题：你有什么事情，是值得让AI帮你做的？

或者说，有什么事情是我能做而AI比较难做到的？

想清楚这个问题，你就不会被时代抛下。

以上信息截至2026年5月初，部分模型版本信息可能已有更新，建议到各厂商官网确认最新状态。文中提到的工具和平台，均为作者实际使用过的产品，无任何商业推广。