AI Agent够智能吗?——Claude Code使用体验

Claude Code 使用体验

这期不做文献，做一些工具性的使用体验分享。

写在前面

作为一个较晚才上车使用 AI 相关工具的人，我对 Claude Code 最开始没有太多的预期。但实际使用下来之后，发现它确实能在一定程度上加快科研工作的速度。

但随着使用的进行，会发现其实它也没想象中那么智能和聪明，至少离完全替代人类，或者说自动化工作还是有些距离。但它确实在 coding 方面能够很好地实现「按需求编码」，节约很多的写代码时间。

这一点上，其实和以前人们把自己的科研代码封装、之后批量运行是类似的，只不过现在我们可以用 Claude 进行这样的工作。

架设 Claude Code

如果对编程环境没有特殊要求，这一步非常简单，只需要按部就班地按官网上的流程走就可以了。

我在构建自己的 AI agent 的时候因为想把 Claude 和 RStudio 联系起来，所以额外有了一个搭建 MCP（Model Context Protocol）的过程。对于没有搭建过的朋友来说，这一步会略微折腾一下，但遇见问题直接问 Claude，一步步解决，最终也能搭建起来。

说说模型区别

其实我不是很清楚 Claude 各模型的实质性区别，所以我这里直接让它写了一段。

简单对比下 Anthropic 目前的两条主力模型线（Claude 4.6 系列）

◆ 核心定位

Opus 是「最强大脑」型号，主打深度推理、复杂科研问题、长链路 agent 任务；Sonnet 是「全能选手」，定位「约 98% 的 Opus 能力 + 五分之一的成本 + 两倍的速度」，绝大多数日常任务的默认选择。

◆ 能力对比（4.6 代）

编程能力：差距很小。SWE-bench Verified 上 Opus 80.8%，Sonnet 79.6%，仅差 1.2 分。

科学推理：差距明显。GPQA Diamond（博士级科学题）上 Opus 91.3%，Sonnet 74.1%，差 17 分。这是两者最大的能力鸿沟，对硬核科研推理影响最大。

GUI / Agent 操作：几乎打平。

多 Agent 协作：「Agent Teams」（多实例并行处理项目不同部分）目前是 Opus 独占。

◆ 速度与上下文

▸ 上下文窗口都是 1M tokens。

▸ 输出上限：Opus 128K，Sonnet 64K。

▸ 速度：Sonnet 约 40–60 tokens/s，Opus 约 20–30 tokens/s。

◆ 价格（每百万 tokens 输入 / 输出）

Opus 4.6$5 / $25

（注：不同来源报价口径不一，也有按旧定价 $15/$75 算的）

Sonnet 4.6$3 / $15

Haiku 4.5$1 / $5

在实际使用体验中，个人觉得 Opus 模型比 Sonnet 模型表现要好，对需求的理解和对代码的输出都比较稳定，Sonnet 有时候会笨笨的。但就像上面说的，Opus 更烧 tokens。

因为我每次输出都要求 Claude 记录自己的工作内容，并把工作中用到的代码写出来，所以在使用 Opus 的情况下，可能完成我一两个需求，这段时间的限额就用完了（我订阅的是 Claude Pro）。

我用 Claude Code 干什么

因为并不信任 AI 自主分析数据和一些数据保密要求，我并没有直接用 Claude Code 进行数据分析。而是在自己分析完结果后，让 Claude 帮我把已经输出好的数据和图片进行拼接。因为不涉及数据的变动，这部分还是百分百没有错误的。

在把我的初始文件放入文件夹内后，Claude 读取后能精确识别出这些结果来源于什么方法（图 1）。我在结果命名方面并没有提及分析方法，可见 Claude 这方面还是比较智能的。

图 1 ｜ Claude 自动识别分析方法

而后，我直接告诉 Claude 需求（图 2），在下述指令发出后，它能够汇总我的表格，并且输出一个汇总后的 csv 文件，稍微修改一下就可以用于科研投稿。

图 2 ｜表格汇总指令与输出

类似地，我让 Claude 对图片进行合并（图 3）。但在图片合并过程中，尽管给予了参考图片，但 Claude 并没有我想象中智能。它似乎会用自己的理解和逻辑去处理图片（就算提前给了示例图），但在经过 2-3 轮的调整之后，它输出的图片变得可以使用了。

可以说还是很快的。这一个过程如果让我自己拼接的话，我可能要花上十几分钟。虽然交给 Claude 也要花上几分钟的时间，但一旦 Claude 记住了这样的合并方式，就可以很好地处理类似的图片，下次工作时你只需要把文件给它即可。

图 3 ｜图片合并过程

因为我有让 Claude 将我给它的指令写成 skills 保存，因此在处理其他类似数据时，我可以安排其他的 agent 直接读取它的记录，然后进行工作（图 4）。

图 4 ｜ skills 复用

这样的 skills 迁移，Claude 完成得非常出色。在类似文件夹里面的输出不需要进行调整，直接就是可用的程度。我还给不同的 agent 使用了不同的会话，并命名它们 —— 就像自己培养了几个 RA（图 5）。

图 5 ｜多 agent 会话管理

然而，当我在另一台电脑上登陆 Claude Code，并把之前存储在另一台电脑上的 skills 和 log 给它学习，并再去合并文件时，它的表现就不尽如人意了。虽然已经经历过图 3 的修改，照理说 skills 和需求都更新在了 Claude 的 log 和 skills 里面，但在新电脑上的新会话上，Claude 依旧需要数次调整才能取得可用等级的效果。理论上说，完全迁移了数据和 skills 后，它不该这么麻烦的，暂时不知道是哪里出现了问题。

总结

目前来说，Claude 能够很好地起到科研辅助作用，但确实还不能替代科研工作者。但养自己的 AI RA 还是很好玩且回报很高的事情，它可以帮你做很多重复性的无聊工作，能节约不少时间（比如这次的排版）。

考虑到 AI 发展的迅速，科研工作者以后不可避免要和 AI 打交道。最后就还是 ——打铁还需自身硬，还是要提高自己的科研品位和脱机科研的能力。

— END —

感谢阅读 · 欢迎在留言区分享你的使用体验