Claude Code 使用体验
这期不做文献,做一些工具性的使用体验分享。
写在前面
作为一个较晚才上车使用 AI 相关工具的人,我对 Claude Code 最开始没有太多的预期。但实际使用下来之后,发现它确实能在一定程度上加快科研工作的速度。
但随着使用的进行,会发现其实它也没想象中那么智能和聪明,至少离完全替代人类,或者说自动化工作还是有些距离。但它确实在 coding 方面能够很好地实现「按需求编码」,节约很多的写代码时间。
这一点上,其实和以前人们把自己的科研代码封装、之后批量运行是类似的,只不过现在我们可以用 Claude 进行这样的工作。
如果对编程环境没有特殊要求,这一步非常简单,只需要按部就班地按官网上的流程走就可以了。
我在构建自己的 AI agent 的时候因为想把 Claude 和 RStudio 联系起来,所以额外有了一个搭建 MCP(Model Context Protocol)的过程。对于没有搭建过的朋友来说,这一步会略微折腾一下,但遇见问题直接问 Claude,一步步解决,最终也能搭建起来。
其实我不是很清楚 Claude 各模型的实质性区别,所以我这里直接让它写了一段。
简单对比下 Anthropic 目前的两条主力模型线(Claude 4.6 系列)
◆ 核心定位
Opus 是「最强大脑」型号,主打深度推理、复杂科研问题、长链路 agent 任务;Sonnet 是「全能选手」,定位「约 98% 的 Opus 能力 + 五分之一的成本 + 两倍的速度」,绝大多数日常任务的默认选择。
◆ 能力对比(4.6 代)
编程能力:差距很小。SWE-bench Verified 上 Opus 80.8%,Sonnet 79.6%,仅差 1.2 分。
科学推理:差距明显。GPQA Diamond(博士级科学题)上 Opus 91.3%,Sonnet 74.1%,差 17 分。这是两者最大的能力鸿沟,对硬核科研推理影响最大。
GUI / Agent 操作:几乎打平。
多 Agent 协作:「Agent Teams」(多实例并行处理项目不同部分)目前是 Opus 独占。
◆ 速度与上下文
▸ 上下文窗口都是 1M tokens。
▸ 输出上限:Opus 128K,Sonnet 64K。
▸ 速度:Sonnet 约 40–60 tokens/s,Opus 约 20–30 tokens/s。
◆ 价格(每百万 tokens 输入 / 输出)
Opus 4.6$5 / $25
(注:不同来源报价口径不一,也有按旧定价 $15/$75 算的)
Sonnet 4.6$3 / $15
Haiku 4.5$1 / $5
在实际使用体验中,个人觉得 Opus 模型比 Sonnet 模型表现要好,对需求的理解和对代码的输出都比较稳定,Sonnet 有时候会笨笨的。但就像上面说的,Opus 更烧 tokens。
因为我每次输出都要求 Claude 记录自己的工作内容,并把工作中用到的代码写出来,所以在使用 Opus 的情况下,可能完成我一两个需求,这段时间的限额就用完了(我订阅的是 Claude Pro)。
因为并不信任 AI 自主分析数据和一些数据保密要求,我并没有直接用 Claude Code 进行数据分析。而是在自己分析完结果后,让 Claude 帮我把已经输出好的数据和图片进行拼接。因为不涉及数据的变动,这部分还是百分百没有错误的。
在把我的初始文件放入文件夹内后,Claude 读取后能精确识别出这些结果来源于什么方法(图 1)。我在结果命名方面并没有提及分析方法,可见 Claude 这方面还是比较智能的。

图 1 | Claude 自动识别分析方法
而后,我直接告诉 Claude 需求(图 2),在下述指令发出后,它能够汇总我的表格,并且输出一个汇总后的 csv 文件,稍微修改一下就可以用于科研投稿。

图 2 | 表格汇总指令与输出
类似地,我让 Claude 对图片进行合并(图 3)。但在图片合并过程中,尽管给予了参考图片,但 Claude 并没有我想象中智能。它似乎会用自己的理解和逻辑去处理图片(就算提前给了示例图),但在经过 2-3 轮的调整之后,它输出的图片变得可以使用了。
可以说还是很快的。这一个过程如果让我自己拼接的话,我可能要花上十几分钟。虽然交给 Claude 也要花上几分钟的时间,但一旦 Claude 记住了这样的合并方式,就可以很好地处理类似的图片,下次工作时你只需要把文件给它即可。

图 3 | 图片合并过程
因为我有让 Claude 将我给它的指令写成 skills 保存,因此在处理其他类似数据时,我可以安排其他的 agent 直接读取它的记录,然后进行工作(图 4)。

图 4 | skills 复用
这样的 skills 迁移,Claude 完成得非常出色。在类似文件夹里面的输出不需要进行调整,直接就是可用的程度。我还给不同的 agent 使用了不同的会话,并命名它们 —— 就像自己培养了几个 RA(图 5)。

图 5 | 多 agent 会话管理
然而,当我在另一台电脑上登陆 Claude Code,并把之前存储在另一台电脑上的 skills 和 log 给它学习,并再去合并文件时,它的表现就不尽如人意了。虽然已经经历过图 3 的修改,照理说 skills 和需求都更新在了 Claude 的 log 和 skills 里面,但在新电脑上的新会话上,Claude 依旧需要数次调整才能取得可用等级的效果。理论上说,完全迁移了数据和 skills 后,它不该这么麻烦的,暂时不知道是哪里出现了问题。
目前来说,Claude 能够很好地起到科研辅助作用,但确实还不能替代科研工作者。但养自己的 AI RA 还是很好玩且回报很高的事情,它可以帮你做很多重复性的无聊工作,能节约不少时间(比如这次的排版)。
考虑到 AI 发展的迅速,科研工作者以后不可避免要和 AI 打交道。最后就还是 ——打铁还需自身硬,还是要提高自己的科研品位和脱机科研的能力。
— END —
感谢阅读 · 欢迎在留言区分享你的使用体验
夜雨聆风