COMPUTATIONAL MEDICINE #06
AI Agent
当大模型学会"自己动手"
理解循环、工具与记忆
是读懂 AI 时代的底层视角
行止集 ·计算×医学
如果你用过 Claude、GPT-5 或者 DeepSeek,你大概感受过这样的瞬间:它给了你一段分析,但你知道它只是在"说",而不是真的在"做"。然后某一天你发现有个工具可以让它帮你跑代码、改文件、搜文献,自动完成一件接一件的事——那个东西叫 AI Agent。
这一期,我们拆开 Agent 的外壳,看看里面是什么。
本期导航
一、LLM 对话 vs. AI Agent —— 先做一个区分
二、LLM 与 Agent 产品地图 —— 市面上有哪些?(含:另一种可能——世界模型)
三、七层架构 —— Agent 的完整解剖图
四、入门路线 —— 六步从零到会
五、医学 Agent 的未来形态
THE BASICS
一、LLM 对话 vs. AI Agent
先做一个区分,很多人混用这两个词:
| 本质 | ||
| 能力 | ||
| 记忆 |
换成临床的比喻:LLM 是你在门诊问了一位专家教授,他给了你专业意见;Agent 是你把教授请到了手术室,他不只说,还能上手。· · ·
LANDSCAPE
二、LLM 与 Agent 产品地图
前面说了 LLM 和 Agent 的区别。但你可能会问:市面上的 ChatGPT、Claude、DeepSeek——它们和这篇文章讲的"Agent"是什么关系?很多人用过 ChatGPT 聊天,但没意识到它背后是一个大模型,更没听说过 Agent。
先说清两个概念:大语言模型(LLM)是"能说话的大脑"——你给我文字,我返回文字。Agent是给这个大脑装上了"手脚"和"记忆"——让它能执行操作、调用工具、持续工作。Agent 不是一种独立的产品类型,而是一种架构方式。
主流大语言模型
以下是截至 2026 年 6 月最主要的几个大模型——它们的能力差异决定了被谁家用、做成什么样的产品:
GPT-5.5 / 5.6 OpenAI
GPT-5.5(2026.4)自 GPT-4.5 以来首次完全重训,融合 GPT 生成能力与 o 系列推理链,100 万 tokens 上下文;GPT-5.6 预计 2026.6 发布,150 万 tokens 上下文(提升 43%),代号 iris-alpha
价格:Plus $20/月 · Pro $200/月 · API $5/$30
Claude Opus 4.8 Anthropic
2026.5.29 发布,100 万 tokens 上下文;Opus 4.7 曾击败 GPT-5.4 与 Gemini 3.1 Pro;Claude Code 依赖其最精准的函数调用与工具使用能力;同期 Sonnet 4.6 / Haiku 4.5 覆盖各性能层级
价格:Pro $20/月 · Max $100-200/月 · API $5/$25
Gemini 3 Pro Google
100 万 tokens 上下文,原生支持图像/音频/视频/代码理解与生成;Google 生态深度整合(搜索、地图、Workspace),多模态能力业界最强
价格:AI Plus $7.99/月 · Pro $19.99/月 · API $2/$12
DeepSeek-V4 Pro / Flash DeepSeek
2026.4.24 发布并开源,100 万 tokens 上下文标配,Engram 记忆架构;V4-Pro 在 Agent 编程评测中开源第一,训练成本极低;V4-Flash 价格仅 ¥1/¥2
价格:按量付费(无订阅) · API ¥3/¥6(Pro)· ¥1/¥2(Flash)
Qwen3.7-Max 阿里
2026.5.20 发布,面向智能体时代的全能基座;原生 MCP 集成 + 长周期自主执行,编程与办公自动化国内第一;综合能力登顶国产模型
价格:Token Plan 订阅 · API ¥12/¥36(优惠中 ¥6/¥18)
主流 Agent / 编程工具
这些产品是"给 LLM 装上手脚"的实践——它们底层用上面的模型,上层加工具系统、对话循环和安全层:
Claude Code · Claude Opus 4.8 / Sonnet 4.6 · 命令行 Agent
Anthropic 官方出品,可以在终端里直接读文件、改代码、执行命令、管理 Git,支持开发者全流程自动化;本篇文章中讲七层架构时的参考原型就是它
OpenClaw / WorkBuddy · GPT-5.5 / Claude / DeepSeek 等 · 开源多 Agent 框架
支持接入任意 LLM,支持 MCP(模型上下文协议)——标准化工具接口,让 Agent 连接数据库、API、本地文件;拥有完善的 Memory 和自动化调度系统
Hermes Agent · 任意(OpenRouter 200+ / 本地 LLM)· 自托管自进化 Agent
Nous Research 2026.2 开源(MIT),完全本地部署零数据泄露;三层记忆体系(持久记忆+用户建模+自动技能沉淀 SKILL.md)——解决复杂问题后自动沉淀为可复用技能;模型无关,支持 OpenRouter 200+ 或本地 LLM;6 平台接入 + 定时调度 + 并行子智能体
Codex(OpenAI) · GPT-5.5 / 5.6 · IDE 内嵌 Agent
前身是 GitHub Copilot,现在 Codex Agent 模式可在 IDE 中执行多文件编辑、自动化测试、部署;与 VS Code 深度集成,是 IDE 端最主流的 Agent 方案;5.6 预计新增 UltraFast Codex 模式
Cursor · GPT-5.5 / Claude Opus 4.8 · AI 代码编辑器
基于 VS Code 的独立编辑器,Composer 模式可理解整个代码库进行多文件编辑;"先理解再动手"的 Agent 理念在 Cursor 上体现得最直观
ChatGPT / 豆包 / Kimi · GPT-4 / 自研 · 对话产品(轻 Agent)
面向大众的聊天界面,已逐步加入文件上传、代码执行、联网搜索;对于"只用过豆包"的读者,可以理解为 Agent 的简化版——有工具,但不够灵活
一句话理清关系:ChatGPT、豆包、DeepSeek App 是"用了大模型的聊天产品";Claude Code、Cursor、Codex 是"给大模型装了工具的 Agent"——核心是能力闭环(有想法 → 能执行 → 能验证 → 能纠正)。OpenClaw 和 Hermes 则更进一步:它们不仅执行任务,还会从过往交互中学习、自动沉淀为可复用的技能——真正实现"越用越聪明"。
关于底层模型:上文中各 Agent 的"底层模型"只是默认配置。实际上主流 Agent 框架(Claude Code、OpenClaw、Hermes 等)都支持接入任意 LLM API——你可以把 GPT-5.5 塞进 Claude Code,也可以用 DeepSeek 驱动 OpenClaw。Agent 是壳,模型是芯——壳和芯可以自由组合。
另一种可能:世界模型(JEPA)
上面讲的都是 LLM 路线——让模型学语言、学推理、学工具使用。但图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)多年来一直在说:这条路不够。
他的核心批评很直接:一个在文本 token 空间训练出来的模型,永远理解不了杯子掉在地上会碎——因为它学的是语言统计规律,而不是物理世界的因果结构。
预测什么:LLM 下一个 token(文字) JEPA 世界状态的抽象表征
学习什么:LLM 语言分布规律 JEPA 物理因果 + 时空结构
强项:LLM 语言、推理、代码 JEPA 感知、规划、机器人操控
弱项:LLM 物理直觉基本为零 JEPA 语言能力弱,仍在早期
代表:LLM GPT-5.6 / Claude Opus 4.8 / DeepSeek-V4 JEPA LeWorldModel(Meta, 2026.3)
JEPA 的核心思路:放弃逐像素/逐 token 预测,转而在抽象表征空间做预测——让模型学会"这个世界下一步会变成什么样",而不是"下一个词是什么"。2026 年 5 月,杨立昆团队刚拿到了形式化证明(formal proof),验证 JEPA 架构确实能从数据中恢复真实世界结构。第二代 JEPA 已经能让机器人在 62 小时内完成操作训练。
一句话总结这场路线之争:LLM 让 AI 学会了"说",世界模型在试图让它学会"看"和"做"。说和做,缺一不可。今天的 Agent——比如 Claude Code 或 OpenClaw——本质上还是 LLM 在驱动。但如果未来 JEPA 和 LLM 汇合,你得到的将不只是"会聊天的工具",而是一个真正理解世界运行的自主智能体。
ARCHITECTURE
三、七层架构:Agent 的完整解剖图
做一个 AI Agent,本质上是搭七层东西。这不是什么标准规范,是工程实践自然收敛出的结构——理解了这七层,你就理解了这个领域 80% 的内容。
01 对话循环(The Core Loop)
这是整个 Agent 的心脏。流程极其简单:
1 用户输入 一句话或一个任务 | → | 2 拼装 Prompt 指令+工具+历史+环境 | → | 3 调用 LLM 模型接收完整上下文 | → | |
| ⋯ | ||||||
4 LLM 返回 文字 + 工具调用请求 | → | 5 执行工具 读文件、跑代码、搜网络 | → | 6 循环或结束 只返回文字时停止 |
︵ 有工具调用时从步骤 2 重新进入循环 ︵
关键在"拼装 Prompt"这一步。发给 LLM 的不只是你打的字,而是一整个上下文包:
| System Prompt | |
| Tool Definitions | |
| 对话历史 | |
| 注入的上下文 |
几十行 Python 代码就是整个循环的本质——也是 LangChain、AutoGen、CrewAI 等所有知名 Agent 框架的内核。它们做的,是帮你把这几十行代码封装得更好用。
02 工具系统(Tools)
工具是 Agent 的"手脚"。LLM 只能生成文字,但工具让它能操作真实世界。工具大致分四类:
| 感知类 | ||
| 操作类 | ||
| 控制类 | ||
| 交互类 |
新手最常踩的坑:工具的 description 写得好不好,直接决定 LLM 会不会正确调用它。LLM 不看代码,只看描述——写"读取文件"和写"读取指定路径的本地文本文件,返回行号和内容",LLM 的行为会有明显差异。
03 上下文窗口管理(Context Management)
这是 Agent 开发中最容易被忽视、却最容易造成问题的一层。LLM 有固定的"上下文窗口"(比如 200K tokens),对话越长越快填满,必须裁剪——但怎么裁剪?
| 滑动窗口 | ||
| 摘要压缩 | ||
| 结构化 Memory | ||
| 向量检索 |
你在使用 AI Agent 时看到的"Summary of the conversation so far"就是摘要压缩机制的产物——系统在上下文剩余约 20% 时自动触发压缩,不是用户手动控制的。对新手来说:先选大上下文模型,遇到问题再引入压缩。
04 子 Agent 调度(Sub-agent Orchestration)
单个 Agent 能干的事是有限的。子 Agent 模式把一个大任务分解成若干独立子任务,每个子任务交给一个"全新的"小 Agent 去做:
主 Agent — 统筹全局 | ||
| ↓ 分发任务 ↓ | ||
子 Agent A 文献检索 | 子 Agent B 数据分析 | 子 Agent C 报告生成 |
| ↑ 各完成后,结果返回主 Agent ↑ |
| 无状态 | |
| 可并行 | |
| 结果汇总 | |
| Prompt 自包含 |
用研究场景类比:做综述时,主 Agent 相当于你(统筹全局),子 Agent 相当于三个研究助理——一个去 PubMed 检索、一个整理文献、一个起草 Introduction——三人同时工作,完成后汇报给你。
05 持久化记忆(Memory & Persistence)
Agent 每次启动都是"失忆"的。Memory 系统解决这个问题——把重要信息写入外部存储,下次启动时重新注入。
| 上下文记忆 | |||
| 文件记忆 | |||
| 向量记忆 |
最简单的实现就是 Markdown 文件:把用户背景、项目规范写成几个 .md 文件,每次对话开始时注入 System Prompt。Memory 写入要有触发条件:用户明确要求记住 X、用户纠正了错误、了解到新偏好——否则什么都记,反而会干扰 LLM 的注意力。
06 安全与权限(Safety & Permissions)
这一层经常被忽视,直到出了事才想起来。Agent 能跑命令、改文件、调接口——它有能力做很多不可逆的事。
1 用户请求 | → | 2 权限检查 允许吗? | → | 3 参数校验 安全吗? | → | 4 沙箱执行 隔离运行 | → | 5 结果返回 |
| 危险操作必须确认 | |
| 绝对禁区永远不碰 |
07 用户界面(UI / Interaction)
Agent 最终要被人用,所以得有一个交互层。对刚入门的开发者,UI 不是优先级,从最简单的开始:
| 命令行 | input() + print(),够用,先跑通逻辑 |
| 终端 UI | |
| Web 界面 | |
| 生产级 Web |
GETTING STARTED
四、入门路线:六步从零到会
如果你是小白,正确的顺序是:
1 | 实现对话循环 纯聊天,不写工具,先让它会"说" |
2 | 加三个工具 读文件、写文件、跑命令——80% 的 Agent 任务靠这三个 |
3 | 加权限确认 危险操作前问用户"确认吗?y/n" |
4 | 加上下文注入 把项目背景写入一个 |
5 | 加子 Agent 调度 遇到并行任务时再加,遇到这一步你已经不是小白了 |
6 | Memory 持久化、上下文压缩…… 遇到问题再加,不要一次全做 |
MEDICINE × AI AGENT
五、医学 Agent 的未来形态
做生信研究的人大概都有这个经历:用 GEO 数据集跑 WGCNA、做孟德尔随机化、跑单细胞测序、做分子对接——每一步都需要找教程、调参数、改报错、重跑。前前后后可能花几个月。
现在这些事,一个配置好的 Agent 可以接管大部分流程——不是帮你"出主意",而是真的帮你把代码跑起来、把报错修掉、把图出出来。但这只是冰山一角。
如果把 Agent 的七层架构移植到医学场景,会长出什么形态?
🔬 科研辅助 Agent:多组学流水线自动化
这是离我们最近的一种形态。想象一个 Agent,你只需要告诉它:「用 GSE160170 做痛风 vs. 对照的差异基因分析,跑 WGCNA,然后挑 Hub 基因做机器学习验证。」
| 对话循环 | |
| 工具调用 | |
| 子 Agent | |
| Memory |
现在这个 Agent 的雏形已经存在——它就是你在使用的 AI 编程助手。差距在于:还需要你手动驱动每一步,还做不到真正意义上的"告诉它目标,自己去完成"。这个差距,正在以每六个月一次迭代的速度缩小。
🏥 临床辅助 Agent:从 EMR 到诊疗建议
这条路更长,也更令人兴奋。一个能访问电子病历系统(EMR)的 Agent,理论上可以做到:
入院 24 小时:自动整合所有检验结果,与历史数据比对,生成风险评估摘要,标出需要关注的异常值
用药安全核查:开具医嘱前,Agent 实时检索该患者所有在用药物,对照药物相互作用数据库,返回警告
出院随访:根据诊断自动生成随访提醒清单,发送给患者端 App,并在患者回复异常症状时触发预警
注意:这里的 Agent 是辅助,不是替代。它处理的是「信息整合与模式识别」,而不是「做决策」。在可预见的未来,医疗 Agent 的核心价值是把医生从重复性信息处理中解放出来——让他们把精力放在真正需要判断力的地方。
💊 药物研发 Agent:从靶点到候选分子
这是已经在发生的事。Insilico Medicine 用 AI Agent 在 46 天内完成了一个传统需要数年的靶点发现流程,并把候选分子推进到了 II 期临床。
它的核心架构非常符合我们讲的七层:
⚠️ 还没解决的核心问题
医学 Agent 不是没有障碍。有三个问题至今没有好答案:
| 幻觉与可靠性 | |
| 责任归属 | |
| 数据隐私 |
这不是悲观主义,而是现实:医学 AI 发展的速度,将取决于我们解决这三个问题的速度。技术上的限制正在快速收窄,监管与伦理框架的构建,才是真正的慢变量。
而对今天在读这篇文章的人来说,这也恰好是机会所在——懂医学的人来做 Agent、懂 Agent 的人来理解医学,这个交叉口,目前站的人还不多。
🗺️ 未来展望:两条路线的汇合
写到这里,一个自然的问题浮现:LLM 和世界模型,哪条路线会赢?
大概率不是"谁赢"的问题——它们会汇合。
想象一个未来的医学 Agent:它的语言层用 LLM 驱动,理解文献、撰写报告、与医生对话;它的感知层用世界模型驱动,理解 CT/MRI 图像背后的三维解剖结构,预测分子在蛋白口袋里的结合姿态。前者负责"说",后者负责"看"和"想"。
LLM 负责:消化 3000 万篇 PubMed 论文,自动提取证据等级,写一篇 Meta 分析的初稿
世界模型负责:模拟一个药物分子进入人体后 72 小时内的分布、代谢和毒性——不是基于规则,而是基于物理模拟
两者汇合时:Agent 不只是告诉你"这个靶点可能有意义"——它告诉你这个靶点的结构、预测了结合模式、给出候选分子、评估了毒性,还自动生成了完整的研究报告和伦理审批草稿
这当然不是明天就会发生的事。但杨立昆的形式化证明(2026.5)和 GPT-5.6 的即将发布(2026.6),暗示两条路线各自的关键里程碑正在快速到来。而医学,恰恰是最需要两者汇合的领域——它既需要海量文本的消化能力,也需要对三维空间、分子运动和生理过程的深层理解。
站在 2026 年看,做医学 AI 的黄金窗口可能不是"等 AI 成熟了再做",而是现在就站在交叉口,看着两条路线各自逼近,然后做第一个把它们接起来的人。
延伸阅读
Anthropic 官方文档 Building with Claude(docs.anthropic.com)
ReAct 论文(2022) Yao et al., Synergizing Reasoning and Acting in Language Models — Agent 对话循环的理论基础
LangGraph 多 Agent 编排框架(langchain-ai.github.io/langgraph)
Insilico Medicine(2023) Generative AI-enabled drug discovery using autonomous AI research — AI Agent 在药物研发中的第一个里程碑
Streamlit 快速搭建 Agent Web 界面(streamlit.io)
COMPUTATIONAL MEDICINE
行止集 · 计算医学系列 第 6 期
下一期预告:多模态 AI 与医学影像
当大模型学会"看"
夜雨聆风