AI Agent—当大模型学会＂自己动手＂

COMPUTATIONAL MEDICINE #06

AI Agent
当大模型学会"自己动手"

理解循环、工具与记忆

是读懂 AI 时代的底层视角

行止集 ·计算×医学

如果你用过 Claude、GPT-5 或者 DeepSeek，你大概感受过这样的瞬间：它给了你一段分析，但你知道它只是在"说"，而不是真的在"做"。然后某一天你发现有个工具可以让它帮你跑代码、改文件、搜文献，自动完成一件接一件的事——那个东西叫 AI Agent。

这一期，我们拆开 Agent 的外壳，看看里面是什么。

本期导航

一、LLM 对话 vs. AI Agent —— 先做一个区分

二、LLM 与 Agent 产品地图 —— 市面上有哪些？（含：另一种可能——世界模型）

三、七层架构 —— Agent 的完整解剖图

四、入门路线 —— 六步从零到会

五、医学 Agent 的未来形态

THE BASICS

一、LLM 对话 vs. AI Agent

先做一个区分，很多人混用这两个词：

	普通 LLM 对话	AI Agent
本质	问一次，答一次	循环执行，直到完成任务
能力	只输出文字	能执行工具（读文件、跑代码、搜网络）
记忆	对话结束即清空	可写入外部存储，跨会话持久

换成临床的比喻：LLM 是你在门诊问了一位专家教授，他给了你专业意见；Agent 是你把教授请到了手术室，他不只说，还能上手。· · ·

LANDSCAPE

二、LLM 与 Agent 产品地图

前面说了 LLM 和 Agent 的区别。但你可能会问：市面上的 ChatGPT、Claude、DeepSeek——它们和这篇文章讲的"Agent"是什么关系？很多人用过 ChatGPT 聊天，但没意识到它背后是一个大模型，更没听说过 Agent。

先说清两个概念：大语言模型（LLM）是"能说话的大脑"——你给我文字，我返回文字。Agent是给这个大脑装上了"手脚"和"记忆"——让它能执行操作、调用工具、持续工作。Agent 不是一种独立的产品类型，而是一种架构方式。

主流大语言模型

以下是截至 2026 年 6 月最主要的几个大模型——它们的能力差异决定了被谁家用、做成什么样的产品：

GPT-5.5 / 5.6 OpenAI

GPT-5.5（2026.4）自 GPT-4.5 以来首次完全重训，融合 GPT 生成能力与 o 系列推理链，100 万 tokens 上下文；GPT-5.6 预计 2026.6 发布，150 万 tokens 上下文（提升 43%），代号 iris-alpha

价格：Plus $20/月 · Pro $200/月 · API $5/$30

Claude Opus 4.8 Anthropic

2026.5.29 发布，100 万 tokens 上下文；Opus 4.7 曾击败 GPT-5.4 与 Gemini 3.1 Pro；Claude Code 依赖其最精准的函数调用与工具使用能力；同期 Sonnet 4.6 / Haiku 4.5 覆盖各性能层级

价格：Pro $20/月 · Max $100-200/月 · API $5/$25

Gemini 3 Pro Google

100 万 tokens 上下文，原生支持图像/音频/视频/代码理解与生成；Google 生态深度整合（搜索、地图、Workspace），多模态能力业界最强

价格：AI Plus $7.99/月 · Pro $19.99/月 · API $2/$12

DeepSeek-V4 Pro / Flash DeepSeek

2026.4.24 发布并开源，100 万 tokens 上下文标配，Engram 记忆架构；V4-Pro 在 Agent 编程评测中开源第一，训练成本极低；V4-Flash 价格仅 ¥1/¥2

价格：按量付费（无订阅） · API ¥3/¥6（Pro）· ¥1/¥2（Flash）

Qwen3.7-Max 阿里

2026.5.20 发布，面向智能体时代的全能基座；原生 MCP 集成 + 长周期自主执行，编程与办公自动化国内第一；综合能力登顶国产模型

价格：Token Plan 订阅 · API ¥12/¥36（优惠中 ¥6/¥18）

主流 Agent / 编程工具

这些产品是"给 LLM 装上手脚"的实践——它们底层用上面的模型，上层加工具系统、对话循环和安全层：

Claude Code · Claude Opus 4.8 / Sonnet 4.6 · 命令行 Agent

Anthropic 官方出品，可以在终端里直接读文件、改代码、执行命令、管理 Git，支持开发者全流程自动化；本篇文章中讲七层架构时的参考原型就是它

OpenClaw / WorkBuddy · GPT-5.5 / Claude / DeepSeek 等 · 开源多 Agent 框架

支持接入任意 LLM，支持 MCP（模型上下文协议）——标准化工具接口，让 Agent 连接数据库、API、本地文件；拥有完善的 Memory 和自动化调度系统

Hermes Agent · 任意（OpenRouter 200+ / 本地 LLM）· 自托管自进化 Agent

Nous Research 2026.2 开源（MIT），完全本地部署零数据泄露；三层记忆体系（持久记忆+用户建模+自动技能沉淀 SKILL.md）——解决复杂问题后自动沉淀为可复用技能；模型无关，支持 OpenRouter 200+ 或本地 LLM；6 平台接入 + 定时调度 + 并行子智能体

Codex（OpenAI） · GPT-5.5 / 5.6 · IDE 内嵌 Agent

前身是 GitHub Copilot，现在 Codex Agent 模式可在 IDE 中执行多文件编辑、自动化测试、部署；与 VS Code 深度集成，是 IDE 端最主流的 Agent 方案；5.6 预计新增 UltraFast Codex 模式

Cursor · GPT-5.5 / Claude Opus 4.8 · AI 代码编辑器

基于 VS Code 的独立编辑器，Composer 模式可理解整个代码库进行多文件编辑；"先理解再动手"的 Agent 理念在 Cursor 上体现得最直观

ChatGPT / 豆包 / Kimi · GPT-4 / 自研 · 对话产品（轻 Agent）

面向大众的聊天界面，已逐步加入文件上传、代码执行、联网搜索；对于"只用过豆包"的读者，可以理解为 Agent 的简化版——有工具，但不够灵活

一句话理清关系：ChatGPT、豆包、DeepSeek App 是"用了大模型的聊天产品"；Claude Code、Cursor、Codex 是"给大模型装了工具的 Agent"——核心是能力闭环（有想法 → 能执行 → 能验证 → 能纠正）。OpenClaw 和 Hermes 则更进一步：它们不仅执行任务，还会从过往交互中学习、自动沉淀为可复用的技能——真正实现"越用越聪明"。

关于底层模型：上文中各 Agent 的"底层模型"只是默认配置。实际上主流 Agent 框架（Claude Code、OpenClaw、Hermes 等）都支持接入任意 LLM API——你可以把 GPT-5.5 塞进 Claude Code，也可以用 DeepSeek 驱动 OpenClaw。Agent 是壳，模型是芯——壳和芯可以自由组合。

另一种可能：世界模型（JEPA）

上面讲的都是 LLM 路线——让模型学语言、学推理、学工具使用。但图灵奖得主、Meta 首席 AI 科学家杨立昆（Yann LeCun）多年来一直在说：这条路不够。

他的核心批评很直接：一个在文本 token 空间训练出来的模型，永远理解不了杯子掉在地上会碎——因为它学的是语言统计规律，而不是物理世界的因果结构。

预测什么：LLM 下一个 token（文字） JEPA 世界状态的抽象表征

学习什么：LLM 语言分布规律 JEPA 物理因果 + 时空结构

强项：LLM 语言、推理、代码 JEPA 感知、规划、机器人操控

弱项：LLM 物理直觉基本为零 JEPA 语言能力弱，仍在早期

代表：LLM GPT-5.6 / Claude Opus 4.8 / DeepSeek-V4 JEPA LeWorldModel（Meta, 2026.3）

JEPA 的核心思路：放弃逐像素/逐 token 预测，转而在抽象表征空间做预测——让模型学会"这个世界下一步会变成什么样"，而不是"下一个词是什么"。2026 年 5 月，杨立昆团队刚拿到了形式化证明（formal proof），验证 JEPA 架构确实能从数据中恢复真实世界结构。第二代 JEPA 已经能让机器人在 62 小时内完成操作训练。

一句话总结这场路线之争：LLM 让 AI 学会了"说"，世界模型在试图让它学会"看"和"做"。说和做，缺一不可。今天的 Agent——比如 Claude Code 或 OpenClaw——本质上还是 LLM 在驱动。但如果未来 JEPA 和 LLM 汇合，你得到的将不只是"会聊天的工具"，而是一个真正理解世界运行的自主智能体。

· · ·

ARCHITECTURE

三、七层架构：Agent 的完整解剖图

做一个 AI Agent，本质上是搭七层东西。这不是什么标准规范，是工程实践自然收敛出的结构——理解了这七层，你就理解了这个领域 80% 的内容。

01 对话循环（The Core Loop）

这是整个 Agent 的心脏。流程极其简单：

	1 用户输入一句话或一个任务	→	2 拼装 Prompt 指令+工具+历史+环境	→	3 调用 LLM 模型接收完整上下文	→
⋯
4 LLM 返回文字 + 工具调用请求	→	5 执行工具读文件、跑代码、搜网络	→	6 循环或结束只返回文字时停止

︵有工具调用时从步骤 2 重新进入循环︵

关键在"拼装 Prompt"这一步。发给 LLM 的不只是你打的字，而是一整个上下文包：

组成部分	作用
System Prompt	告诉 LLM 它是谁、有哪些工具、要遵守什么规则
Tool Definitions	JSON Schema 格式，描述每个工具的名称、参数、用途
对话历史	之前所有轮次，包括工具调用和工具返回结果
注入的上下文	Memory 文件、当前环境信息、项目背景

几十行 Python 代码就是整个循环的本质——也是 LangChain、AutoGen、CrewAI 等所有知名 Agent 框架的内核。它们做的，是帮你把这几十行代码封装得更好用。

02 工具系统（Tools）

工具是 Agent 的"手脚"。LLM 只能生成文字，但工具让它能操作真实世界。工具大致分四类：

类别	例子	作用
感知类	读文件、搜网络、查数据库	让 Agent 获取信息
操作类	写文件、执行命令、调 API	让 Agent 改变世界
控制类	创建子任务、启动子 Agent	让 Agent 管理自己的工作流
交互类	弹确认框、等待用户回应	危险操作前让人类把关（会阻塞循环）

新手最常踩的坑：工具的 description 写得好不好，直接决定 LLM 会不会正确调用它。LLM 不看代码，只看描述——写"读取文件"和写"读取指定路径的本地文本文件，返回行号和内容"，LLM 的行为会有明显差异。

03 上下文窗口管理（Context Management）

这是 Agent 开发中最容易被忽视、却最容易造成问题的一层。LLM 有固定的"上下文窗口"（比如 200K tokens），对话越长越快填满，必须裁剪——但怎么裁剪？

策略	做法	优劣
滑动窗口	只保留最近 N 轮对话	简单，但早期关键信息会丢失
摘要压缩	用 LLM 把早期对话总结成摘要	保留语义，但细节会损耗
结构化 Memory	把关键事实写入外部文件	精确，但需要判断"什么值得保存"
向量检索	历史存向量数据库，按相关性召回	最灵活，但复杂度最高

你在使用 AI Agent 时看到的"Summary of the conversation so far"就是摘要压缩机制的产物——系统在上下文剩余约 20% 时自动触发压缩，不是用户手动控制的。对新手来说：先选大上下文模型，遇到问题再引入压缩。

04 子 Agent 调度（Sub-agent Orchestration）

单个 Agent 能干的事是有限的。子 Agent 模式把一个大任务分解成若干独立子任务，每个子任务交给一个"全新的"小 Agent 去做：

主 Agent — 统筹全局
↓ 分发任务 ↓
子 Agent A 文献检索独立上下文	子 Agent B 数据分析独立上下文	子 Agent C 报告生成独立上下文
↑ 各完成后，结果返回主 Agent ↑

特性	说明
无状态	每个子 Agent 从空白开始，不继承主 Agent 对话历史
可并行	多个独立子 Agent 同时运行，大幅提速
结果汇总	执行完后销毁，只把文字结果返回给主 Agent
Prompt 自包含	背景、目标、限制必须全部写清楚——子 Agent 不知道主 Agent 在干什么

用研究场景类比：做综述时，主 Agent 相当于你（统筹全局），子 Agent 相当于三个研究助理——一个去 PubMed 检索、一个整理文献、一个起草 Introduction——三人同时工作，完成后汇报给你。

05 持久化记忆（Memory & Persistence）

Agent 每次启动都是"失忆"的。Memory 系统解决这个问题——把重要信息写入外部存储，下次启动时重新注入。

类型	生命周期	存储位置	用途举例
上下文记忆	本次会话	内存	当前任务的中间步骤
文件记忆	跨会话持久	磁盘	用户背景、项目规范、偏好设置
向量记忆	长期	向量数据库	大量历史对话的语义检索

最简单的实现就是 Markdown 文件：把用户背景、项目规范写成几个 .md 文件，每次对话开始时注入 System Prompt。Memory 写入要有触发条件：用户明确要求记住 X、用户纠正了错误、了解到新偏好——否则什么都记，反而会干扰 LLM 的注意力。

06 安全与权限（Safety & Permissions）

这一层经常被忽视，直到出了事才想起来。Agent 能跑命令、改文件、调接口——它有能力做很多不可逆的事。

用户请求

→

权限检查
允许吗？

→

参数校验
安全吗？

→

沙箱执行
隔离运行

→

结果返回

原则	说明
危险操作必须确认	删文件、推代码、调外部接口，一律先问人
绝对禁区永远不碰	不管用户怎么说，系统级破坏命令一律拒绝

07 用户界面（UI / Interaction）

Agent 最终要被人用，所以得有一个交互层。对刚入门的开发者，UI 不是优先级，从最简单的开始：

层级	工具 / 方案
命令行	Python 的 `input()` + `print()`，够用，先跑通逻辑
终端 UI	Rich 或 Textual 库，几行代码出漂亮格式
Web 界面	Streamlit，字面意思是十分钟搭一个可交互 Web 应用
生产级 Web	Vercel AI SDK（前端向）或 LangGraph Studio（调试向）

· · ·

GETTING STARTED

四、入门路线：六步从零到会

如果你是小白，正确的顺序是：

1	实现对话循环纯聊天，不写工具，先让它会"说"
2	加三个工具读文件、写文件、跑命令——80% 的 Agent 任务靠这三个
3	加权限确认危险操作前问用户"确认吗？y/n"
4	加上下文注入把项目背景写入一个 `.md` 文件，每次启动注入
5	加子 Agent 调度遇到并行任务时再加，遇到这一步你已经不是小白了
6	Memory 持久化、上下文压缩…… 遇到问题再加，不要一次全做

· · ·

MEDICINE × AI AGENT

五、医学 Agent 的未来形态

做生信研究的人大概都有这个经历：用 GEO 数据集跑 WGCNA、做孟德尔随机化、跑单细胞测序、做分子对接——每一步都需要找教程、调参数、改报错、重跑。前前后后可能花几个月。

现在这些事，一个配置好的 Agent 可以接管大部分流程——不是帮你"出主意"，而是真的帮你把代码跑起来、把报错修掉、把图出出来。但这只是冰山一角。

如果把 Agent 的七层架构移植到医学场景，会长出什么形态？

🔬 科研辅助 Agent：多组学流水线自动化

这是离我们最近的一种形态。想象一个 Agent，你只需要告诉它：「用 GSE160170 做痛风 vs. 对照的差异基因分析，跑 WGCNA，然后挑 Hub 基因做机器学习验证。」

层次	Agent 在做什么
对话循环	接收目标，分解成子任务清单，逐步执行
工具调用	调 GEO API 下数据、跑 R 脚本、调用 KEGG/GO 富集接口
子 Agent	差异分析/WGCNA/可视化三个子 Agent 并行，互不干扰
Memory	记住你的代码风格、常用参数、报错解决经验

现在这个 Agent 的雏形已经存在——它就是你在使用的 AI 编程助手。差距在于：还需要你手动驱动每一步，还做不到真正意义上的"告诉它目标，自己去完成"。这个差距，正在以每六个月一次迭代的速度缩小。

🏥 临床辅助 Agent：从 EMR 到诊疗建议

这条路更长，也更令人兴奋。一个能访问电子病历系统（EMR）的 Agent，理论上可以做到：

入院 24 小时：自动整合所有检验结果，与历史数据比对，生成风险评估摘要，标出需要关注的异常值

用药安全核查：开具医嘱前，Agent 实时检索该患者所有在用药物，对照药物相互作用数据库，返回警告

出院随访：根据诊断自动生成随访提醒清单，发送给患者端 App，并在患者回复异常症状时触发预警

注意：这里的 Agent 是辅助，不是替代。它处理的是「信息整合与模式识别」，而不是「做决策」。在可预见的未来，医疗 Agent 的核心价值是把医生从重复性信息处理中解放出来——让他们把精力放在真正需要判断力的地方。

💊 药物研发 Agent：从靶点到候选分子

这是已经在发生的事。Insilico Medicine 用 AI Agent 在 46 天内完成了一个传统需要数年的靶点发现流程，并把候选分子推进到了 II 期临床。

它的核心架构非常符合我们讲的七层：

七层对应	药物研发中的形态
对话循环	研究者输入疾病靶点，Agent 循环迭代，直到找到满足条件的分子
工具系统	分子模拟软件（AutoDock Vina）、ADMET 预测模型、蛋白数据库查询
子 Agent	生成候选分子的 Agent + 评估毒性的 Agent + 优化结构的 Agent 并行运行
Memory	记录已筛选失败的结构特征，避免重复生成类似结构
安全层	凡是 ADMET 毒性评分超阈值的分子，自动过滤，不提交给人类审核

⚠️ 还没解决的核心问题

医学 Agent 不是没有障碍。有三个问题至今没有好答案：

问题	症结
幻觉与可靠性	LLM 会生成听起来合理但实际错误的内容——在医学场景里，错误的代价可能是生命
责任归属	Agent 的诊疗建议出问题了，谁来负责？医生？医院？开发者？
数据隐私	EMR 数据涉及患者隐私，如何在合规框架内训练和使用 Agent？

这不是悲观主义，而是现实：医学 AI 发展的速度，将取决于我们解决这三个问题的速度。技术上的限制正在快速收窄，监管与伦理框架的构建，才是真正的慢变量。

而对今天在读这篇文章的人来说，这也恰好是机会所在——懂医学的人来做 Agent、懂 Agent 的人来理解医学，这个交叉口，目前站的人还不多。

🗺️ 未来展望：两条路线的汇合

写到这里，一个自然的问题浮现：LLM 和世界模型，哪条路线会赢？

大概率不是"谁赢"的问题——它们会汇合。

想象一个未来的医学 Agent：它的语言层用 LLM 驱动，理解文献、撰写报告、与医生对话；它的感知层用世界模型驱动，理解 CT/MRI 图像背后的三维解剖结构，预测分子在蛋白口袋里的结合姿态。前者负责"说"，后者负责"看"和"想"。

LLM 负责：消化 3000 万篇 PubMed 论文，自动提取证据等级，写一篇 Meta 分析的初稿

世界模型负责：模拟一个药物分子进入人体后 72 小时内的分布、代谢和毒性——不是基于规则，而是基于物理模拟

两者汇合时：Agent 不只是告诉你"这个靶点可能有意义"——它告诉你这个靶点的结构、预测了结合模式、给出候选分子、评估了毒性，还自动生成了完整的研究报告和伦理审批草稿

这当然不是明天就会发生的事。但杨立昆的形式化证明（2026.5）和 GPT-5.6 的即将发布（2026.6），暗示两条路线各自的关键里程碑正在快速到来。而医学，恰恰是最需要两者汇合的领域——它既需要海量文本的消化能力，也需要对三维空间、分子运动和生理过程的深层理解。

站在 2026 年看，做医学 AI 的黄金窗口可能不是"等 AI 成熟了再做"，而是现在就站在交叉口，看着两条路线各自逼近，然后做第一个把它们接起来的人。

· · ·

1	实现对话循环纯聊天，不写工具，先让它会"说"
2	加三个工具读文件、写文件、跑命令——80% 的 Agent 任务靠这三个
3	加权限确认危险操作前问用户"确认吗？y/n"
4	加上下文注入把项目背景写入一个 `.md` 文件，每次启动注入
5	加子 Agent 调度遇到并行任务时再加，遇到这一步你已经不是小白了
6	Memory 持久化、上下文压缩…… 遇到问题再加，不要一次全做