Anthropic当 AI 造自己:技术人员困惑背后的认识

Anthropic当 AI 造自己:技术人员困惑背后的认识—规范鸿沟

哲学 for AI

当 AI 造自己：

技术人员困惑背后的认识—规范鸿沟

本文图片来源网络，如有侵权请联系后台删除。

01 五个月没写过一行代码的人

就在不久前，Anthropic Institute 发布长文 When AI builds itself（https://www.anthropic.com/institute/recursive-self-improvement）。论述的核心不是一系列宣言，而是内部讨论里的原话。一位员工说，大约五个月没亲手写过一行代码。另一位说，一切顺利时觉得自己什么都不重要；一切崩溃时，才发现根本不知道系统在干什么。

Institute 文的主体是数据：超过 80% 的合并代码可归因于 Claude；工程师日合并量约为 2024 年的 8 倍；开放任务会话成功率升到 76%；在 129 个「人类曾走弯路」的研究时刻，模型有 64% 被判给出了更好的下一步——脚注 8 同时提醒，在「人类本已选对」的对照组里，模型仅约 20% 更好。文把这些数字串成一条时间线：从人写代码，到代理改文件、跑实验、委派小时级子任务，再到标着 20XX? 的「闭环」——那时系统或许能完全自主地设计并开发自己的后继者（fully autonomously designing and developing its own successor，即 recursive self-improvement，递归自改进，RSI）。作者明确说：今天未到，也并非必然。

但员工那两句话透露的东西，数据图表装不下。那不是对失业的抱怨，也不是对末日场景的预言，而是一种现场困惑：我还在岗位上，我还在签字，可我不知道自己还算不算在「做」这件事。 Institute 文因此值得哲学读者认真对待——它不只是一份加速报告，而是一次来自技术前沿的问题揭示：当实现层外包给机器，理解、目的与信任如何还能支撑责任？

02 文章在说什么

Favaro 与 Clark 等人的核心区分很简单：工程（写代码、搭基础设施、盯训练）与研究（决定跑什么实验、如何解读、下一步试什么）。今天，目标已定而方法未定的工程问题，代理已能自行摸索；实验规格已定的研究执行，代理已能匹配或超过熟练人类。真正的缺口在判断：选什么问题、信什么结果、何时放弃——这正是当下与 RSI 的分界线。爱迪生「1% 灵感、99% 汗水」的比喻在文中有分量：汗水正在自动化；灵感会不会也自动化，作者保留答案。

外部基准显示能力在拉长：METR 测得任务「时长地平线」约每四个月翻倍；SWE-bench、CORE-Bench 快速饱和。内部案例同样具体：2026 年 4 月弱监督安全研究中，代理在约 800 小时、约 1.8 万美元算力下自行提出假设、跑实验，回收了人类研究员一周工作约 97% 的「性能差距」——但问题与评分规则仍由人制定，结果也未干净迁移到生产规模。这是探索路径的外包，不是规范边界的外包。

文末三种未来：趋势变 S 曲线而能力仍扩散；复合效率——开发高度自动化但人仍定方向（文称最可能）；完全 RSI——进度由算力主导，对齐好坏皆不确定。政策段谈可验证的慢下来，又担心单边暂停只换领跑者。客观评价：此文比「AGI 明年」克制，比「只是 Copilot」诚实；弱点是单实验室样本、行数指标易高估。哲学上，它把讨论从分数拉向人的在场方式——这正是员工引文与数据同样重要的原因。

Closing the loop 时间梯：2021→2026 人写 Claude；20XX? 为 Closing the loop

03 问题一：谁还在「做」开发？

公众读到「AI 造自己」，常立刻问：机器有没有自己的目的？但 Institute 文描述的经验更窄、也更真实：机器接管了实现路径，人仍握着议程设定权——至少在组织的自我叙述里如此。问题因此要先改写成：当实现不再经过人的身体，人的行动还算不算「做」？

五个月没写过代码却仍批准合并的人，处在一个尴尬的行动位置。他当然造成了后果——代码进了主分支，系统行为会改变；但他很难陈述自己是如何造成这些后果的。安斯康姆（Anscombe）在《意图》里提出：要说清自己在做什么，必须能在某种描述下把握行动的意义——不是事后编造叙事，而是行动当时可援引的理解。理解若薄到无法复述，「做」就滑向「背书」：你不再制作，只采纳一条你看不见全貌的因果链。法兰克福（Frankfurt）进一步区分一阶欲望与二阶认同：负责任不只在于「想要某个结果」，还在于「认可产生它的方式」。合并键若只剩点击，却没有可追溯的领会过程，二阶认同就退化为仪式——人仍造成后果，却越来越难说自己认同那条因果路径。

这并不新鲜。复杂社会里，我们早已习惯在不懂全部机制的情况下使用技术、服用药物、信任专家。Hardwig 称之为认识论依赖：个人无法复现全部证据链，却不得不行动。AI 开发把这一结构推到可见的极端——不是未来假设，而是 Git 历史里的当下。新之处在于依赖的深度与速度同时暴涨：不是偶尔采纳一次专家意见，而是日常工作即持续采纳；不是静态信赖一位医生，而是采纳一条会自我更新的输出流。工程伦理学家 Van de Poel 讨论过责任鸿沟（responsibility gap）：当技术链条变长、行动者变成网络，既有责任概念找不到清晰的承担者。Institute 文里的员工困惑，正是这种鸿沟的一线主观体验——制度仍把你看作因果链末端的签字人，认知上你却更像链条中的转发节点。

于是，「加速的是手还是意志」这个问题要改写成：在认识论依赖与责任鸿沟已成常态的前提下，「负责」是否还要求「理解」？若要求，今天的开发流程已在很多地方事实上不满足负责的条件，尽管制度仍要求签字。若不要求，我们需要一种新的责任理论——说明何种程度的不知情仍可承担道德与职业后果。Institute 文没有给出答案；它用员工的不安暗示：现行责任格式与现行认知结构已经错位——用 Van de Poel 的术语，是问责结构尚未追上行动结构的重组。

从「动力」跳到「目的」的公共讨论，犯的往往是同一种错位。代理会优化训练、修 bug、提速实验，看起来像「为自己」做事；但合目的的行为样式不等于合目的的承担者。探索自动化已经发生；规范自动化——谁有权改写目标、架构、部署边界——在原文里仍停在 20XX? 格。把前者误读为后者，所有对齐争论都会提前失控。

04 问题二：谁有资格点下合并键？

第一个问题追问行动者；第二个问题追问信念与采纳。合并代码，从来不只是行政流程，而是一次高风险的认知承诺：你相信这段输出可用，且可承担进入生产系统之后的后果。

Institute 文提到，自动 Claude reviewer 本可拦住约三分之一历史事故——说明评审已开始部分外包给机器；未拦住的部分，仍由人类工程师背书。这里的关键不是「人还是机器更可靠」，而是：当 80% 内容非你撰写，你的「相信」基于什么？

里德（Reid）在常识哲学传统里为证言辩护：我们之所以能有理由地相信他人，不是因为自己验证了每一句话，而是因为证人通常履行真诚倾向与审慎倾向——说真话、不轻率断言。Hardwig 后来揭示：在高度专业化的社会里，这种信赖不是例外，而是认识论生存条件——最理性的个体也常常不得不依赖专家链。两条线索合在一起，指向今天开发现场的核心动作：合并键是一次证言采纳的终端，不是行政手续。He 与 Yang 把里德框架延伸到 LLM，提出 Reidian View of Artificial Testimony（RVAT，里德式人工证言观）：接收者若要有理由地采纳人工陈述，须看系统是否稳健履行 veracity 与 cautiousness。RVAT 的意义不在于给模型发「诚信证书」，而在于逼问接收端：你凭什么把这段输出接入生产因果链？

问题立刻变尖锐。对同事代码的评审，你还可以追问、争论、要求解释——这是里德式证言里可修正的信赖：说话者在场，信赖是可被检验、可被撤回的社会关系。对代理输出，解释往往以日志、概率与统计形式出现，可追问性被接口压缩。Fricker 谈认识论不义时指出：证言制度若只问「有没有程序」，不问「谁被排除在可信说话者之外、谁失去了质疑资格」，就会在结构层面制造不公。开发组织里，当资深者从「修按钮」升到「定议程」，初级者从「写实现」降到「批 diff」，评审权在人数更少的人手里集中，而每个人能理解的局部都在缩小——这不仅是效率问题，也是证言正义问题：越有权力签字，越可能越难真正读懂签字对象。

Amdahl 定律在文中被用来描述瓶颈搬家：写代码加速之后，评审、方向、协调成为新瓶颈。哲学上看，这是认识能力与规范权力朝相反方向运动——有权采纳证言的人，未必最有能力检验证言。Institute 文另一条员工引文与此呼应：「帮我跑通脚本」的小请求曾制造互惠与可见性；代理更快、不产生人情债，却拆掉微观互认。互认的萎缩看似「软」话题，实则触及证言制度的社会基底：我们凭什么相信彼此？不仅因为对方说真话（里德），也因为我们在共同工作中相互可见、相互欠债、相互纠正（可修正的信赖）。当这些土壤变薄，制度性的签字越来越像 Hardwig 式依赖的极端版——单向采纳黑箱输出，技术上高效，认识论上脆弱。

05 问题三：顺利时无关、崩溃时恐慌——这说明什么？

第二位员工的两句话，值得当作现象学证据来读，而非心理学插曲。海德格尔区分上手（Zuhandenheit）与在手（Vorhandenheit）：工具顺畅时融入背景，几乎不被主题化；只有故障、阻滞、不合用时，它才作为对象猛然显现。顺利日感到「什么都不重要」，是上手状态的极端——代理透明到主体从经验里退场。崩溃日恐慌，是同一工具突然在手：你被迫「看见」自己并不理解的依赖链条。同一个人，在两天之间经历主体性的开关：一天几乎不存在，一天以恐慌的方式被迫存在。

德雷福斯（Dreyfus）批评经典 AI 时指出：人类技能不是规则集合，而是在情境中的具身把握——专家之所以是专家，在于能看见何为异常、何为要害。当实现层整体外包，这种技能不再通过写代码、调参数、跟日志生长，而被迫退守为间歇性的故障处置。于是，AI 开发现场正在制造一种新型的分裂式行动经验：授权与领会在时间上脱钩。你平日批量授权；你只在事故里被迫领会。领会来得越晚，责任越重——这是工程师恐慌的实质，不是情绪管理问题，而是技能形态被重组的必然主观面：你从「通过技艺参与系统」变成「在系统破裂时才被召回的主体」。

Institute 文用礼物经济萎缩来写组织温度，指向同一结构：技术加速首先损伤的不是就业数字，而是「我为何还站在这里」的日常理由。会议还在开，工资还在发，但你所完成之事与你所能讲述的自我之间的连线，在变弱。若情景二（复合效率）成真——人仍定方向，执行几乎免费——大多数人面对的未必是 RSI，而是这种分裂经验的常态化：少数定议程，多数批准自己读不懂的实现；顺利日虚无，崩溃日恐慌，中间没有稳定的「我在劳动」的感觉。

这不是煽情，而是规范问题的前奏：一个只能间歇性地感到自己是有责主体的组织，能否持续地做出值得公众信赖的安全承诺？ Institute 文在情景三里对对齐最诚实——可能更好，也可能更糟——却较少正面回应情景二里主体性鸿沟如何影响安全文化。员工引文补上的，恰恰是这一环。

06 三种未来，三种不同的哲学赌注

Institute 文的情景划分，可读作三种规范秩序的赌注，而非三张预测表。

情景一（S 曲线、能力冻结仍扩散）：社会吸收与制度滞后拉平指数叙事；即使模型不再变强，Glasswing 类漏洞发现也已改写网络安全的问题域——从「找不到洞」到「补不过来」。哲学上，这一情景留下最多重建责任制度的时间。

情景二（复合效率，文称最可能）：危险未必是「机器有了意志」，而是分裂式行动经验被组织常态化——人名义上掌舵，实际上只在事故里才成为主体。文承认「研究品味」可能只是尚未被攻克的能力；若品味也可学习，情景二滑向情景三；若不可，则出现规范权威与执行权力脱节的稳态——少数人定议程，多数人背书黑箱。

情景三（完全 RSI）：对齐不确定被诚实保留。哲学上，核心已不再是「能否关机」，而是评价与改进是否在同一闭环里自我污染——每一代都在采纳上一代参与塑造的「表现层」，审计若永远落后一代，负反馈就来不及抵消正反馈。

文谈可验证暂停的困难——训练比导弹井更易隐藏——触及信任条件的改写：从「看见设施」到「共享审计语言」。但这仍不足以回应员工困惑；暂停是外部制动，员工问的是内部：我为何还能负责任地签字。

07 哲学回应：

认识—规范鸿沟，与三种责任条件

Institute 文是技术人员在加速现场写下的问题揭示：他们知道自己还在场，却越来越说不清以何种方式在场。哲学若只复述「依赖专家」「机器没目的」「要可验证暂停」，就辜负了这份揭示。本文尝试给出一个可辩护的理论回应——不替代政策设计，但说明困惑的结构与回应的方向。

第一，核心范畴：认识—规范鸿沟（epistemic-normative gap）。

当代 AI 开发现场出现的，不是单纯的「机器变聪明」，而是认识条件与规范条件的系统性脱钩：制度仍要求你对后果负责（规范上你是主体），日常工作中你却越来越无法满足「理解所批准之物」这一承担责任的认识门槛（认识上你像终端用户）。这一鸿沟与 Van de Poel 所说的责任鸿沟同构而不同名：后者描述问责结构追不上行动结构；前者进一步点出认识结构已追不上规范结构——签字仍有效力，理解已不够格。它不是个人失职，而是组织结构与责任语法未随技术更新的结果。五个月没写代码的人不是偷懒；他是在鸿沟里仍被指派为名义上的因果承担者——安斯康姆意义上的行动主体，却在日常中越来越接近法兰克福所说的未达成二阶认同的批准者。

用这一范畴重读 RSI 讨论，可把恐慌从科幻拉回结构：公众害怕的「失控」与工程师感到的「无关」，是同一鸿沟的两面——一面是规范权力似乎还在人这边，另一面是认识资源已不足以支撑这一权力。讨论 RSI 时若只问「机器有没有目的」，就仍在鸿沟的远端做文章；更紧迫的是问：在 RSI 到来之前，鸿沟是否已被日常开发流程制度化？

第二，理论贡献：三层工作对应三种责任条件——不可混谈。

本文提出一个分析框架（philontier 重构，非 Anthropic 原文术语），用来拆开 Institute 文里被焊在一起的焦虑：

层次	现场状态（据文）	责任条件	错配后果
执行	代码与实验步骤 largely 外包	可追溯性：能否追到谁（或什么）造成了哪条因果	把「写得多」当成「控得住」
认知	假设提出、实验迭代部分外包	可批判性：能否质疑路径而不仅是结果	把「跑得快」当成「想得对」
规范	目标、架构、部署边界未外包	可问责性：谁有权定义何种未来算可接受	用执行层恐惧掩盖规范层真空

Institute 文最有哲学含量的判断——瓶颈会搬家——应在此框架下理解：瓶颈搬家不是算术，而是责任条件迁移。写代码加速后，瓶颈移到评审，意味着社会开始把「负责」主要压在可追溯性上；研究判断自动化推进时，瓶颈将移向可批判性；若规范层也外包，才触及可问责性本身。公共讨论用同一个词 RSI 谈论三层问题，政策就会对错靶——用针对规范层的暂停，回应执行层的速度；用庆祝执行层的效率，掩盖规范层仍空着。

第三，对技术人员困惑的直接回应：分裂式行动经验不是副作用，而是鸿沟的主观形式。

顺利日虚无、崩溃日恐慌，不是脆弱心理，而是海德格尔式上手/在手交替与德雷福斯式技能空心化叠加的结果：授权与领会时间脱钩，具身把握退化为故障时才被召回的恐慌。哲学上的回应因此不是「适应就好」，而是承认：若组织要求你持续签字，它就必须为你保留可间歇但可积累的理解——制度化的解释义务、可介入的日志接口、失败时的归因程序。否则，签字在道德上接近法兰克福所说的未达成二阶认同的仪式，在认识论上接近里德—Hardwig 链条末端的无理由采纳，在安全上接近负反馈缺失：系统只在崩溃日才让人成为主体，而平稳日把主体性消去——这恰恰不利于早发现偏差。

内部引文里礼物经济萎缩，也应在此回应：互认不是情怀，而是低成本的可批判性基础设施——同事之间能随时打断你、追问你、让你欠人情，这正是 Fricker 意义上维系证言正义的日常机制。代理取代小请求，节省的是时间，消耗的是纠偏的毛细管。哲学建议因此具体：重建组织里的「可追问性」——恢复里德式证言的可修正性——比单纯加多一层自动 reviewer 更根本。

第四，对三种未来的规范回应——哲学不提供预测，提供分诊标准。

情景一：优先修补责任语法——在能力扩散仍改变世界之前，让签字、评审、日志、归因与认识—规范鸿沟对齐。

情景二（最可能）：真正危机是鸿沟常态化——即使永不 RSI，多数人也会生活在「定议程但看不懂实现」的秩序里。回应是限制规范权力与认识资源的进一步背离（例如：不可理解即不可部署的硬性门槛、关键路径上的人类可解释义务），而非仅讨论失业。

情景三：若闭环闭合，问题从「人是否还在写代码」升级为人类是否仍保有定义「有效理由」的规范地位——例如，谁有权宣布「这一改进算自改进」「这一风险不可接受」。这已进入政治哲学，而非仅安全工程；可审计的改进算子（ICLR 2026 RSI Workshop 议程）之所以重要，是因为它们试图为可问责性保留共同语汇。

第五，对暂停与信任：哲学回应不是反对暂停，而是指出暂停解决不了鸿沟本身。

可验证暂停针对的是规范层的协调——防止某一方在他人停顿时偷跑。员工问的是认识层：我批准的，我是否懂。二者交叉但不相同。没有共享审计语言的暂停，会沦为权力再分配；没有理解义务的开发流程，会继续制造名义主体——人在场，但只以签字的形式在场。哲学的理论贡献因此是一句硬话：AI 治理的首要对象，不先是「机器有多强」，而是「人的责任条件是否仍被满足」。 Institute 文用内部数据证明机器变强；哲学用认识—规范鸿沟说明：在证明机器变强之前，人已经先变「薄」了。

Institute 文值得读两遍。一遍读曲线：80%、8×、64%、20XX?。一遍读困惑：没写过代码、顺利日无关、崩溃日恐慌。曲线描述能力；困惑揭示责任条件的危机。philontier 的回应是：把认识—规范鸿沟当作理解当下现场的核心范畴；用三种责任条件分诊执行、认知、规范三层工作；把技术人员的分裂式行动经验，读作鸿沟的主观形式而非私人情绪。

若只问「RSI 何时到来」，我们仍可能在鸿沟已经很深的时候，才第一次讨论对齐。更紧迫的问题是：在闭环闭合之前，我们能否重建一种「签字仍意味着理解」的责任语法？这不是怀旧，而是安全的前提——负反馈需要能感到自己相关的主体（上手状态里仍保有技能与领会），而不是只在事故里才被迫醒来的人（在手状态里的恐慌主体）。里德—Hardwig—RVAT 所勾勒的证言链、安斯康姆—法兰克福—Van de Poel 所追问的行动与责任条件、海德格尔—德雷福斯所描述的技能经验——三条线在此交汇：AI 治理首先要修补的是人的责任条件，而不是只盯着机器的能力曲线。

philontier 问

当理解追不上授权，「负责」还能是一句实话——还是只剩组织的自我安慰？

参考文献

1. Favaro, M., Clark, J., et al. (2026). When AI builds itself. Anthropic Institute. https://www.anthropic.com/institute/recursive-self-improvement

2. Anscombe, G. E. M. (1957). Intention. Basil Blackwell.

3. Reid, T. (1764). An Inquiry into the Human Mind on the Principles of Common Sense.

4. Hardwig, J. (1985). Epistemic dependence. Journal of Philosophy, 82(7), 335–349.

5. He, J., & Yang, C. (2025). Testimony by LLMs. AI & Society, 40, 6201–6213. doi:10.1007/s00146-025-02366-y

6. Fricker, M. (2007). Epistemic Injustice. Oxford University Press.

7. Frankfurt, H. (1971). Freedom of the will and the concept of a person. Journal of Philosophy, 68(1), 5–20.

8. Van de Poel, I. (2020). Embedding responsibility in intelligent systems. In Oxford Handbook of Ethics of AI. Oxford University Press.

9. Heidegger, M. (1927). Being and Time (§15–16, readiness-to-hand).

10. Dreyfus, H. L. (1992). What Computers Still Can't Do. MIT Press.

11. Amdahl, G. M. (1967). Validity of the single processor approach. AFIPS Spring Joint Computer Conference.

12. ICLR 2026 Workshop on AI with Recursive Self-Improvement.

https://iclr.cc/virtual/2026/workshop/10000796

作者简介

裴检书，@哲学前沿philontier专栏作者

先拆锁，再评价。最恨「据研究表明」却不给 DOI。

本期责编：边淮

分享「哲学×AI」动态，让哲学进入AI议程

欢迎关注

👇👇👇

读了好文，点亮「」