AI 时代的实证研究:Stanford IRiSS会议内容整理

原始材料：The AI Economist Library 页面 “Empirical Work in the Age of AI”。该页面整理的是 Stanford IRiSS 于 2026 年 4 月 17 日举办的 seminar，视频时长约 3 小时 26 分钟。

00:00 Opening

为什么 Stanford 组织这场 panel

Welcome and Origins

Guido Imbens

Guido Imbens 首先欢迎大家参加 “Empirical Work in the Age of AI” 活动。他说明，这场活动最初来自他与 Rose Tan 的一次咖啡聊天。Rose Tan 曾在 Stanford 取得经济学博士学位，之后在若干科技公司工作。当时她回到 Stanford 访问，认为经济学博士生，甚至相当一部分 faculty，对 AI 工具的重视程度还不够。她原本只是建议为经济学研究生办一次如何使用 AI 工具的讲座，结果这个想法很快超出最初设想，发展成一场面向更大范围社会科学研究者的活动。

Imbens 感谢 Rose 的提议，也感谢 IRiSS 的 Mike Tomz、Chris Fraga，以及 Stanford Impact Labs、经济系和 GSB 的支持。他强调，受邀发言人都非常积极，因此最后形成了一个覆盖不同主题、不同工具和不同方法论层面的议程。

Logistics and Questions

Guido Imbens

由于议程非常紧凑，现场没有安排正式休息。组织者提醒听众进出时保持安静。问答环节集中放在最后一小时，听众可以通过 PollEverywhere 和投影上的二维码提交问题。

Framing the Questions

Guido Imbens

Imbens 随后提出这场活动背后的核心问题：AI 会如何改变经验社会科学？他坦率承认，今天不可能给出最终答案，因为这个过程会持续展开。但可以确定的是，研究者需要密切关注这一变化。

他提出三个判断。第一，研究质量很可能会提高；当天的发言会展示一些具体工具和例子。第二，研究数量也可能增加，这会对现有发表和审稿制度造成压力，并可能迫使期刊和学术共同体重新设计论文筛选与评审机制。第三，研究类型和研究过程会发生变化，但具体如何变化还很难预测。当天的目的不是下结论，而是打开讨论。

Speaker Introduction

Michael Tomz

Michael Tomz 代表 IRiSS 欢迎听众。他介绍第一位发言人 Rose Tan。Rose Tan 拥有 Stanford 经济学博士学位，曾在纽约联储、Quora、Facebook、LinkedIn 等机构担任数据科学相关工作，最近在 Stanford Data Science 访问，之后加入 Snowflake。Tomz 说明，Rose 将做一个 25 分钟的 live demo，问答统一留到最后。

03:00 Rose Tan

Live agentic workflow demo

主题概括：Rose Tan 用一个现场演示说明，研究者如何从一个空文件夹和一个较模糊的研究目标开始，利用 Claude Code、Cursor、skills、Claude.md 等工具搭建一个可迭代的经验研究工作流。她的核心信息很简单：遇到任何大问题或小问题，都可以先问 LLM；但真正有效的使用方式不是让 AI “随便做研究”，而是让它先规划、提问、执行、记录并接受人类检查。

Opening the Demo

Rose Tan

Rose 一开始提醒大家，live demo 很容易出错，但这反而是展示 Claude 能力的机会。她先问现场有多少人已经安装 Claude Code，如果大多数人都装好了，她就跳过安装部分。她特别强调，很多人虽然可以打开网页端 ChatGPT 或 Claude，但对终端环境并不熟悉，不一定知道如何进入某个文件夹、如何在该文件夹下启动 Claude Code。

她展示了一个非常基础但重要的技巧：如果不知道终端命令，就直接把截图交给 ChatGPT 或 Claude，问它如何打开指定文件夹。她借此说明两个原则。第一，LLM 已经具备多模态能力，很多时候发一张截图比用语言描述更有效。第二，没有任何问题“小到不值得问 LLM”。她让听众反复回应一句话：“Ask the LLM.” 这是她整个演示中最想让大家记住的内容。

与此同时，她也提醒，打开 Claude 后直接说“我想做研究，帮我做研究”并不是好的使用方式。这类提示太泛，容易导致结果失控。她会在演示中不断区分哪些是好的模式，哪些是反面模式。

A Framework for Day-to-Day Usage

Rose Tan

Rose 提出一个日常使用 AI 工具的层级框架。第一层是在网页端与 ChatGPT、Claude 等 LLM 对话。第二层是安装 Claude Code、Codex、Cursor 等工具，并让 AI 进入本地项目环境。第三层是使用更专门化的功能，例如 skills、MCP servers、Claude.md 或 Agent.md 文件。第四层是引入轻量级软件工程实践，如 GitHub、版本控制、项目结构、可复现代码。第五层则是更加复杂的多智能体环境，让多个 agents 长时间、自主地执行任务。

她强调，层级越高，工具复杂度和成本越高。第一层只需要浏览器；第二层需要安装相应工具，也通常需要订阅；第三、第四层需要理解 GitHub、版本控制、项目规范；第五层则可能需要更高等级的模型订阅和更多计算资源。她当天重点展示第三层和第四层，因为一旦研究者掌握这些，进一步走向多智能体工作流就主要是时间和实践问题。

Starting a Replication Project

Rose Tan

Rose 打开一个全新的空文件夹，并在该文件夹中启动 Claude Code。她指出，很多人第一次打开 Claude Code 时不知道应该说什么。一个简单起点是告诉它自己的身份，例如“我是 Stanford 经济学博士生，请告诉我你能做什么”。这适合探索阶段，但并不是日常研究中最好的工作模式。

为了演示，她让 Claude 帮助复现 Lalonde paper。她给出的较好提示是：“我是计量经济学学生，我想简单复现 Lalonde 论文。请先为我制定计划，不要写代码，并询问你需要澄清的问题。” Rose 强调，日常启动新项目时，一个好的模式是先让 agent 制定计划、提出问题，而不是直接动手写代码。

她也提醒，在理想状态下，研究者应该写出非常详细、严谨的 prompt，但这本身很费时间。因此可以让 LLM 帮你写 prompt，或让 LLM 帮你把初始想法转化为更完整的任务说明。Claude 随后提出语言、比较组、输出格式、分析深度等问题。Rose 为了节约现场演示时间，选择 Python、简单比较组、Markdown 输出和较快执行。她承认这不是严谨研究的最佳做法，因为真正研究需要更仔细、更可复现、更审慎的选择；但 live demo 的约束是速度。

她把这个过程类比为与 RA 合作。你让 RA 做一件事，RA 会回来问一系列澄清问题。AI agent 也会如此。区别在于 agent 可能会调用一些研究者不熟悉的命令，比如 curl。当你不知道命令是否安全时，也应该问 LLM：这个命令会不会删除文件？会不会产生风险？Claude Code 虽然有安全机制和 prompt injection 防护，但并不完美。长期使用这些工具也能帮助研究者积累基本计算机科学直觉。

Reviewing the Generated Outputs

Rose Tan

在 Claude 执行任务时，Rose 展示它已经在空文件夹中生成的文件。Claude 找到并下载了在线数据，把 Stata 文件读入并转换为 Python 能处理的格式，随后生成 Markdown 文件作为输出。她展示了 Markdown 文件如何通过快捷键预览成更易读的格式。

她进一步指出，经济学学生可能更希望得到 TeX、Beamer 或 PDF，而不是 Markdown。LLM 非常擅长在不同格式之间转换：Markdown 到 LaTeX，R 到 Python，Stata 到 Python，甚至从一个 R package 生成 Python package。她让 Claude 基于现有结果生成 LaTeX 文件、PDF 和 Beamer 模板。她的重点不是说结果一定正确，而是说明这些格式转换和原型制作现在成本极低。

Skills and Claude.md

Rose Tan

Rose 接着介绍 skills 和 Claude.md。她让 Claude 为 GitHub 操作创建一个 skill，使其以后能通过一个命令把项目推送到 GitHub。她解释，skill 本质上是一个文本文件，里面记录 LLM 执行某类任务时应该遵循的具体指令。它不是神秘功能，而是一种结构化的、可复用的操作说明。

她也展示了 Claude.md 文件。skills 更像是给 agent 增加具体能力或操作规范，而 Claude.md 更像是记录研究者自己的工作偏好。例如，Rose 希望 skills 放在某个特定文件夹，喜欢先做计划，偏好 Python 和 LaTeX，关注因果推断。把这些偏好写入 Claude.md 后，未来新项目可以用这个文件作为种子，agent 就能快速理解她的工作方式，不需要每次重新说明。

她强调，随着项目积累，Claude.md 可以逐渐变成一个很大的偏好和规则文件，帮助不同会话之间保持连续性。换句话说，研究效率的提升不仅来自单次对话，而来自可累积的项目记忆与规范。

Building a UI

Rose Tan

Rose 最后展示一个很多研究者过去不会主动做的事情：为研究结果快速搭建交互界面。她承认自己不会手写 UI，但 agents 非常擅长这类任务。过去，经济学博士生通常不会为了查看结果专门写一个 UI，因为成本太高，收益不一定匹配。但现在 agents 大幅降低了原型开发成本。

她让 Claude 为 Lalonde 复现结果建立一个交互 UI，希望能够选择协变量、切换估计器并查看结果变化。Claude 选择了 Streamlit。Rose 借此提出一个重要方法论转变：博士生往往习惯“先想很久，再做”；但在 LLM 环境下，很多时候可以“先做一个原型，再思考”。因为做的成本下降了，快速试错和迭代可能比长时间抽象规划更有效。

她强调，演示中的 Lalonde 结果没有经过严谨审计，可能不正确。她的目的不是证明 Claude 完成了可靠复现，而是说明，以前很少会为研究搭建的交互工具，现在变得非常便宜。研究者可以为成千上万张图建立筛选界面，为结果表构建交互视图，或为不同模型设定建立快速切换工具。

Transition to the Next Speaker

Michael Tomz

Tomz 感谢 Rose 的演示，并介绍下一位发言人徐轶青。

29:00 Yiqing Xu

Replication, software, and project structure

主题概括：徐轶青把 agentic coding 视为经验研究工作流的重大变化。他重点讨论大规模复现、统计软件开发、项目结构、确定性代码、skills 的知识积累，以及在 AI 时代保留人类研究能力的问题。他的核心判断是：AI 最适合处理结构化、可验证、迭代性强、重复性强的任务；真正的科学研究不应让 LLM 随机发挥，而应尽量减少 LLM 在最终可复现环节中的不确定性。

Introduction

Michael Tomz

Tomz 介绍徐轶青是 Stanford 政治科学系副教授，研究统计方法，尤其是 panel data 因果推断，也研究比较政治和中国政治。他将远程连线，从纽约 JFK 机场参与。徐轶青将分享如何使用 AI-assisted workflows 来复现经验研究和开发统计软件。

Opening and Agenda

Yiqing Xu

徐轶青首先感谢组织者和 Rose。他开玩笑说，有人说 Twitter 是一种“没人会变好的群体治疗”，希望今天的活动不一样，大家既能互相学习，也能感觉好一点。

他认为，以 Claude Code、Codex 为代表的 agentic AI 是另一个 “ChatGPT moment”，甚至可能比 ChatGPT 更大。它令人兴奋，也让人焦虑和睡眠不足。随着尝试增多，压力不会消失，但会趋于稳定。

他把 Rose 提到的 skills 理解为结构化的 user prompt 和 system prompt。skills 是 markdown 文件，可以附着在特定任务上。它的重要价值之一是缓解 context window 问题。传统聊天越聊越长，模型需要携带越来越多上下文，速度变慢、效率下降。agentic workflow 和 skills 把任务拆开，使每次任务只携带相关上下文，从而更可扩展。

他将展示和讨论三个工作流。第一是自二月以来开发的大规模复现工作流。第二是创建和维护统计软件包的工作流。第三是关于如何根据自身研究需要构建个人工作流的建议。这些工作流共同特点是结构化、可验证、迭代、重复。LLM 或 agentic workflow 在能够实时检查结果、发现错误并自我修正时效果最好。相反，过于 idiosyncratic、过于复杂、难以验证的研究判断并不适合完全自动化。

Large-Scale Replication Workflows

Yiqing Xu

徐轶青说明，他过去几年做了多项大规模复现项目，从二十篇到七十篇论文不等。他做这类工作的目的，是评估新的统计方法在真实经验应用中是否重要。很多方法在理论上成立，但只有把它们应用到大量真实论文中，才能知道它们是否改变经验结论，也才能推动研究实践改进。

AI 出现后，他开始重新思考这类工作的价值，因为这类任务正在变得更容易。他开玩笑说，希望尽快让过去那个专门做复现的自己“过时”，从而把时间转向更有创造性的统计方法创新。

他强调，高质量复现有两个难点。第一，需要非常高的准确率，可能要达到 99%，而最后 1% 往往最难。第二，复现他人的代码极其痛苦。少数项目代码和数据整理得很好，但大多数 replication package 来自 ICPSR、AEA Archive、Harvard Dataverse 等不同平台，格式极其异质，涉及 Stata、Python、R、不同文件结构、不同编程习惯。复现工作的大量时间消耗在 harmonization 上，即把各类 replication packages 整理成可套用同一模板的结构。

他和合作者 Leo 建立了一个相当复杂的三层工作流。一个关键经验是：如果目标是科学研究的可复现性，就应该尽量减少 LLM 在最终产出中的随机参与。 LLM 可以教技能、理解论文、帮助开发工具，但最终应该留下版本控制下的确定性代码，例如 Python 文件。这样，即使第二天关闭会话，只要代码保存在 GitHub 中，仍能复现同样结果。

在这个工作流中，LLM 主要扮演两个角色。第一，语义理解论文：给定 PDF，它需要识别论文中的数字、表格和估计量分别对应什么。第二，软件开发者：它帮助更新确定性代码，使代码能够处理新的 replication package。中间一层则是知识积累层，由大量 markdown skills 组成，记录复现过程中遇到的各种奇怪案例和解决办法。

徐轶青认为，大规模复现非常适合 AI，因为结果是可验证的。人工当然也能做七十篇、一百篇论文，但需要大团队和长时间。AI 工作流使得复现数量大幅扩展。他举例说，他们已经能够复现近 400 篇论文中的回归表，并从 2010 年以来政治学顶刊中随机抽取 784 篇论文进行分析。随着数据归档和验证要求加强，论文可复现性确实提高，但每篇论文背后的整理、运行、匹配数字仍然需要大量工作。正是人类写代码方式的异质性让这个工作如此困难；如果未来代码由 AI 生成，统一性可能反而更高。

他进一步指出，AI 可能改变方法论研究的基础设施。计算机科学中的 ImageNet 等标准数据集极大推动了研究进展。社会科学过去缺少同类大规模、标准化、可复用的 empirical benchmark，而 AI 可能让 harmonized replication files 和 harmonized datasets 变得更加丰富。

他用自己之前关于 IV 和 first-stage strength 的研究举例。原先复现 67 篇论文花了四年；借助新 pipeline，把样本扩展到 92 篇论文、200 多个设定，只花了三天，而且人力成本大幅下降。这说明 AI 不只是省时间，还可能改变方法论文的证据规模。

Statistical Software and Package Development

Yiqing Xu

徐轶青的第二个主题是统计软件包开发。他和合作者维护十多个 package，涉及 R、Stata 和 Python。他对 Stata 的 AI-native 程度不太乐观，因为 Stata 闭源，AI 学习和操作起来不如开源环境自然。统计软件开发表面上像普通软件开发，而 Claude、Codex 本来就擅长写代码；但统计软件还有特殊性，即很多估计量有理论性质、证明和预期行为，研究者可以利用这些性质来测试软件是否正确。

因此，好的统计软件 agent workflow 应该把理论性质转化为测试。比如某个估计量在模拟数据下应当满足一致性、无偏性或已知收敛性质，agent 写完代码后必须通过这些 tests。这里 AI 不应只负责“写出看起来能跑的代码”，而应进入一个“写代码—运行测试—比较理论性质—修正错误”的闭环。

他强调，软件开发中的可验证性极其重要。LLM 的优势并不在于它一定不会犯错，而在于当任务有明确测试时，它可以快速试错并修正。对于统计软件而言，proof、simulation、unit test 和 benchmark 都可以成为 agent 的验收标准。

Project Structure and Personal Workflow

Yiqing Xu

徐轶青接着谈到项目结构。他认为，AI 时代的研究者必须重新学习如何组织项目。以前很多经验研究者的文件夹结构混乱，代码、数据、输出和草稿混在一起。agentic workflow 放大了这个问题：如果项目结构不清楚，agent 也会迷失，甚至在错误文件上操作。

他建议把文本、代码和大型二进制数据分开。文本和代码适合版本控制，应该放在 GitHub 中；大型数据文件则应放在适当的数据存储位置，并通过清晰路径和脚本调用。Markdown 文件、skills、项目说明和规则文件应当成为项目知识库的一部分。

他也强调，虽然 AI 能写代码，研究者仍然需要保留基本能力。博士生不能因为有 Claude 就停止学习编程、计量、软件结构或调试。AI 会提高“知道该问什么、如何验证答案”的回报。如果完全不知道底层逻辑，研究者无法判断 agent 的结果是否可信，也无法有效拆解任务。

Human Skills and the Return to Judgment

Yiqing Xu

徐轶青最后提醒，agentic workflow 会降低执行成本，但不会取消研究者判断。相反，它提高了研究者提出好问题、设计结构、定义验收标准、管理项目和审计结果的价值。研究者必须从“亲自敲每一行代码的人”转向“设计和监管可验证研究系统的人”。在这个系统中，LLM 可以做很多事，但人类必须决定目标、标准和解释。

56:06 Matt Gentzkow

Human judgment, research purpose, and academic careers

主题概括：Matt Gentzkow 没有做工具演示，而是从博士生和学术职业视角讨论 AI 时代社会科学研究的意义。他认为，这是社会科学博士生最令人兴奋的时代之一，因为社会问题的重要性没有下降，而研究工具的能力正在指数级提升。AI 会降低常规执行任务的价值，但提高问题选择、人类关系、管理能力、可信度和清晰社会目标的价值。

Framing the Moment

Matt Gentzkow

Matt Gentzkow 首先说明，他并不是最接近技术前沿的人，也不擅长预测未来。但正因为这个时刻太重要，他想以“如果我是今天的博士生”为出发点，分享一些想法。

他承认，当前存在大量不确定性和焦虑。博士生会担心自己的未来、职业价值和经济前景，会担心自己是不是像人类下围棋一样，只是在机器人已经更强的领域继续“为了乐趣”工作。但他同时认为，这可能是社会科学博士生最令人兴奋的时刻之一。兴奋不等于轻松或舒适，而是因为研究者能够实现的职业影响和社会影响的右尾空间前所未有地扩大。

Why Human Judgment Still Matters

Matt Gentzkow

Gentzkow 的第一个核心论点是，社会科学仍然非常重要，而且需求可能更大。世界上有大量关键问题需要可信、可靠、高质量的科学证据来指导政策、组织和私人决策。AI 并没有让这些问题消失。相反，在变化加速的环境中，对可靠社会科学的需求更强。

第二个论点是，研究工具的火力正在指数级增强。过去博士生能使用的工具，与今天学生可以使用和未来几年将拥有的工具相比弱很多。因此，随着工具能力增强，“把工具指向哪里、为什么要研究这个问题”的回报会上升。如果你拥有更强大的火力，方向选择的边际价值就更高。

第三，他认为在可预见的中期内，仍然需要聪明、有创造力的人类来部署这些工具。原因不是 AI 不会变强，而是很多社会结构变化很慢。人类行为、法律、政策、机构、企业组织、学科规范、晋升制度、期刊评价标准，都不会以 OpenAI 模型发布的速度变化。很多最重要的社会问题恰恰依赖这些慢变量。

例如，让 Claude “改善日本食品安全法”可能能得到一些想法，但真正改变食品安全法需要政策过程、社会协调、说服、组织、沟通和制度变迁。这些仍然高度依赖人类。类似地，获得企业专有数据、与政府建立合作、在学校开展 RCT、做发展经济学田野实验、招募实验对象、推动研究结果被采用，都不是 agent 可以独立完成的。

Gentzkow 进一步指出，AI 对那些目标函数清晰、可实时量化的问题特别强，例如国际象棋、代码测试或某些 benchmark 优化。但许多重要社会科学问题没有这种清晰目标函数。写一篇有说服力的准实验论文、判断哪个问题值得研究、如何权衡人类价值和制度目标，都不是简单优化问题。

What Human Capital Becomes More Valuable

Matt Gentzkow

Gentzkow 随后讨论博士生应该投资什么人力资本。他认为，随着常规技术执行成本下降，那些能够帮助研究者判断“研究什么、为什么重要、是否可信”的能力更值钱。写代码、跑回归、做技术实现仍然重要，但这些部分更容易被工具加速。最稀缺的是判断力。

他特别强调五类能力。

第一是问题意识。研究者需要回答为什么这个问题重要。那些能够给出清晰、具体、可检验社会价值的研究会更有回报。比如如何改善数学教育、是否应该实施某类投票制度、如何制定更好的公共政策。相反，仅仅因为“我找到一个聪明的自然实验并估计了一个参数，但不知道这个参数有什么用”的研究，价值可能下降。

第二是与人合作的能力。很多研究瓶颈来自人：合作方、数据提供者、政策执行者、田野对象、研究团队和受众。关系、直觉、情商、团队合作和沟通能力的回报会上升。

第三是管理能力。他把学术研究类比为创业。博士生像车库里的创始人，什么都自己做；随着工具能力增强，研究者越来越像在管理一个由 agent、RA、合作者和工具组成的小型组织。如何分配任务、组织项目、管理反馈、设计流程，会变得更重要。徐轶青工作流中的 janitor、builder、checker 等角色就是这种变化的例子。

第四是战略视野。研究者要决定长期方向，而不是只做局部任务。AI 可以执行许多子任务，但项目目标、研究路线和社会意义仍然需要人类判断。

第五是信任。在 AI 能产生海量看似合理研究的世界中，可信声誉会变得稀缺。政策制定者、媒体、学校、企业和学术期刊都需要知道该相信谁。那些以可靠、高质量、审慎研究著称的个人和机构会更有价值。

Advice for PhD Students

Matt Gentzkow

Gentzkow 给博士生的建议是，应该积极学习和实验，从今天开始，每天使用这些工具。与此同时，应该认真思考自己为什么做研究。如果答案只是“本科时喜欢解题，所以继续读博”，那也可以，但现在可能需要进一步思考：自己是否处在能够解决重要社会问题的位置。

他建议博士生投资“人类部分”：管理、组织、团队合作和沟通。他甚至半开玩笑地说，可以去商学院学学如何管理组织，因为未来博士生可能不再只是一个人在车库里修修补补，而像是在管理一个由一百个人组成的团队，只不过这个团队中的一部分是 AI agents。

最后，他让大家深呼吸。这个时代疯狂、吓人，但也非常有趣。

Stanford Impact Labs Fast Grant Pilot

Matt Gentzkow

Gentzkow 以 Stanford Impact Labs 的一个试点项目作为结尾。他说明，他们计划从 7 月 1 日左右启动 AI-enabled research fast grant program。该项目尚未正式发布，目标是快速支持 AI 工具在社会科学研究中的创新使用。

项目预计按月滚动申请，当月初提交，月底给出决定。资助目标是推动 AI 工具在提高社会科学研究速度、质量或现实相关性方面的创新，并且要指向重要社会问题。资助对象包括 faculty、postdocs 和 PhD students。奖金额度暂定为博士生最高 25,000 美元，faculty 最高 50,000 美元，周期为 12 个月。具体细节仍在完善中。

84:00 Susan Athey

Foundation models as econometric tools

主题概括：Susan Athey 将讨论从 coding assistant 推进到 AI 作为计量经济学和经验研究工具。她的重点不是让 AI 帮你写代码，而是如何用 foundation models 构造变量、分类文本、生成处理或结果、使用 embeddings、fine-tuning，以及把经济学中的 loss function 嵌入模型训练。她的核心判断是：AI 可以进入经验研究的 Y、D、X，也可以被定制为服务于特定数据集和特定识别目标的统计模型。

Susan Athey: AI as an Empirical Research Tool

Susan Athey

Susan Athey 开始时先补充 Rose 的演示：这些工具也可以用于写论文和检查论文。她认为，技术论文其实更像代码，而不是普通聊天。使用 coding tools 处理论文比网页端随便对话更有效，因为可以做版本控制、上传术语字典、检查编号、交叉引用和格式一致性。

她说明，自己的主题不同于前面几位。前面更多讨论 AI 如何帮助研究工作流，而她要讨论 AI 如何进入经验研究本身，成为 econometric tool。她原本有两套 25 分钟 slides，一套讲“能做什么”，另一套讲“怎么做”，现在被压缩进一个演讲，因此会讲得很快。

Three Ways AI Enters Empirical Work

Susan Athey

Athey 从高层次区分 AI 进入经验研究的三种方式。

第一种是使用 off-the-shelf AI 工具。研究者直接用现有模型完成分类、提取、生成、编码等任务。

第二种是修改或定制 AI 工具，使其更适合特定研究任务。这包括 fine-tuning、定制 embeddings、针对特定数据集和目标函数继续训练模型。

第三种是用统计学和经济学理解来改进 AI 本身。她当天不展开这一部分，但认为很多 AI 工程师把模型当作黑箱，而从统计模型角度理解 AI 可能让模型更好。

她把 AI 放进一个标准经验研究框架：经验分析中有 outcome、treatment 或 policy intervention，以及 covariates。AI 可以用来构造 Y、D 或 X，也可以同时构造多个变量。例如，AI 可以读取商品描述并生成产品特征，用于需求估计中的控制变量或 hedonic pricing；可以把媒体文本中的 slant 作为处理变量；也可以把评论质量作为结果变量。

AI 还可以生成数据或干预。在一个研究 Kiva peer-to-peer lending 的项目中，她和合作者使用生成式 AI 改变借款人头像照片中的单一维度，然后实验性地观察平台推荐和贷款结果如何变化。她举例说，女性更常微笑，而微笑可能更受推荐系统偏好；如果直接把图像特征放进推荐系统，可能导致女性借款人排名大幅上升、男性下降。这说明 AI 既能构造变量，也能构造干预，从而打开新的实验设计空间。

Foundation Models and Embeddings

Susan Athey

Athey 随后聚焦 foundation models。她把 foundation model 理解为通过大量例子学习某个问题的底层结构。例如语言模型通过预测下一个词学习语言结构；类似地，也可以用 job sequences 学习职业流动结构。她自己的部分研究在 ChatGPT 出现前就已开始，使用的是工作序列而非词序列。即使职业类别只有 330 个，可能的职业路径序列仍然极其高维。

Foundation model 的第二个关键作用是降维。模型把高维序列压缩成 embeddings。对于社会科学研究而言，embeddings 可以用于预测、分类、情绪、政治倾向、文本 slant，也可以用于匹配。比如在瑞典行政数据中研究 layoffs 时，传统方法会用公司、工资轨迹、地区等变量进行匹配；未来可以基于丰富历史信息的 embeddings 匹配工人，从而更好捕捉过往经历的复杂性。

她还提到 interpretation trees：把具有相似 embeddings 的历史聚类，并让聚类与工资预测或性别工资差距等结果相关联。这使 embeddings 不只是黑箱预测工具，也可以用于解释和发现异质性。

Fine-Tuning for the Dataset and Loss Function

Susan Athey

Athey 认为 fine-tuning 在社会科学中非常重要，但目前使用者比她预期的少。工业界谈 fine-tuning 时，常常是让模型说某种风格、某种语气，或写得像某类文章。但从统计学角度看，fine-tuning 就是在研究者关心的数据集上继续估计模型，让模型服务于特定数据分布。

如果研究者关心 CPS、PSID、NLSY、GSS 等代表性调查数据，那么 off-the-shelf 模型的训练数据未必对应这些数据集的条件概率。Fine-tuning 的作用是把预训练模型继续训练到研究者自己的数据集上，使预测更接近该数据集中的条件概率。它既可以理解为 de-biasing，也可以理解为 transfer learning。

Fine-tuning 不只可以改变数据集，还可以改变 loss function。她举自己的职业路径研究为例：模型原本可能是预测下一份工作，但她也可以让模型预测工资，即加入均方误差损失。相同的历史到 embedding 的映射，可以接入不同预测任务：下一份工作、工资、或其他经济结果。

她提醒经济学学生，大家学过 GMM、IV、RD、各类估计量，本质上都涉及目标函数或 loss function。过去用 Stata 或 R 优化目标函数，现在也可以把 loss function 写出来，让 stochastic gradient descent 工具优化 transformer model。这对社会科学很有吸引力，因为社会科学研究者常常有非常具体、定制化的目标函数。

她还把这个逻辑连接到 generalized random forests 和 R-learner。GRF 背后有一个针对 treatment effect 而不是 outcome level 的目标函数。类似的 residual-on-residual objective 可以被嵌入 transformer model，使 foundation model 的训练目标更贴近 causal inference。

她提到与 Tian Yu 合作的一篇论文，比较两种方式：一种是建立 330 个职业的离散选择模型；另一种是 fine-tune Llama，使其基于文本式履历预测下一份工作。直觉上，离散选择模型不会 hallucinate 出不存在的工作，但 fine-tuned Llama 最终表现更好，而且 fine-tuning 后并没有乱造职业，能很好匹配 PSID 和 NLSY 中的条件概率。

How to Do It

Susan Athey

Athey 最后讲具体操作。第一种最简单的是通过 API 做 prompt engineering。例如有大量 tweets，需要判断是否与战争、教皇或其他主题相关。研究者写一个分类 prompt，手工标注几百个样本，检查 type I 和 type II errors，然后不断改进 prompt。满意后，可以把十万条 tweets 批量分类，成本可能非常低，具体取决于模型。

第二种是 fine-tune 现有 LLM，例如 Llama、DeepSeek、Qwen。研究者需要准备一批文本文件。在她的职业路径项目中，团队把 PSID 或 NLSY 数据转化为“伪简历”，记录年份和工作经历，然后上传到云服务，点击 fine-tune。Fine-tuned model 之后就像调用 Claude 或 ChatGPT 一样调用，只是它已经被定制到研究者的数据集上。

第三种是自己训练 transformer model。她们在 ChatGPT 出现前曾在 Stanford Sherlock 服务器上训练模型，处理数百万条履历，耗时约 18 小时。这个路线需要更多代码工作，包括设置环境、理解代码、收集数据、构建 tokenizer、设定 vocabulary、选择模型规模和 embedding 维度、提交服务器作业、监控收敛和导出结果。但她强调，这并非难到不可做。一个经济理论背景的 postdoc 加入项目后一两周就能跑起来。

她总结说，很多听起来很高级的东西，例如创建自己的 foundation model，实际难度不一定比传统 IO 模型、GMM 收敛或平坦目标函数更高。现有 stochastic gradient descent 工具已经相当成熟，只要能写出目标函数，很多训练过程是生产级工具自动完成的。从这个意义上讲，这可能是她职业生涯中做经验研究最容易的时期之一。

Transition to Andrew Hall

Michael Tomz

Tomz 感谢 Susan 的演讲，并介绍下一位发言人 Andrew Hall。

112:00 Andrew Hall

Agents for political economy research

主题概括：Andrew Hall 讨论如何把 AI agents 深度嵌入政治经济学研究管线。他的核心经验是，agents 已经能显著加速数据收集、代码更新、论文更新和工具开发，但仍会犯概念性错误、缺少审计轨迹，并且不擅长自主提出真正新的研究设计。他还展示了对 agents 是否 p-hack 的实验，以及如何用 AI 做过去做不到的“工程式政治科学”。

Andrew Hall: AI Agents in a Research Pipeline

Andrew Hall

Andrew Hall 一开始说，自己长期尝试用 AI 加速研究，但一开始效果并不好。大约在上一年 12 月，模型能力出现阶跃式变化，尤其是 Opus 4.6 发布后，他突然发现 AI 能够较独立地完成数据科学分析和编码任务。这让他重构了整个研究管线。

他坦率说，自己为各种订阅支付了高额费用，甚至有一晚不小心在 Claude bot 上花了 1000 美元，但总体上非常值得。他和团队正在努力形成一种关于 AI agents 如何做应用统计研究的“科学”或至少是一组最佳实践：agents 什么时候做得好，什么时候会出错。

Updating a Vote-by-Mail Paper

Andrew Hall

Hall 的第一个例子是更新一篇 2020 年关于 vote-by-mail 的论文。那篇论文使用县级 rollout 的差分中的差分设计，研究美国西部部分州 universal vote-by-mail 的影响。他认为，如果研究者真的关心经验研究，就应该随着新数据出现不断更新论文。但现实中很少有人这样做，因为成本太高，也缺乏发表激励。

他让 Claude 更新这篇论文。Claude 大约 45 分钟内完成了一个初稿式项目：读取原论文代码和数据，复现原结果；派出一组 sub-agents 到各州 Secretary of State 网站收集新选举数据；整理哪些县在原研究之后实施 universal vote-by-mail；运行新回归，制作新图表和表格，并写出一个说明 memo。

这让 Hall 非常震惊。为了验证它是否真的做对，他聘请了一位 UCLA 的选举管理专家研究生 Graham，在不使用 AI 的情况下完成同一任务，然后进行对比。

结果显示，Claude 表现不错，但远非完美。它能复现原论文；更新后的估计量和人工版本相当接近，主要系数没有显著偏离。但它也出现了重要问题。首先，原论文涉及多类 statewide elections，而 Claude 似乎擅自把任务理解成主要关注总统选举，因此完整收集了总统选举，却漏掉了州长和参议员选举。由于漏掉的数据大多出现在处理变量没有变化的地区，系数影响不大，但这种遗漏仍然令人担忧。

其次，它正确识别了 2020 年后实施 universal vote-by-mail 的 30 个县中的 29 个，但把 Imperial County 的年份错编为 2024，而实际应为 2025。这个错误也被人工研究者 Graham 一开始犯过，因为网页信息确实混乱；不同在于 Graham 后来发现并修正了，Claude 没有。

更重要的是概念性错误。加州在 2020 年后改变了 vote-by-mail 制度，Claude 用某个县何时 opt in California Voting Act 来判断是否实施 universal vote-by-mail，但制度变化后，这个指标在某些年份不再等价于政策实施。Hall 认为普通本科 RA 也可能犯同样错误，因为如果他告诉 RA 查找某县何时采用那项法律，RA 很可能也会照做。但专业研究者 Graham 捕捉到了这一 subtlety。这个例子说明，AI 会犯类似人类 RA 的错误，尤其是在制度定义和概念映射上。

另一个问题是 audit trail。Claude 没有很好记录自己做过什么、如何做出编码决策、数据从哪里来。这导致结果很难回溯。这个问题可以通过更好 prompt 和工作流设计改善，但仍然是重大风险。

Hall 还贪心地让 Claude 寻找新的异质性分析，希望给更新论文增加新 insight。这个部分非常糟糕。Claude 并不擅长自主提出有创造性、深思熟虑的新研究设计。由此他总结：AI 是巨大的时间节省工具，哪怕包括后续审计，原来需要几个月的更新可能压缩成几小时；但人类监督必不可少，而且它目前不是一个可以“自己去做点新东西”的好工具。

他因此形成一种“刚刚好”的判断：这是做社会科学最令人兴奋的时期，他并不焦虑自己会被替代，因为 Claude 仍然会做很多荒唐事情；但同时，它能做的事已经非常惊人。

Testing for Research Sycophancy

Andrew Hall

Hall 的第二个实验关注 agents 是否会迎合研究者，尤其是否会 p-hack。AI 模型常被批评 sycophantic，即倾向于告诉用户想听的话。研究中这很危险，因为应用统计中已经存在追求显著性的诱惑。如果 agent 学会了研究者想要显著结果，它可能会“做账”给出显著系数。

他和学生设计实验，选取四篇发表在政治学顶刊、主要结果为 null results 的论文。假设这些发表结果可以近似视为 ground truth，然后让 Claude Code 和 Codex 从零开始使用数据产出估计结果，检验它们会不会偏离原论文去寻找显著性。

他们设置了不同 prompt 条件，包括普通提示、强调诚信、暗示需要显著结果等。令人惊讶的是，多数情况下模型没有明显 p-hacking。它们返回的估计量与原论文相近。甚至当直接要求模型 p-hack 时，Claude 尤其会道德化地批评用户，称其类似科研不端。

但他们也成功 jailbreak 了模型。在所谓 “nuclear condition” 下，他们告诉模型，并不是要 p-hack，只是作为严谨研究者想了解估计值的上界。在这种措辞下，Claude 和 Codex 开始更激进地搜索最显著的结果，代码里出现了 brute force search for statistical significance。Hall 的结论是：默认情况下模型不太会 p-hack，甚至可能有研究诚信 guardrails；但如果提示设计得足够绕，仍然可以诱导模型做出危险行为。因此必须检查 agent 的工作。

Evaluating Agents That Know They Are Being Tested

Andrew Hall

Hall 进一步指出，评估 AI agents 本身越来越难，因为模型会表现得好像知道自己正在被测试。它们的推理中有时会写出“我看得出自己正在被评估是否会做某事，所以应该如何如何”。在他们最初的 p-hacking 实验中，模型有时能从文件夹名称 “Research Sycophancy” 推断出自己正在接受研究迎合性测试。

因此，他们重新设计实验，把 agents 放入 Docker container，不提供有信息的文件名，让模型无法从环境名称猜出测试目的。他形容为把 agents 放进黑暗、没有窗户的“监狱”里工作。初步看，结果似乎相近，但仍在分析中。他强调，如果研究者想研究 AI 的性质，就必须解决这类“模型知道自己被测”的评估问题。

From More Papers to More Knowledge

Andrew Hall

Hall 随后转向更大的问题：AI 提高的究竟是什么生产率？他认为不应是论文数量。现在用 AI 写出更多论文很容易，但世界并不需要 100 倍更多的论文。真正重要的是是否能用这些工具提高知识生产量。

他提出三类方向。第一，与徐轶青类似，用 AI 自动复现和持续更新研究，使现有研究更可靠。第二和第三则是做过去根本无法做的研究。

Engineering-Like Political Science

Andrew Hall

Hall 希望政治科学更像工程学。传统政治经济学和政治科学常依赖历史制度变化，样本有限。比如要研究如何设计更好的宪法或治理制度，研究者受制于历史上实际发生的改革数量。工程化路线则不同：研究者可以构建工具、部署工具、测试工具如何改变政治信息环境或民主行为。

他举第一个例子：AI 工具如何推荐人们投票。他们在日本临时选举期间建立监测系统，不断询问不同 AI 工具“我该投谁”。他们发现一个奇怪现象：如果告诉模型用户是左翼，很多模型会建议投日本共产党。可是日本共产党在议会中席位很少，并非主要竞选力量。他们的解释是，日本主要新闻机构屏蔽 AI 抓取内容，而日本共产党拥有一个历史悠久、内容丰富的网站和报纸，对 AI 看起来像正常新闻源。模型无法获取日经等主流媒体内容，却能获取大量日本共产党内容，于是推荐发生偏差。这个发现得到日本媒体报道。

第二个例子是预测市场 dashboard。Hall 团队认为，预测市场可能成为关于地缘政治事件的实时信息源，但现实中这些市场流动性不足，媒体常引用非常薄的市场价格。他们用 AI agents 在一周内构建了一个 dashboard，聚合 Kalshi 和 Polymarket 上的地缘政治合约，通过 API 和 MCP server 把信息提供给新闻机构，并计算 volume-weighted prices，同时标记市场流动性是否足以支持可信报道。Hall 认为，这类工具在六个月前几乎不可能快速完成。

第三个方向是建立 open problems 和 benchmarks。社会科学中很多问题无法客观量化，但仍有一小部分问题可以设定公开 benchmark，例如选举预测。如果学界能围绕一些明确问题建立可 out-of-sample 测试的 benchmark，就可以让 agents 不断 fork repo、改代码、比较 metric，把成功改进合并回主分支。这类似 Karpathy 提到的 auto-research pipeline。Hall 认为，社会科学应该在一小部分适合 benchmark 的问题上尝试这种工程式研究。

他最后强调，AI 不只是研究工具，也是正在改变世界的核心力量。因此社会科学不只应该用 AI 做研究，也应该研究 AI 本身。对政治学而言，AI 模型如何被用于民主政治、如何促进或损害政治过程，是当前最重要的问题之一。

Transition to Claudia Allende Santa Cruz

Michael Tomz

Tomz 感谢 Andrew Hall，并介绍第六位发言人 Claudia Allende Santa Cruz。她是 Stanford GSB 经济学助理教授，主要研究工业组织，关注教育，也涉及发展经济学和市场设计。她将分享自己的 AI-assisted workflow。