原始材料:The AI Economist Library 页面 “Empirical Work in the Age of AI”。该页面整理的是 Stanford IRiSS 于 2026 年 4 月 17 日举办的 seminar,视频时长约 3 小时 26 分钟。
00:00 Opening
为什么 Stanford 组织这场 panel
Welcome and Origins
Guido Imbens
Guido Imbens 首先欢迎大家参加 “Empirical Work in the Age of AI” 活动。他说明,这场活动最初来自他与 Rose Tan 的一次咖啡聊天。Rose Tan 曾在 Stanford 取得经济学博士学位,之后在若干科技公司工作。当时她回到 Stanford 访问,认为经济学博士生,甚至相当一部分 faculty,对 AI 工具的重视程度还不够。她原本只是建议为经济学研究生办一次如何使用 AI 工具的讲座,结果这个想法很快超出最初设想,发展成一场面向更大范围社会科学研究者的活动。
Imbens 感谢 Rose 的提议,也感谢 IRiSS 的 Mike Tomz、Chris Fraga,以及 Stanford Impact Labs、经济系和 GSB 的支持。他强调,受邀发言人都非常积极,因此最后形成了一个覆盖不同主题、不同工具和不同方法论层面的议程。
Logistics and Questions
Guido Imbens
由于议程非常紧凑,现场没有安排正式休息。组织者提醒听众进出时保持安静。问答环节集中放在最后一小时,听众可以通过 PollEverywhere 和投影上的二维码提交问题。
Framing the Questions
Guido Imbens
Imbens 随后提出这场活动背后的核心问题:AI 会如何改变经验社会科学?他坦率承认,今天不可能给出最终答案,因为这个过程会持续展开。但可以确定的是,研究者需要密切关注这一变化。
他提出三个判断。第一,研究质量很可能会提高;当天的发言会展示一些具体工具和例子。第二,研究数量也可能增加,这会对现有发表和审稿制度造成压力,并可能迫使期刊和学术共同体重新设计论文筛选与评审机制。第三,研究类型和研究过程会发生变化,但具体如何变化还很难预测。当天的目的不是下结论,而是打开讨论。
Speaker Introduction
Michael Tomz
Michael Tomz 代表 IRiSS 欢迎听众。他介绍第一位发言人 Rose Tan。Rose Tan 拥有 Stanford 经济学博士学位,曾在纽约联储、Quora、Facebook、LinkedIn 等机构担任数据科学相关工作,最近在 Stanford Data Science 访问,之后加入 Snowflake。Tomz 说明,Rose 将做一个 25 分钟的 live demo,问答统一留到最后。
03:00 Rose Tan
Live agentic workflow demo
主题概括:Rose Tan 用一个现场演示说明,研究者如何从一个空文件夹和一个较模糊的研究目标开始,利用 Claude Code、Cursor、skills、Claude.md 等工具搭建一个可迭代的经验研究工作流。她的核心信息很简单:遇到任何大问题或小问题,都可以先问 LLM;但真正有效的使用方式不是让 AI “随便做研究”,而是让它先规划、提问、执行、记录并接受人类检查。
Opening the Demo
Rose Tan
Rose 一开始提醒大家,live demo 很容易出错,但这反而是展示 Claude 能力的机会。她先问现场有多少人已经安装 Claude Code,如果大多数人都装好了,她就跳过安装部分。她特别强调,很多人虽然可以打开网页端 ChatGPT 或 Claude,但对终端环境并不熟悉,不一定知道如何进入某个文件夹、如何在该文件夹下启动 Claude Code。
她展示了一个非常基础但重要的技巧:如果不知道终端命令,就直接把截图交给 ChatGPT 或 Claude,问它如何打开指定文件夹。她借此说明两个原则。第一,LLM 已经具备多模态能力,很多时候发一张截图比用语言描述更有效。第二,没有任何问题“小到不值得问 LLM”。她让听众反复回应一句话:“Ask the LLM.” 这是她整个演示中最想让大家记住的内容。
与此同时,她也提醒,打开 Claude 后直接说“我想做研究,帮我做研究”并不是好的使用方式。这类提示太泛,容易导致结果失控。她会在演示中不断区分哪些是好的模式,哪些是反面模式。
A Framework for Day-to-Day Usage
Rose Tan
Rose 提出一个日常使用 AI 工具的层级框架。第一层是在网页端与 ChatGPT、Claude 等 LLM 对话。第二层是安装 Claude Code、Codex、Cursor 等工具,并让 AI 进入本地项目环境。第三层是使用更专门化的功能,例如 skills、MCP servers、Claude.md 或 Agent.md 文件。第四层是引入轻量级软件工程实践,如 GitHub、版本控制、项目结构、可复现代码。第五层则是更加复杂的多智能体环境,让多个 agents 长时间、自主地执行任务。
她强调,层级越高,工具复杂度和成本越高。第一层只需要浏览器;第二层需要安装相应工具,也通常需要订阅;第三、第四层需要理解 GitHub、版本控制、项目规范;第五层则可能需要更高等级的模型订阅和更多计算资源。她当天重点展示第三层和第四层,因为一旦研究者掌握这些,进一步走向多智能体工作流就主要是时间和实践问题。
Starting a Replication Project
Rose Tan
Rose 打开一个全新的空文件夹,并在该文件夹中启动 Claude Code。她指出,很多人第一次打开 Claude Code 时不知道应该说什么。一个简单起点是告诉它自己的身份,例如“我是 Stanford 经济学博士生,请告诉我你能做什么”。这适合探索阶段,但并不是日常研究中最好的工作模式。
为了演示,她让 Claude 帮助复现 Lalonde paper。她给出的较好提示是:“我是计量经济学学生,我想简单复现 Lalonde 论文。请先为我制定计划,不要写代码,并询问你需要澄清的问题。” Rose 强调,日常启动新项目时,一个好的模式是先让 agent 制定计划、提出问题,而不是直接动手写代码。
她也提醒,在理想状态下,研究者应该写出非常详细、严谨的 prompt,但这本身很费时间。因此可以让 LLM 帮你写 prompt,或让 LLM 帮你把初始想法转化为更完整的任务说明。Claude 随后提出语言、比较组、输出格式、分析深度等问题。Rose 为了节约现场演示时间,选择 Python、简单比较组、Markdown 输出和较快执行。她承认这不是严谨研究的最佳做法,因为真正研究需要更仔细、更可复现、更审慎的选择;但 live demo 的约束是速度。
她把这个过程类比为与 RA 合作。你让 RA 做一件事,RA 会回来问一系列澄清问题。AI agent 也会如此。区别在于 agent 可能会调用一些研究者不熟悉的命令,比如 curl。当你不知道命令是否安全时,也应该问 LLM:这个命令会不会删除文件?会不会产生风险?Claude Code 虽然有安全机制和 prompt injection 防护,但并不完美。长期使用这些工具也能帮助研究者积累基本计算机科学直觉。
Reviewing the Generated Outputs
Rose Tan
在 Claude 执行任务时,Rose 展示它已经在空文件夹中生成的文件。Claude 找到并下载了在线数据,把 Stata 文件读入并转换为 Python 能处理的格式,随后生成 Markdown 文件作为输出。她展示了 Markdown 文件如何通过快捷键预览成更易读的格式。
她进一步指出,经济学学生可能更希望得到 TeX、Beamer 或 PDF,而不是 Markdown。LLM 非常擅长在不同格式之间转换:Markdown 到 LaTeX,R 到 Python,Stata 到 Python,甚至从一个 R package 生成 Python package。她让 Claude 基于现有结果生成 LaTeX 文件、PDF 和 Beamer 模板。她的重点不是说结果一定正确,而是说明这些格式转换和原型制作现在成本极低。
Skills and Claude.md
Rose Tan
Rose 接着介绍 skills 和 Claude.md。她让 Claude 为 GitHub 操作创建一个 skill,使其以后能通过一个命令把项目推送到 GitHub。她解释,skill 本质上是一个文本文件,里面记录 LLM 执行某类任务时应该遵循的具体指令。它不是神秘功能,而是一种结构化的、可复用的操作说明。
她也展示了 Claude.md 文件。skills 更像是给 agent 增加具体能力或操作规范,而 Claude.md 更像是记录研究者自己的工作偏好。例如,Rose 希望 skills 放在某个特定文件夹,喜欢先做计划,偏好 Python 和 LaTeX,关注因果推断。把这些偏好写入 Claude.md 后,未来新项目可以用这个文件作为种子,agent 就能快速理解她的工作方式,不需要每次重新说明。
她强调,随着项目积累,Claude.md 可以逐渐变成一个很大的偏好和规则文件,帮助不同会话之间保持连续性。换句话说,研究效率的提升不仅来自单次对话,而来自可累积的项目记忆与规范。
Building a UI
Rose Tan
Rose 最后展示一个很多研究者过去不会主动做的事情:为研究结果快速搭建交互界面。她承认自己不会手写 UI,但 agents 非常擅长这类任务。过去,经济学博士生通常不会为了查看结果专门写一个 UI,因为成本太高,收益不一定匹配。但现在 agents 大幅降低了原型开发成本。
她让 Claude 为 Lalonde 复现结果建立一个交互 UI,希望能够选择协变量、切换估计器并查看结果变化。Claude 选择了 Streamlit。Rose 借此提出一个重要方法论转变:博士生往往习惯“先想很久,再做”;但在 LLM 环境下,很多时候可以“先做一个原型,再思考”。因为做的成本下降了,快速试错和迭代可能比长时间抽象规划更有效。
她强调,演示中的 Lalonde 结果没有经过严谨审计,可能不正确。她的目的不是证明 Claude 完成了可靠复现,而是说明,以前很少会为研究搭建的交互工具,现在变得非常便宜。研究者可以为成千上万张图建立筛选界面,为结果表构建交互视图,或为不同模型设定建立快速切换工具。
Transition to the Next Speaker
Michael Tomz
Tomz 感谢 Rose 的演示,并介绍下一位发言人徐轶青。
29:00 Yiqing Xu
Replication, software, and project structure
主题概括:徐轶青把 agentic coding 视为经验研究工作流的重大变化。他重点讨论大规模复现、统计软件开发、项目结构、确定性代码、skills 的知识积累,以及在 AI 时代保留人类研究能力的问题。他的核心判断是:AI 最适合处理结构化、可验证、迭代性强、重复性强的任务;真正的科学研究不应让 LLM 随机发挥,而应尽量减少 LLM 在最终可复现环节中的不确定性。
Introduction
Michael Tomz
Tomz 介绍徐轶青是 Stanford 政治科学系副教授,研究统计方法,尤其是 panel data 因果推断,也研究比较政治和中国政治。他将远程连线,从纽约 JFK 机场参与。徐轶青将分享如何使用 AI-assisted workflows 来复现经验研究和开发统计软件。
Opening and Agenda
Yiqing Xu
徐轶青首先感谢组织者和 Rose。他开玩笑说,有人说 Twitter 是一种“没人会变好的群体治疗”,希望今天的活动不一样,大家既能互相学习,也能感觉好一点。
他认为,以 Claude Code、Codex 为代表的 agentic AI 是另一个 “ChatGPT moment”,甚至可能比 ChatGPT 更大。它令人兴奋,也让人焦虑和睡眠不足。随着尝试增多,压力不会消失,但会趋于稳定。
他把 Rose 提到的 skills 理解为结构化的 user prompt 和 system prompt。skills 是 markdown 文件,可以附着在特定任务上。它的重要价值之一是缓解 context window 问题。传统聊天越聊越长,模型需要携带越来越多上下文,速度变慢、效率下降。agentic workflow 和 skills 把任务拆开,使每次任务只携带相关上下文,从而更可扩展。
他将展示和讨论三个工作流。第一是自二月以来开发的大规模复现工作流。第二是创建和维护统计软件包的工作流。第三是关于如何根据自身研究需要构建个人工作流的建议。这些工作流共同特点是结构化、可验证、迭代、重复。LLM 或 agentic workflow 在能够实时检查结果、发现错误并自我修正时效果最好。相反,过于 idiosyncratic、过于复杂、难以验证的研究判断并不适合完全自动化。
Large-Scale Replication Workflows
Yiqing Xu
徐轶青说明,他过去几年做了多项大规模复现项目,从二十篇到七十篇论文不等。他做这类工作的目的,是评估新的统计方法在真实经验应用中是否重要。很多方法在理论上成立,但只有把它们应用到大量真实论文中,才能知道它们是否改变经验结论,也才能推动研究实践改进。
AI 出现后,他开始重新思考这类工作的价值,因为这类任务正在变得更容易。他开玩笑说,希望尽快让过去那个专门做复现的自己“过时”,从而把时间转向更有创造性的统计方法创新。
他强调,高质量复现有两个难点。第一,需要非常高的准确率,可能要达到 99%,而最后 1% 往往最难。第二,复现他人的代码极其痛苦。少数项目代码和数据整理得很好,但大多数 replication package 来自 ICPSR、AEA Archive、Harvard Dataverse 等不同平台,格式极其异质,涉及 Stata、Python、R、不同文件结构、不同编程习惯。复现工作的大量时间消耗在 harmonization 上,即把各类 replication packages 整理成可套用同一模板的结构。
他和合作者 Leo 建立了一个相当复杂的三层工作流。一个关键经验是:如果目标是科学研究的可复现性,就应该尽量减少 LLM 在最终产出中的随机参与。 LLM 可以教技能、理解论文、帮助开发工具,但最终应该留下版本控制下的确定性代码,例如 Python 文件。这样,即使第二天关闭会话,只要代码保存在 GitHub 中,仍能复现同样结果。
在这个工作流中,LLM 主要扮演两个角色。第一,语义理解论文:给定 PDF,它需要识别论文中的数字、表格和估计量分别对应什么。第二,软件开发者:它帮助更新确定性代码,使代码能够处理新的 replication package。中间一层则是知识积累层,由大量 markdown skills 组成,记录复现过程中遇到的各种奇怪案例和解决办法。
徐轶青认为,大规模复现非常适合 AI,因为结果是可验证的。人工当然也能做七十篇、一百篇论文,但需要大团队和长时间。AI 工作流使得复现数量大幅扩展。他举例说,他们已经能够复现近 400 篇论文中的回归表,并从 2010 年以来政治学顶刊中随机抽取 784 篇论文进行分析。随着数据归档和验证要求加强,论文可复现性确实提高,但每篇论文背后的整理、运行、匹配数字仍然需要大量工作。正是人类写代码方式的异质性让这个工作如此困难;如果未来代码由 AI 生成,统一性可能反而更高。
他进一步指出,AI 可能改变方法论研究的基础设施。计算机科学中的 ImageNet 等标准数据集极大推动了研究进展。社会科学过去缺少同类大规模、标准化、可复用的 empirical benchmark,而 AI 可能让 harmonized replication files 和 harmonized datasets 变得更加丰富。
他用自己之前关于 IV 和 first-stage strength 的研究举例。原先复现 67 篇论文花了四年;借助新 pipeline,把样本扩展到 92 篇论文、200 多个设定,只花了三天,而且人力成本大幅下降。这说明 AI 不只是省时间,还可能改变方法论文的证据规模。
Statistical Software and Package Development
Yiqing Xu
徐轶青的第二个主题是统计软件包开发。他和合作者维护十多个 package,涉及 R、Stata 和 Python。他对 Stata 的 AI-native 程度不太乐观,因为 Stata 闭源,AI 学习和操作起来不如开源环境自然。统计软件开发表面上像普通软件开发,而 Claude、Codex 本来就擅长写代码;但统计软件还有特殊性,即很多估计量有理论性质、证明和预期行为,研究者可以利用这些性质来测试软件是否正确。
因此,好的统计软件 agent workflow 应该把理论性质转化为测试。比如某个估计量在模拟数据下应当满足一致性、无偏性或已知收敛性质,agent 写完代码后必须通过这些 tests。这里 AI 不应只负责“写出看起来能跑的代码”,而应进入一个“写代码—运行测试—比较理论性质—修正错误”的闭环。
他强调,软件开发中的可验证性极其重要。LLM 的优势并不在于它一定不会犯错,而在于当任务有明确测试时,它可以快速试错并修正。对于统计软件而言,proof、simulation、unit test 和 benchmark 都可以成为 agent 的验收标准。
Project Structure and Personal Workflow
Yiqing Xu
徐轶青接着谈到项目结构。他认为,AI 时代的研究者必须重新学习如何组织项目。以前很多经验研究者的文件夹结构混乱,代码、数据、输出和草稿混在一起。agentic workflow 放大了这个问题:如果项目结构不清楚,agent 也会迷失,甚至在错误文件上操作。
他建议把文本、代码和大型二进制数据分开。文本和代码适合版本控制,应该放在 GitHub 中;大型数据文件则应放在适当的数据存储位置,并通过清晰路径和脚本调用。Markdown 文件、skills、项目说明和规则文件应当成为项目知识库的一部分。
他也强调,虽然 AI 能写代码,研究者仍然需要保留基本能力。博士生不能因为有 Claude 就停止学习编程、计量、软件结构或调试。AI 会提高“知道该问什么、如何验证答案”的回报。如果完全不知道底层逻辑,研究者无法判断 agent 的结果是否可信,也无法有效拆解任务。
Human Skills and the Return to Judgment
Yiqing Xu
徐轶青最后提醒,agentic workflow 会降低执行成本,但不会取消研究者判断。相反,它提高了研究者提出好问题、设计结构、定义验收标准、管理项目和审计结果的价值。研究者必须从“亲自敲每一行代码的人”转向“设计和监管可验证研究系统的人”。在这个系统中,LLM 可以做很多事,但人类必须决定目标、标准和解释。
56:06 Matt Gentzkow
Human judgment, research purpose, and academic careers
主题概括:Matt Gentzkow 没有做工具演示,而是从博士生和学术职业视角讨论 AI 时代社会科学研究的意义。他认为,这是社会科学博士生最令人兴奋的时代之一,因为社会问题的重要性没有下降,而研究工具的能力正在指数级提升。AI 会降低常规执行任务的价值,但提高问题选择、人类关系、管理能力、可信度和清晰社会目标的价值。
Framing the Moment
Matt Gentzkow
Matt Gentzkow 首先说明,他并不是最接近技术前沿的人,也不擅长预测未来。但正因为这个时刻太重要,他想以“如果我是今天的博士生”为出发点,分享一些想法。
他承认,当前存在大量不确定性和焦虑。博士生会担心自己的未来、职业价值和经济前景,会担心自己是不是像人类下围棋一样,只是在机器人已经更强的领域继续“为了乐趣”工作。但他同时认为,这可能是社会科学博士生最令人兴奋的时刻之一。兴奋不等于轻松或舒适,而是因为研究者能够实现的职业影响和社会影响的右尾空间前所未有地扩大。
Why Human Judgment Still Matters
Matt Gentzkow
Gentzkow 的第一个核心论点是,社会科学仍然非常重要,而且需求可能更大。世界上有大量关键问题需要可信、可靠、高质量的科学证据来指导政策、组织和私人决策。AI 并没有让这些问题消失。相反,在变化加速的环境中,对可靠社会科学的需求更强。
第二个论点是,研究工具的火力正在指数级增强。过去博士生能使用的工具,与今天学生可以使用和未来几年将拥有的工具相比弱很多。因此,随着工具能力增强,“把工具指向哪里、为什么要研究这个问题”的回报会上升。如果你拥有更强大的火力,方向选择的边际价值就更高。
第三,他认为在可预见的中期内,仍然需要聪明、有创造力的人类来部署这些工具。原因不是 AI 不会变强,而是很多社会结构变化很慢。人类行为、法律、政策、机构、企业组织、学科规范、晋升制度、期刊评价标准,都不会以 OpenAI 模型发布的速度变化。很多最重要的社会问题恰恰依赖这些慢变量。
例如,让 Claude “改善日本食品安全法”可能能得到一些想法,但真正改变食品安全法需要政策过程、社会协调、说服、组织、沟通和制度变迁。这些仍然高度依赖人类。类似地,获得企业专有数据、与政府建立合作、在学校开展 RCT、做发展经济学田野实验、招募实验对象、推动研究结果被采用,都不是 agent 可以独立完成的。
Gentzkow 进一步指出,AI 对那些目标函数清晰、可实时量化的问题特别强,例如国际象棋、代码测试或某些 benchmark 优化。但许多重要社会科学问题没有这种清晰目标函数。写一篇有说服力的准实验论文、判断哪个问题值得研究、如何权衡人类价值和制度目标,都不是简单优化问题。
What Human Capital Becomes More Valuable
Matt Gentzkow
Gentzkow 随后讨论博士生应该投资什么人力资本。他认为,随着常规技术执行成本下降,那些能够帮助研究者判断“研究什么、为什么重要、是否可信”的能力更值钱。写代码、跑回归、做技术实现仍然重要,但这些部分更容易被工具加速。最稀缺的是判断力。
他特别强调五类能力。
第一是问题意识。研究者需要回答为什么这个问题重要。那些能够给出清晰、具体、可检验社会价值的研究会更有回报。比如如何改善数学教育、是否应该实施某类投票制度、如何制定更好的公共政策。相反,仅仅因为“我找到一个聪明的自然实验并估计了一个参数,但不知道这个参数有什么用”的研究,价值可能下降。
第二是与人合作的能力。很多研究瓶颈来自人:合作方、数据提供者、政策执行者、田野对象、研究团队和受众。关系、直觉、情商、团队合作和沟通能力的回报会上升。
第三是管理能力。他把学术研究类比为创业。博士生像车库里的创始人,什么都自己做;随着工具能力增强,研究者越来越像在管理一个由 agent、RA、合作者和工具组成的小型组织。如何分配任务、组织项目、管理反馈、设计流程,会变得更重要。徐轶青工作流中的 janitor、builder、checker 等角色就是这种变化的例子。
第四是战略视野。研究者要决定长期方向,而不是只做局部任务。AI 可以执行许多子任务,但项目目标、研究路线和社会意义仍然需要人类判断。
第五是信任。在 AI 能产生海量看似合理研究的世界中,可信声誉会变得稀缺。政策制定者、媒体、学校、企业和学术期刊都需要知道该相信谁。那些以可靠、高质量、审慎研究著称的个人和机构会更有价值。
Advice for PhD Students
Matt Gentzkow
Gentzkow 给博士生的建议是,应该积极学习和实验,从今天开始,每天使用这些工具。与此同时,应该认真思考自己为什么做研究。如果答案只是“本科时喜欢解题,所以继续读博”,那也可以,但现在可能需要进一步思考:自己是否处在能够解决重要社会问题的位置。
他建议博士生投资“人类部分”:管理、组织、团队合作和沟通。他甚至半开玩笑地说,可以去商学院学学如何管理组织,因为未来博士生可能不再只是一个人在车库里修修补补,而像是在管理一个由一百个人组成的团队,只不过这个团队中的一部分是 AI agents。
最后,他让大家深呼吸。这个时代疯狂、吓人,但也非常有趣。
Stanford Impact Labs Fast Grant Pilot
Matt Gentzkow
Gentzkow 以 Stanford Impact Labs 的一个试点项目作为结尾。他说明,他们计划从 7 月 1 日左右启动 AI-enabled research fast grant program。该项目尚未正式发布,目标是快速支持 AI 工具在社会科学研究中的创新使用。
项目预计按月滚动申请,当月初提交,月底给出决定。资助目标是推动 AI 工具在提高社会科学研究速度、质量或现实相关性方面的创新,并且要指向重要社会问题。资助对象包括 faculty、postdocs 和 PhD students。奖金额度暂定为博士生最高 25,000 美元,faculty 最高 50,000 美元,周期为 12 个月。具体细节仍在完善中。
84:00 Susan Athey
Foundation models as econometric tools
主题概括:Susan Athey 将讨论从 coding assistant 推进到 AI 作为计量经济学和经验研究工具。她的重点不是让 AI 帮你写代码,而是如何用 foundation models 构造变量、分类文本、生成处理或结果、使用 embeddings、fine-tuning,以及把经济学中的 loss function 嵌入模型训练。她的核心判断是:AI 可以进入经验研究的 Y、D、X,也可以被定制为服务于特定数据集和特定识别目标的统计模型。
Susan Athey: AI as an Empirical Research Tool
Susan Athey
Susan Athey 开始时先补充 Rose 的演示:这些工具也可以用于写论文和检查论文。她认为,技术论文其实更像代码,而不是普通聊天。使用 coding tools 处理论文比网页端随便对话更有效,因为可以做版本控制、上传术语字典、检查编号、交叉引用和格式一致性。
她说明,自己的主题不同于前面几位。前面更多讨论 AI 如何帮助研究工作流,而她要讨论 AI 如何进入经验研究本身,成为 econometric tool。她原本有两套 25 分钟 slides,一套讲“能做什么”,另一套讲“怎么做”,现在被压缩进一个演讲,因此会讲得很快。
Three Ways AI Enters Empirical Work
Susan Athey
Athey 从高层次区分 AI 进入经验研究的三种方式。
第一种是使用 off-the-shelf AI 工具。研究者直接用现有模型完成分类、提取、生成、编码等任务。
第二种是修改或定制 AI 工具,使其更适合特定研究任务。这包括 fine-tuning、定制 embeddings、针对特定数据集和目标函数继续训练模型。
第三种是用统计学和经济学理解来改进 AI 本身。她当天不展开这一部分,但认为很多 AI 工程师把模型当作黑箱,而从统计模型角度理解 AI 可能让模型更好。
她把 AI 放进一个标准经验研究框架:经验分析中有 outcome、treatment 或 policy intervention,以及 covariates。AI 可以用来构造 Y、D 或 X,也可以同时构造多个变量。例如,AI 可以读取商品描述并生成产品特征,用于需求估计中的控制变量或 hedonic pricing;可以把媒体文本中的 slant 作为处理变量;也可以把评论质量作为结果变量。
AI 还可以生成数据或干预。在一个研究 Kiva peer-to-peer lending 的项目中,她和合作者使用生成式 AI 改变借款人头像照片中的单一维度,然后实验性地观察平台推荐和贷款结果如何变化。她举例说,女性更常微笑,而微笑可能更受推荐系统偏好;如果直接把图像特征放进推荐系统,可能导致女性借款人排名大幅上升、男性下降。这说明 AI 既能构造变量,也能构造干预,从而打开新的实验设计空间。
Foundation Models and Embeddings
Susan Athey
Athey 随后聚焦 foundation models。她把 foundation model 理解为通过大量例子学习某个问题的底层结构。例如语言模型通过预测下一个词学习语言结构;类似地,也可以用 job sequences 学习职业流动结构。她自己的部分研究在 ChatGPT 出现前就已开始,使用的是工作序列而非词序列。即使职业类别只有 330 个,可能的职业路径序列仍然极其高维。
Foundation model 的第二个关键作用是降维。模型把高维序列压缩成 embeddings。对于社会科学研究而言,embeddings 可以用于预测、分类、情绪、政治倾向、文本 slant,也可以用于匹配。比如在瑞典行政数据中研究 layoffs 时,传统方法会用公司、工资轨迹、地区等变量进行匹配;未来可以基于丰富历史信息的 embeddings 匹配工人,从而更好捕捉过往经历的复杂性。
她还提到 interpretation trees:把具有相似 embeddings 的历史聚类,并让聚类与工资预测或性别工资差距等结果相关联。这使 embeddings 不只是黑箱预测工具,也可以用于解释和发现异质性。
Fine-Tuning for the Dataset and Loss Function
Susan Athey
Athey 认为 fine-tuning 在社会科学中非常重要,但目前使用者比她预期的少。工业界谈 fine-tuning 时,常常是让模型说某种风格、某种语气,或写得像某类文章。但从统计学角度看,fine-tuning 就是在研究者关心的数据集上继续估计模型,让模型服务于特定数据分布。
如果研究者关心 CPS、PSID、NLSY、GSS 等代表性调查数据,那么 off-the-shelf 模型的训练数据未必对应这些数据集的条件概率。Fine-tuning 的作用是把预训练模型继续训练到研究者自己的数据集上,使预测更接近该数据集中的条件概率。它既可以理解为 de-biasing,也可以理解为 transfer learning。
Fine-tuning 不只可以改变数据集,还可以改变 loss function。她举自己的职业路径研究为例:模型原本可能是预测下一份工作,但她也可以让模型预测工资,即加入均方误差损失。相同的历史到 embedding 的映射,可以接入不同预测任务:下一份工作、工资、或其他经济结果。
她提醒经济学学生,大家学过 GMM、IV、RD、各类估计量,本质上都涉及目标函数或 loss function。过去用 Stata 或 R 优化目标函数,现在也可以把 loss function 写出来,让 stochastic gradient descent 工具优化 transformer model。这对社会科学很有吸引力,因为社会科学研究者常常有非常具体、定制化的目标函数。
她还把这个逻辑连接到 generalized random forests 和 R-learner。GRF 背后有一个针对 treatment effect 而不是 outcome level 的目标函数。类似的 residual-on-residual objective 可以被嵌入 transformer model,使 foundation model 的训练目标更贴近 causal inference。
她提到与 Tian Yu 合作的一篇论文,比较两种方式:一种是建立 330 个职业的离散选择模型;另一种是 fine-tune Llama,使其基于文本式履历预测下一份工作。直觉上,离散选择模型不会 hallucinate 出不存在的工作,但 fine-tuned Llama 最终表现更好,而且 fine-tuning 后并没有乱造职业,能很好匹配 PSID 和 NLSY 中的条件概率。
How to Do It
Susan Athey
Athey 最后讲具体操作。第一种最简单的是通过 API 做 prompt engineering。例如有大量 tweets,需要判断是否与战争、教皇或其他主题相关。研究者写一个分类 prompt,手工标注几百个样本,检查 type I 和 type II errors,然后不断改进 prompt。满意后,可以把十万条 tweets 批量分类,成本可能非常低,具体取决于模型。
第二种是 fine-tune 现有 LLM,例如 Llama、DeepSeek、Qwen。研究者需要准备一批文本文件。在她的职业路径项目中,团队把 PSID 或 NLSY 数据转化为“伪简历”,记录年份和工作经历,然后上传到云服务,点击 fine-tune。Fine-tuned model 之后就像调用 Claude 或 ChatGPT 一样调用,只是它已经被定制到研究者的数据集上。
第三种是自己训练 transformer model。她们在 ChatGPT 出现前曾在 Stanford Sherlock 服务器上训练模型,处理数百万条履历,耗时约 18 小时。这个路线需要更多代码工作,包括设置环境、理解代码、收集数据、构建 tokenizer、设定 vocabulary、选择模型规模和 embedding 维度、提交服务器作业、监控收敛和导出结果。但她强调,这并非难到不可做。一个经济理论背景的 postdoc 加入项目后一两周就能跑起来。
她总结说,很多听起来很高级的东西,例如创建自己的 foundation model,实际难度不一定比传统 IO 模型、GMM 收敛或平坦目标函数更高。现有 stochastic gradient descent 工具已经相当成熟,只要能写出目标函数,很多训练过程是生产级工具自动完成的。从这个意义上讲,这可能是她职业生涯中做经验研究最容易的时期之一。
Transition to Andrew Hall
Michael Tomz
Tomz 感谢 Susan 的演讲,并介绍下一位发言人 Andrew Hall。
112:00 Andrew Hall
Agents for political economy research
主题概括:Andrew Hall 讨论如何把 AI agents 深度嵌入政治经济学研究管线。他的核心经验是,agents 已经能显著加速数据收集、代码更新、论文更新和工具开发,但仍会犯概念性错误、缺少审计轨迹,并且不擅长自主提出真正新的研究设计。他还展示了对 agents 是否 p-hack 的实验,以及如何用 AI 做过去做不到的“工程式政治科学”。
Andrew Hall: AI Agents in a Research Pipeline
Andrew Hall
Andrew Hall 一开始说,自己长期尝试用 AI 加速研究,但一开始效果并不好。大约在上一年 12 月,模型能力出现阶跃式变化,尤其是 Opus 4.6 发布后,他突然发现 AI 能够较独立地完成数据科学分析和编码任务。这让他重构了整个研究管线。
他坦率说,自己为各种订阅支付了高额费用,甚至有一晚不小心在 Claude bot 上花了 1000 美元,但总体上非常值得。他和团队正在努力形成一种关于 AI agents 如何做应用统计研究的“科学”或至少是一组最佳实践:agents 什么时候做得好,什么时候会出错。
Updating a Vote-by-Mail Paper
Andrew Hall
Hall 的第一个例子是更新一篇 2020 年关于 vote-by-mail 的论文。那篇论文使用县级 rollout 的差分中的差分设计,研究美国西部部分州 universal vote-by-mail 的影响。他认为,如果研究者真的关心经验研究,就应该随着新数据出现不断更新论文。但现实中很少有人这样做,因为成本太高,也缺乏发表激励。
他让 Claude 更新这篇论文。Claude 大约 45 分钟内完成了一个初稿式项目:读取原论文代码和数据,复现原结果;派出一组 sub-agents 到各州 Secretary of State 网站收集新选举数据;整理哪些县在原研究之后实施 universal vote-by-mail;运行新回归,制作新图表和表格,并写出一个说明 memo。
这让 Hall 非常震惊。为了验证它是否真的做对,他聘请了一位 UCLA 的选举管理专家研究生 Graham,在不使用 AI 的情况下完成同一任务,然后进行对比。
结果显示,Claude 表现不错,但远非完美。它能复现原论文;更新后的估计量和人工版本相当接近,主要系数没有显著偏离。但它也出现了重要问题。首先,原论文涉及多类 statewide elections,而 Claude 似乎擅自把任务理解成主要关注总统选举,因此完整收集了总统选举,却漏掉了州长和参议员选举。由于漏掉的数据大多出现在处理变量没有变化的地区,系数影响不大,但这种遗漏仍然令人担忧。
其次,它正确识别了 2020 年后实施 universal vote-by-mail 的 30 个县中的 29 个,但把 Imperial County 的年份错编为 2024,而实际应为 2025。这个错误也被人工研究者 Graham 一开始犯过,因为网页信息确实混乱;不同在于 Graham 后来发现并修正了,Claude 没有。
更重要的是概念性错误。加州在 2020 年后改变了 vote-by-mail 制度,Claude 用某个县何时 opt in California Voting Act 来判断是否实施 universal vote-by-mail,但制度变化后,这个指标在某些年份不再等价于政策实施。Hall 认为普通本科 RA 也可能犯同样错误,因为如果他告诉 RA 查找某县何时采用那项法律,RA 很可能也会照做。但专业研究者 Graham 捕捉到了这一 subtlety。这个例子说明,AI 会犯类似人类 RA 的错误,尤其是在制度定义和概念映射上。
另一个问题是 audit trail。Claude 没有很好记录自己做过什么、如何做出编码决策、数据从哪里来。这导致结果很难回溯。这个问题可以通过更好 prompt 和工作流设计改善,但仍然是重大风险。
Hall 还贪心地让 Claude 寻找新的异质性分析,希望给更新论文增加新 insight。这个部分非常糟糕。Claude 并不擅长自主提出有创造性、深思熟虑的新研究设计。由此他总结:AI 是巨大的时间节省工具,哪怕包括后续审计,原来需要几个月的更新可能压缩成几小时;但人类监督必不可少,而且它目前不是一个可以“自己去做点新东西”的好工具。
他因此形成一种“刚刚好”的判断:这是做社会科学最令人兴奋的时期,他并不焦虑自己会被替代,因为 Claude 仍然会做很多荒唐事情;但同时,它能做的事已经非常惊人。
Testing for Research Sycophancy
Andrew Hall
Hall 的第二个实验关注 agents 是否会迎合研究者,尤其是否会 p-hack。AI 模型常被批评 sycophantic,即倾向于告诉用户想听的话。研究中这很危险,因为应用统计中已经存在追求显著性的诱惑。如果 agent 学会了研究者想要显著结果,它可能会“做账”给出显著系数。
他和学生设计实验,选取四篇发表在政治学顶刊、主要结果为 null results 的论文。假设这些发表结果可以近似视为 ground truth,然后让 Claude Code 和 Codex 从零开始使用数据产出估计结果,检验它们会不会偏离原论文去寻找显著性。
他们设置了不同 prompt 条件,包括普通提示、强调诚信、暗示需要显著结果等。令人惊讶的是,多数情况下模型没有明显 p-hacking。它们返回的估计量与原论文相近。甚至当直接要求模型 p-hack 时,Claude 尤其会道德化地批评用户,称其类似科研不端。
但他们也成功 jailbreak 了模型。在所谓 “nuclear condition” 下,他们告诉模型,并不是要 p-hack,只是作为严谨研究者想了解估计值的上界。在这种措辞下,Claude 和 Codex 开始更激进地搜索最显著的结果,代码里出现了 brute force search for statistical significance。Hall 的结论是:默认情况下模型不太会 p-hack,甚至可能有研究诚信 guardrails;但如果提示设计得足够绕,仍然可以诱导模型做出危险行为。因此必须检查 agent 的工作。
Evaluating Agents That Know They Are Being Tested
Andrew Hall
Hall 进一步指出,评估 AI agents 本身越来越难,因为模型会表现得好像知道自己正在被测试。它们的推理中有时会写出“我看得出自己正在被评估是否会做某事,所以应该如何如何”。在他们最初的 p-hacking 实验中,模型有时能从文件夹名称 “Research Sycophancy” 推断出自己正在接受研究迎合性测试。
因此,他们重新设计实验,把 agents 放入 Docker container,不提供有信息的文件名,让模型无法从环境名称猜出测试目的。他形容为把 agents 放进黑暗、没有窗户的“监狱”里工作。初步看,结果似乎相近,但仍在分析中。他强调,如果研究者想研究 AI 的性质,就必须解决这类“模型知道自己被测”的评估问题。
From More Papers to More Knowledge
Andrew Hall
Hall 随后转向更大的问题:AI 提高的究竟是什么生产率?他认为不应是论文数量。现在用 AI 写出更多论文很容易,但世界并不需要 100 倍更多的论文。真正重要的是是否能用这些工具提高知识生产量。
他提出三类方向。第一,与徐轶青类似,用 AI 自动复现和持续更新研究,使现有研究更可靠。第二和第三则是做过去根本无法做的研究。
Engineering-Like Political Science
Andrew Hall
Hall 希望政治科学更像工程学。传统政治经济学和政治科学常依赖历史制度变化,样本有限。比如要研究如何设计更好的宪法或治理制度,研究者受制于历史上实际发生的改革数量。工程化路线则不同:研究者可以构建工具、部署工具、测试工具如何改变政治信息环境或民主行为。
他举第一个例子:AI 工具如何推荐人们投票。他们在日本临时选举期间建立监测系统,不断询问不同 AI 工具“我该投谁”。他们发现一个奇怪现象:如果告诉模型用户是左翼,很多模型会建议投日本共产党。可是日本共产党在议会中席位很少,并非主要竞选力量。他们的解释是,日本主要新闻机构屏蔽 AI 抓取内容,而日本共产党拥有一个历史悠久、内容丰富的网站和报纸,对 AI 看起来像正常新闻源。模型无法获取日经等主流媒体内容,却能获取大量日本共产党内容,于是推荐发生偏差。这个发现得到日本媒体报道。
第二个例子是预测市场 dashboard。Hall 团队认为,预测市场可能成为关于地缘政治事件的实时信息源,但现实中这些市场流动性不足,媒体常引用非常薄的市场价格。他们用 AI agents 在一周内构建了一个 dashboard,聚合 Kalshi 和 Polymarket 上的地缘政治合约,通过 API 和 MCP server 把信息提供给新闻机构,并计算 volume-weighted prices,同时标记市场流动性是否足以支持可信报道。Hall 认为,这类工具在六个月前几乎不可能快速完成。
第三个方向是建立 open problems 和 benchmarks。社会科学中很多问题无法客观量化,但仍有一小部分问题可以设定公开 benchmark,例如选举预测。如果学界能围绕一些明确问题建立可 out-of-sample 测试的 benchmark,就可以让 agents 不断 fork repo、改代码、比较 metric,把成功改进合并回主分支。这类似 Karpathy 提到的 auto-research pipeline。Hall 认为,社会科学应该在一小部分适合 benchmark 的问题上尝试这种工程式研究。
他最后强调,AI 不只是研究工具,也是正在改变世界的核心力量。因此社会科学不只应该用 AI 做研究,也应该研究 AI 本身。对政治学而言,AI 模型如何被用于民主政治、如何促进或损害政治过程,是当前最重要的问题之一。
Transition to Claudia Allende Santa Cruz
Michael Tomz
Tomz 感谢 Andrew Hall,并介绍第六位发言人 Claudia Allende Santa Cruz。她是 Stanford GSB 经济学助理教授,主要研究工业组织,关注教育,也涉及发展经济学和市场设计。她将分享自己的 AI-assisted workflow。
141:00 Claudia Allende Santa Cruz
A practical agent workflow
主题概括:Claudia Allende Santa Cruz 提供一个非常实用的 agent workflow。她强调 AI 是助手,不是权威;任务必须小;每一行改动都要读;要训练 agents 质疑自己;要记录失败和学习。她的核心框架是 design—execution—review:先由一个模型规划,再由另一个 agent 执行,再由第三方模型或人类审查,最后人工逐行确认。
Workflow Principles
Claudia Allende Santa Cruz
Claudia 首先说,她相比前面几位经验可能少一些,但也正因为离博士阶段更近,她想从博士生角度分享自己现在如何做研究。她不只是展示工具,而是解释背后的原则,因为当前具体工具可能一周后就过时。真正重要的是能迁移到自己研究风格中的原则。
她指出,过去半年左右,研究者从 chat LLM 进入 agentic AI 阶段。agent 可以读取 repo,进入整个电脑空间,运行代码并迭代。它不只是回答问题,还可以编辑和执行。这极大降低了实验成本。但一些基本要求没有改变:研究仍然需要判断,代码仍然必须正确,合作者仍然需要理解项目,研究仍然必须可复现。
她遇到的核心问题是,AI 很强,但研究者必须保持安全和控制。代码看起来可能正确,但后续迭代会悄悄引入小错误。一个任务也可能逐渐膨胀成多个任务,agent 在你没有意识到的情况下接管更多内容。合作者和 RA 可能会接受自己无法解释的 AI 改动,最后导致整个项目逻辑无人真正理解。她因此认为,研究者需要的不是一个工具,而是一套系统。
她提出实验室的几条 non-negotiables。第一,AI 是助手,不是权威,研究者必须保持控制。第二,总是做小任务,不要把巨大任务直接交给 agent。第三,阅读 AI 改动的每一行,使用 diff mode 一行一行接受。第四,质疑一切,并训练 agents 也质疑自己。第五,记录学到的东西。LLM 的记忆可以很大,但很脆弱;如果不把失败经验和规则纳入工作流,agent 会一再犯同样错误,例如在服务器上提交只允许两小时运行的任务,导致本该跑一天的代码不断 timeout。
Levels of Autonomy
Claudia Allende Santa Cruz
Claudia 区分了不同自主性层级。最初的 chat LLM 是对话模式,通常只读,研究者问问题、模型回答,控制度高,风险相对低。随后是 Cursor 或 VS Code 中的 edit mode,模型可以直接改代码,但通常是局部改动,例如“在这一行回归中加入固定效应”。这种模式仍然容易检查。
现在的 agent mode 风险和能力都更高。agent 可以修改多个文件,在电脑中运行代码,迭代和访问整个 workspace。这非常强大,但必须有 guardrails。她使用 Cursor 或 VS Code,并同时使用不同模型,例如 ChatGPT 和 Claude Code,让它们在不同模式和角色中工作。
她认为 agent mode 最适合有明确验收测试的任务。只要能够写清楚什么是正确、什么是完成、什么输出符合预期,就可以让 agent 更自主地工作,因为它可以自我检查。如果无法写清楚正确结果是什么,她会使用 ask 或 edit mode,让人类参与每一步。即便在 agent mode,最终也必须人工检查。
Scenario Ladders and Acceptance Tests
Claudia Allende Santa Cruz
Claudia 用自己的 school choice 研究举例。她研究家庭如何在关心同伴构成的情况下选择学校,以及供给方如何响应。模型很复杂,她希望确认论文最终版本中每一步都正确。
她使用 scenario ladder。也就是从最简单版本的模型开始,例如一个普通离散选择模型,没有复杂同伴互动,只让家庭根据学校特征选择学校。然后在 simulation world 中生成数据,再回到 estimation world 中估计,检查估计结果是否能恢复已知参数。她称之为模型的 lab version。
过去,写这类 simulation 和 estimation checking 代码成本非常高,可能需要几个月,而且主要是为了确认正确性,未必直接出现在论文中。AI 降低了这个成本。她认为,自己现在一天可以做多得多的任务,但并不必然意味着论文更快完成,因为她也会做更多检查步骤。质量标准被提高了。
她强调,每个小任务都应当有 acceptance test。例如结果是否在模拟世界中恢复参数,是否生成预期图表,是否通过服务器运行,是否产生稳定输出。agent 不应只交付“看起来完成”的代码,而要交付可被验证的结果。
Tools and Workspace Organization
Claudia Allende Santa Cruz
Claudia 介绍自己的工具结构。她常用 voice-to-text,因为自己思考快、讲话比写作更流畅。她会在车里录下想法,用 Super Whisper 转录,然后告诉 agent:这些想法很乱,请帮我组织,并先确认你理解了什么。LLM 很擅长把口语碎片整理成结构化任务。
她是 GitHub 的长期用户,并认为 GitHub 是当前工作流能成立的关键。她的 Cursor 窗口中有不同 GPT agents,每个 agent 有明确角色,例如 model、data 等;右侧终端运行 Claude Code agents。为了避免混乱,她用不同颜色、图标和命名区分 agents,确保 GPT designer 与对应的 Claude Code executor 匹配。
她把每一步组织成 GitHub issue,每个 issue 再拆成 subtasks。GPT designer 写任务,Claude Code 执行任务。任务命名也很清楚,例如 M 表示 model,后面加版本号和迭代编号。她会根据结果继续写 follow-up task。大改动通常在 branch 中进行,确认后再合并回 master。
Useful Commands
Claudia Allende Santa Cruz
Claudia 提到一些实用命令。她建议在适当情况下使用 Claude 的跳过权限确认模式,因为如果有 GitHub 和版本控制,风险可控,能避免每一步都手动批准。她会重命名项目 session,以便以后恢复会话。重新打开 terminal 后,可以用 resume 和 session ID 接回原会话。
她也提到 “by the way” 式中断。当 agent 正在运行时,如果发现它走偏,可以插入问题或提醒,确认是否出错,必要时终止任务,避免浪费数小时。她还喜欢 remote control,可以用手机通过链接控制 agent,甚至在滑雪缆车上继续给 agent 下指令。这个例子说明,agentic workflow 让研究管理从固定电脑前转向更连续的远程监督。
Design, Execution, Review
Claudia Allende Santa Cruz
Claudia 的核心工作流是 design—execution—review。先在 GitHub issue 中设计任务,把大任务拆成小任务,写成清楚 prompt。随后 Claude Code 执行。执行后由 ChatGPT 审查结果,这个过程可以循环多次。最后,在深度 review 后,她才接受改动,并要求 agent 把重要经验记录到 memory。
她强调,计划可以有大方向,但具体 issue 必须短小、边界清楚。一个任务分配给一个 specialist agent。研究者必须对真实文件、数据和输出进行检查。她还会要求 agent 输出各种辅助图和诊断结果,例如分布图、不同版本对比、结果变化图,以帮助自己判断 agent 是否做对了。
她也经常要求 agent 在执行前复述理解:“你是否理解我刚才说的?请先解释给我听,不要立刻实现。” 她提到,很多人说告诉 Claude “这是非常重要的任务,请高 effort 完成”会改善结果,她虽然没有随机测试,但觉得实践中似乎有效。
她通常让 GPT 负责规划和 review,因为她觉得 GPT 在逻辑和规划上更强;Claude Code 负责执行,因为它在代码操作和文件修改上表现好。GPT 和 Claude 可以形成循环:规划—执行—检查—修正—再执行。
Specialist Agents
Claudia Allende Santa Cruz
Claudia 强烈反对一个 master agent 做所有事。她认为每个 agent 应当只有一个工作,成为一个特定任务专家,并获得与该任务相关的上下文。多个 agents 可以并行运行,但要非常小心 GitHub 中的冲突。如果两个 agents 同时改文件,她推荐使用 worktrees,在本地创建多个 repo 副本,让不同 agent 在不同 worktree 中工作。
她还强调知识交接。任务不仅要交接指令,还要交接项目知识。她维护 ground truth files,里面包含项目历史、旧版论文、新版论文、文献引用、规则和规则背后的理由。例如永远不要在未经批准时 commit,不要在代码里放 emoji,记录曾经失败的服务器设置和运行时间不足问题。这些信息放在不同 markdown 文件中,如 Claude.md、agent-specific md、Cursor rules 等,并按文件夹组织。
Reviewer Loops and Memory
Claudia Allende Santa Cruz
Claudia 解释为什么让一个模型执行、另一个模型审查有效。不同模型具有随机性,即使性能相近,也擅长不同事情。对同一个问题多问几次会得到不同答案。因此,让 Claude Code 执行、GPT 审查,可以暴露更多问题。她说 Claude Code 的开发者也推广这种做法。
最终她会逐行查看 diff,在 Cursor 中一行一行接受或拒绝。这种界面让她对代码保持控制。
记忆管理同样重要。现在模型上下文很大,但仍需要把项目知识主动给回 agents。她会保留 rules、failure history、ground truth 和 literature references,使 agent 每次都能获取关键背景。规则要带理由,因为 agent 更容易遵守有解释的规则。
What Not To Do
Claudia Allende Santa Cruz
Claudia 结尾列出不要做的事情。不要让 agent “修复一切”或“重做整个项目”。不要接受自己不理解的代码。不要接受没有来源的 summary。不要让一个任务跳到很多其他任务。比如发现数据错误时,不要立刻让当前 agent 顺手修数据,而应完成当前任务,再用合适 agent 处理数据问题。不要基于仍在变化、不稳定的结果写论文或分析。
她的建议是:从小开始,不断实验;使用好模型,虽然成本高,但值得;学习验证,因为 auditing 将成为核心研究能力;重新思考劳动分工,把 agents 当作具体任务的合作者,而不是一个什么都能做的万能合作者。
168:00 Panel Q&A
Disclosure, accountability, standards, and synthetic subjects
主题概括:问答环节围绕 AI 使用披露、作者责任、职业评价标准、私有数据、幻觉和引用、学术大图景、AI 与理论、以及 AI 是否能替代人类研究对象展开。讨论中有一个共同主线:AI 会改变研究生产、沟通、评价和验证制度,但责任最终仍然落在人类作者身上。
Disclosure and Authorship
Michael Tomz / panelists
Tomz 和 Imbens 开始筛选听众提交的问题。第一个问题是 AI 使用披露的利弊。提问者认为披露似乎是正确做法,一些期刊和学会也鼓励或要求披露,但使用者仍感到污名化。
一位发言人提到,Stanford 曾讨论 AI 时代的作者政策。委员会很快同意,不应把 AI 列为论文共同作者,因为 AI 不能承担责任。Claude 如果犯错,不能被问责,因此不适合作为作者。多数人的直觉是采用中间方案:披露 AI 使用,但不列为作者。然而,也有人提出反对:作者本来就对论文中的一切负责,无论内容来自 AI、RA、软件、搜索引擎还是其他来源。披露 AI 使用不能减轻作者责任。如果你使用 AI 导致幻觉引用或错误,那仍是你的问题。
这位发言人认为,二十年后也许没人会披露 AI 使用,就像今天没人披露自己用电脑而不是打字机。现在处于一个过渡均衡中,规范尚未稳定。
另一位发言人从教学和沟通角度补充。AI 让制作教学笔记、润色、排版、生成附录变得便宜,但也带来新的沟通均衡。写一段话过去本身就是信号:说明你花了时间思考,也是一种 forced thinking。现在生成文字太容易,收信人反而更难判断对方是否认真思考。例如邮箱中充满“你是最适合合作的人”这类 AI 写出的邮件,收件人会直接删除。未来学术写作、教学材料和普通沟通都要重新形成规范。
Claudia 补充说,她在博士课中要求学生说明如何使用 AI,但不把披露作为评分依据。学生使用方式差异很大,有人只用来检查语法,有人用 Claude Code 完成模拟。她反而对只用来检查语法的学生感到失望,因为她希望学生更积极地探索工具。关键不是是否使用 AI,而是结果是否正确、是否负责任。
Evaluation and Career Standards
Michael Tomz / panelists
第二组问题关注 AI 如何改变博士、求职、tenure 和学术评价标准。一个回答认为,标准目前还没有明显变化,因为期刊、晋升和学科规范变化很慢。但如果有人像 Andrew Hall 那样每周发布一个短小而重要的新研究,学界迟早需要学会如何评价这种贡献。
Susan Athey 提出更强的看法。她认为,在计量或理论等技术领域,长技术附录过去常被视为技术能力信号。即使其中很多内容相对 routine,能写出 30—50 页清晰证明本身曾经是一种能力证明。但 AI 出现后,这个信号价值大幅下降。她认为,如果某篇论文的主要亮点只是把 routine proof 写得很长,那么她明年起不会给这种工作太多 credit。AI 让繁琐代数和证明推导的执行成本下降,评价必须回到思想本身。
另一个观点是,研究标准会提高。过去如果提出一个新的 DID 方法,要求你把它应用到一百篇相关论文几乎不现实。但现在借助 AI,大规模复现和应用可能成为 referee 的合理期待。换句话说,AI 不只是降低门槛,也会提高什么叫“充分验证”的标准。
Private Data and LLMs
Guido Imbens / panelists
一个高票问题是:如果研究者使用私有数据,如何利用 AI 编码工具?
Rose 式回答是:先问 LLM。一个稳妥做法是让 LLM 生成假数据。如果列名不敏感,可以给出列名和数据格式,让模型生成同样结构的 synthetic data,然后在假数据上开发代码。若涉及数据清洗,难点在于假数据必须复现真实数据中的错误模式。总体上,让 AI 只接触假数据是最无风险的方式。
其他 panelists 补充说,即使 agent 不能看到真实数据,仍然可以很有帮助。研究者可以在本地用假数据开发代码,把代码 commit 到 GitHub,然后在安全服务器或公司环境中运行真实数据。对于公司数据、Databricks、安全服务器等环境,这种方式尤其重要。虽然失去了一些自动运行和远程 agent 操作的便利,但仍能获得大量编码和结构化帮助。
Citations, Hallucinations, and Effort Levels
Panelists
问答中还涉及引用幻觉。Panelists 认为,模型在学术引用上已经比过去好很多,尤其当模型可以搜索网页或核对 DOI 时。很多 citation hallucination 过去部分来自模型不能联网或没有被明确要求核查。现在如果专门要求模型逐条检查引用、核对 DOI 和链接,效果已经大幅提高。
但他们也提醒,agents 有时会节省资源。搜索网页、进行深度检查、长时间运行都成本较高,模型默认可能不做。因此研究者应明确要求它“搜索网页”“逐条核查”“高 effort”“检查两三遍”。这既是模型内部资源分配问题,也是用户体验问题:模型可能为了更快回答而不进行最昂贵的检查,除非用户明确表示愿意等待。
Andrew Hall 对现场问题的方向有些不满。他认为,很多问题集中在披露、隐私、幻觉等细节上,而这些问题人类也会犯。人类也会幻觉、也会违反隐私法。真正的大问题是 AI 如何迫使我们重新思考研究生产方式,而不只是论文脚注里该怎么披露。
Big Picture Questions
Michael Tomz / Andrew Hall / panelists
Tomz 接着提出更大问题:未来 academia 会继续存在吗?Hall 认为会,但学术界必须聚焦真正重要的问题。Panelists 同意,不应只讨论“AI 使用脚注怎么写”,而要讨论研究制度、知识生产和学术角色如何改变。
Game Theory and Theory
Michael Tomz / panelists
随后有听众问,AI 会如何改变博弈论或理论研究?Panelists 的回答较为谨慎。
一位发言人说,经济理论家群体已经在讨论这个问题,很多人认为影响会很大。可能的方向之一是把 LLM 当作实验对象,让它们玩博弈,但这个研究议程还需要更清晰结构。另一个方向是 theorem proving,但更重要的可能不是让 AI 自动写长证明,而是帮助理论家处理复杂模型。
在应用博弈论中,很多问题很快变得不可处理,因此研究者被迫使用过于简单的模型。如果 AI 能帮助研究者探索更复杂的假设、整理代数、比较不同模型结构,并找到既能讲清故事又足够现实的模型,这会非常有价值。但这仍需要大量人类创造力。理论的核心不是完成一段长证明,而是设计一个能讲清机制的模型。
Matt Gentzkow 进一步指出,理论在未来可能更重要。经验研究擅长回看过去,但世界变化越来越快,政策制定者必须面向未来作判断。面向未来需要外推,而外推需要模型。关于 AI 对经济增长、就业、创新和要素再配置的影响,如果没有经济理论,就容易说出“18 个月后没有白领工作”这类缺乏约束的夸张判断,而这些判断会造成政治和社会后果。
Susan Athey 提到她参与 World Bank 2026 World Development Report on AI 的工作。各国都必须制定 AI 政策:是否建设数据中心、如何制定国家战略、如何理解增长影响。要回答这些问题,需要整合微观采用、管理实践、增长与创新模型、要素市场再配置、自动化文献、贸易文献等。AI 可以帮助快速总结分散文献,但真正的综合判断仍然需要经济理论和人类思考。
Human Subjects and Simulated Evidence
Michael Tomz / panelists
最后一个大问题是,AI 能否替代或补充人类研究对象。是否还需要研究人,还是可以研究 AI 输出?
Andrew Hall 对此非常怀疑。他看到很多 startup 声称可以用 synthetic respondents 替代真实调查对象,其中一些已经出现明显失败。他提到有政治学者 Yamil Velez 长期测试这类工具,结论是模型有时能让总体分布看起来接近,但一旦进入条件分布和细分群体,表现就不可靠。Hall 的 hot take 是:目前这类做法大多是错的。不过他愿意继续测试,也承认自己可能错。
Susan Athey 从实验设计角度给出更积极但不同的用途。她说,做实验时,研究者在真正实施前通常已经知道几乎所有东西,除了 treatment effect:样本量、标准误、主要表格结构都可以预先确定。她长期要求学生和合作者在实验前先做一张“假结果表”,因为看到表格后才能发现设计是否不可解释、是否回答不了问题。可是很多人不愿意模拟数据,因为会卡在数据生成过程上。
LLM 可以降低这一成本。即使 synthetic subjects 不能替代真实人类,它们也能帮助研究者预演实验设计、生成假表格、测试代码、发现分析计划问题。这与把 AI 当作研究对象不同,它更像是实验设计和 pre-analysis plan 的辅助工具。
另一位 panelist 补充,他们过去也会把 simulated tables 和 figures 放进 pre-analysis plan,说明这是计划中的分析外观。但有一次在 Science 投稿中,referee 误以为这些是假设数据表是另一组未讨论的真实结果,认为研究不可靠。因此使用 simulated evidence 时要格外清晰标注,以免误解。
Wrap-Up
Michael Tomz / Guido Imbens
活动最后,主持人感谢所有参与者,特别感谢 Rose 提议举办这场活动,感谢 Guido 的组织领导,也感谢 panelists 的演讲和问答。组织者还感谢工作人员 Christopher Fraga、Karla Flores、Kali Zappalla 和 Kate Green Tripp。
主持人对听众说,这不应是结束,而应是 AI 与社会科学持续讨论的开始。会后他们会征求大家对后续活动的建议,例如 workshops、tutorials 或其他形式。因为技术每天都在变化,今天的内容下周、下个月就可能需要更新。组织者期待继续与大家保持交流。
夜雨聆风