AI智能体1小时写了一篇SSCI!

AI智能体1小时写完一篇SSCI论文——这听起来像是学术圈的狂想，但它正在成为现实。斯坦福大学商学院教授 Andy Hall、经济学顶刊 Journal of Political Economy 副主编David Yanagizawa-Drott等多位学者通过AI智能体工作流实现实证研究自动化，AI agent 完全自主地完成实证经济学研究的全流程成为现实：将一篇实证论文的生产过程拆解为多个指令模块，最快1小时即可完成实证研究！（具体见后文案例介绍）

实证论文全流程正在被智能体重构：选题环节，Agent可遍历顶刊生成研究议题图谱、精准定位研究缺口；文献环节，Agent自动连接Zotero构建结构化文献矩阵、基于理论推演生成研究假设；数据环节，Agent从年报PDF提取表格、从MD&A文本构建实证变量、从全网自动采集政策试点数据；因果推断环节，Agent一键运行DID并自动完成平行趋势与安慰剂检验、执行交叠DID三大稳健估计量对比、复现AER论文并生成专业复现报告；写作环节，Agent辅助构建引言四段论逻辑链、多智能体模拟审稿并生成回复信。

基于此，我们将在未来3个月举办一系列"数智实证"公益讲堂，包含大语言模型数据分析、AI实证论文写作，力求通过智能体辅助实证论文全流程，适合硕士生、博士生、高校教师等科研工作者参与。通过设计一套完整的智能体工作流方案，将选题挖掘、文献综述、假设提出、数据采集、文本分析、图片分析、因果推断、顶刊复现、论文撰写与审稿模拟全流程嵌入Codex等智能体工具链中。添加以下客服，备注"数智实证"进入内部社群可免费参与讲座，讲座信息后续会及时在社群更新。规划讲座主题见后文。

往期"数智实证"公益讲堂内容

大语言模型智能体经济学研究应用前沿公开课！

前沿公开课：大语言模型多模态数据实证变量构建

"数智实证"公益讲堂第2期：UTD24顶刊社会网络分析应用进展！

"数智实证"公益讲堂：大语言模型驱动的社科数据挖掘范式重构

规划"数智实证"公益讲堂内容（以每周具体预告为准）：

主题1：AI智能体与实证研究的范式革命——从“手搓代码”到“指挥智能体”

本讲定位：建立学员对AI智能体与实证研究结合的宏观认知，理解这场范式革命的历史逻辑与技术基础。

核心内容：

大语言模型（LLM）的两大核心训练流程——预训练与对齐训练，决定了模型的知识储备与行为边界。模型运行中的幻觉（Hallucination）机制、上下文窗口限制、Token机制共同构成了当前AI的能力天花板。开源模型（DeepSeek、Llama）与闭源模型（GPT、Claude）在实证研究场景中的取舍逻辑：隐私保护、成本控制、可定制性。

AI Agent与对话式AI的本质差异：对话式AI是被动的“问答工具”，而Agent是具备目标导向、自主规划、工具调用能力的主动协作者。Agent的四大核心组件——规划（Planning）、记忆（Memory）、工具调用（Tool Use）、多智能体协作（Multi-Agent） ——各自承担的功能与协同逻辑。思维链（CoT）如何激活模型的推理能力，使其从“模式匹配”升级为“逻辑推导”。

案例演示：借助AI Agent完成一篇经济学实证论文从选题到结论的全流程创作，展示“指挥智能体”的完整图景。

主题2：Agent驱动的选题挖掘与研究框架自动生成

本讲定位：将AI智能体应用于学术研究的起点——选题，帮助学员从“大海捞针”走向“精准定位”。

核心内容：

智能体选题挖掘方法论：让Agent遍历UTD24、FT50等顶刊近三年论文标题与摘要，自动生成研究议题的热力图与趋势图谱。通过文献共被引网络分析，Agent能够自动定位当前领域中的研究空白（Research Gap） ——哪些问题被充分研究了、哪些问题被忽视了、哪些交叉领域存在尚未被探索的连接点。

研究问题的多轮迭代打磨：从“宽泛主题”到“精准研究问题”的对话策略——如何设计提示词让Agent从不同角度（理论重要性、现实紧迫性、数据可行性、方法可操作性）持续追问，直到形成一个边界清晰、可实证检验的研究问题。

研究框架自动生成：Agent根据研究问题自动生成论文研究框架图（包含核心变量、理论机制、研究假设、实证策略的可视化呈现），为后续研究设计提供清晰的路线图。

主题3：人机协作的高阶思维框架——自指内核、元认知与Human-in-the-Loop

本讲定位：建立AI时代研究者必备的高阶认知框架，解决“如何信任AI输出”与“如何与AI高效协作”两个核心问题。

核心内容：

“自指内核”双通道验证法：让Agent在输出结果的同时给出自信度评分（0-100%）与逻辑自检报告（识别自身推理中的潜在漏洞与假设前提）。这一机制的核心在于将AI的“思考过程”透明化，使研究者能够在关键节点介入判断。

元认知架构设计：在提示词中嵌入元认知指令（如“请反思你的推理过程”、“是否存在被你忽略的替代解释”），让AI的思考过程变得可迭代、可优化。通过“思维链（CoT）提示”激活模型的逐步推理能力，避免“跳步式”的错误结论。

人类保留判断权（Human-in-the-Loop） ：HLER系统的设计哲学——哪些环节完全交给AI、哪些环节需要人类审核、哪些环节必须由人类主导。建立人机合理分工的分界标准：AI负责“广度”与“速度”，人类负责“深度”与“判断”。

主题4：科研智能体环境配置——Claude Code + Python + Stata全链路协同

本讲定位：从理论走向实操的第一步——完成科研智能体环境的搭建。

核心内容：

核心工具链的协同配置方案：Claude Code + VS Code + Anaconda (Python) + Stata MP 四款工具的安装、配置与联动。Claude Code作为智能编程助手，能够自动将上下文加载到提示中，通过环境调优可大幅提升其效率。

Claude Code的三大交互模式：命令行模式、IDE集成模式、API调用模式——各自适用场景与切换策略。项目制科研管理：通过创建CLAUDE.md文件定义项目背景、技术栈与编码规范，让Agent“记住”整个研究的上下文。

跨平台编程协同：如何让Claude Code同时调用Python进行数据处理与Stata进行计量分析，并在两者之间无缝传递数据与结果。实操演示：配置一个完整的实证研究项目环境。

主题5：Harness四件套实战——Memory、Skills、MCP与Hooks

本讲定位：掌握智能体工作流的核心组件，让Agent从“一次性对话”升级为“持续性协作者”。

核心内容：

Memory（项目背景记忆） ：让Agent“记住”你的研究背景、理论框架、变量定义与已有发现，避免每次对话都需要重复交代上下文。

Skills（可复用的计量分析能力模块） ：Skill的标准结构（元数据、输入/输出规范、处理逻辑、测试用例）。如何将常用的实证分析流程（如面板数据回归、DID分析）封装为可一键调用的Skill，实现“一次封装，终身复用”。

MCP（Model Context Protocol） ：连接本地数据文件夹、Zotero文献数据库、API数据源等外部资源，让Agent能够直接读写外部数据。

Hooks（自动化检查与预警） ：在关键节点设置自动核查规则——样本量是否充足、变量是否存在异常值、回归模型是否满足基本假设。

实操：让Claude自动调用Python完成数据预处理、调用Stata完成固定效应模型回归，并自动生成回归结果表。

主题6：Agent驱动的文献综述与研究设计自动化

本讲定位：将AI智能体应用于文献综述与研究设计的全流程，实现从“手工翻阅”到“智能梳理”的跃迁。

核心内容：

文献自动检索与筛选：让Agent通过MCP连接Zotero数据库，根据研究主题自动导入相关文献，并按 relevance（相关度）、citation（引用量）、recency（时效性）三个维度进行自动分类与优先级排序。

文献矩阵的自动化构建：Agent从每篇文献中自动提取研究设计（样本、数据来源）、研究方法（模型设定、识别策略）、核心发现（主要结论与效应量）、局限性（作者自认的不足与未来方向），生成结构化的文献综述对比矩阵。

理论框架与研究假设的自动生成：Agent基于文献矩阵中的理论脉络与实证发现，自动推演理论逻辑链条，生成可验证的研究假设。通过对比已有研究的结论分歧，识别理论争议点并定位本研究的理论贡献空间。

实操：输入一个研究主题，让Agent在20分钟内生成一份完整的文献综述与假设提出章节初稿。

主题7：智能体工作流核心设计——项目宪法、任务拆解与质量门控

本讲定位：建立智能体驱动研究的工程化方法论，确保AI输出的质量可控、过程可复现。

核心内容：

项目宪法（Project Constitution） ：为每个研究项目定义一份“宪法级”规范文档——研究目标、核心假设、数据来源、方法边界、质量标准的明确陈述。这份宪法将作为Agent所有后续行动的“最高准则”，确保每一步操作都不偏离研究初衷。

任务拆解（Task Decomposition） ：将复杂的实证研究问题拆解为Agent可独立执行的子任务序列。每个子任务都有明确的输入、输出、依赖关系与验收标准。任务之间的串联与并行策略设计。

质量门控（Quality Gate）与人类检查点（Human Checkpoint） ：在关键节点设置质量检查关卡（如数据质量验证、模型诊断、结果合理性审查），只有通过检查才能进入下一阶段。

数据隔离规范与独立审查Agent机制：确保数据处理的透明性与可审计性，配置独立的审查Agent对主Agent的工作进行交叉验证。

主题8：AI Agent驱动的“数据田野调查”——自动化采集与多源融合

本讲定位：将AI智能体应用于实证研究最耗时、最枯燥的环节——数据采集。

核心内容：

Deep Research on a Loop（DRIL）方法论：Afonso等（2026）提出的这一方法，将AI Agent从一次性问答工具升级为可重复、可审计的数据生产线。DRIL采用两阶段架构——设计阶段（定义数据采集的“研究工具”）与执行阶段（在映射好的单位空间上反复应用该工具），确保数据采集的质量与可重复性。

Agent自主规划检索路径：让Agent像人类研究助理一样，自主决定“先查什么、再查什么、如何交叉验证”。Agent在连续循环中不断检查自己的工作、纠正方向、积累知识。

多源数据融合与冲突消解：当不同数据源提供矛盾信息时，Agent如何通过交叉验证与置信度评估做出最优判断。

实操案例：Agent自动从全网搜集地级市人工智能创新发展试验区试点信息，构建DID数据集，并与人工搜集数据进行比对验证。

主题9：大语言模型赋能多模态数据分析——PDF、文本与图片

本讲定位：将大语言模型的能力从结构化数据分析拓展至非结构化数据的自动化变量测度。

核心内容：

PDF数据提取：Agent自动从上市公司年报PDF中提取表格数据（如主要产品名称、分业务收入）、文本段落（如核心竞争力板块、风险提示）。通过提示词设计让Agent精准定位目标信息所在位置，并以结构化格式输出。

文本数据建模：利用LLM从MD&A（管理层讨论与分析）文本中构建实证变量。典型案例：从文本中识别制造业服务化程度、数字化转型水平、管理层语调与情感倾向。大语言模型构建变量的方法论：如何设计分类体系、如何校准模型输出、如何验证变量效度。

图片数据识别：大语言模型的多模态能力——从图片中提取结构化数据（如CEO面部表情识别、产品图片分类）。

实操：用Agent完成一个完整的文本变量构建任务——从原始文本导入、变量定义、模型标注到效度检验的全流程。

主题10：Agent驱动的变量体系构建与数据质量诊断

本讲定位：在数据分析之前，用Agent完成变量体系的系统构建与数据质量的全面诊断。

核心内容：

变量定义表的自动生成：Agent根据研究假设与文献依据，自动生成完整的变量定义表——包含变量名称、测量方式、数据来源、理论依据、预期符号等要素。

描述性统计与相关性矩阵的自动化：Agent自动计算并输出所有变量的均值、标准差、最大最小值、分位数，以及变量间的相关系数矩阵。自动识别异常值：基于箱线图、Z-score、百分位数等方法标记潜在异常观测。

缺失值模式诊断与处理方案：Agent自动分析缺失值的分布模式（完全随机缺失、随机缺失、非随机缺失），并根据模式特征推荐合适的处理方法（删除、均值插补、多重插补、模型插补）。

数据质量报告生成：Agent输出一份结构化的数据质量诊断报告，包含样本量、变量完整性、异常值清单、缺失值处理建议等，为后续实证分析提供“数据健康证明”。

主题11：智能体辅助因果推断——DAG自动绘制与工具变量筛选

本讲定位：将AI智能体应用于因果推断的前端环节——因果识别策略的设计。

核心内容：

潜在结果框架（Rubin Causal Model） ：反事实定义、分配机制（随机/非随机）、ATE/CATE/ATT等核心概念的系统梳理。

因果图（DAG）的自动绘制：让Agent根据文献中的变量关系描述，自动绘制有向无环图（DAG），可视化呈现变量间的因果路径与混淆结构。通过因果提示词（CoT） 激活模型的因果推理能力，让Agent不仅能画图，还能解释“为什么这条路径是因果的、那条路径是虚假的”。

AI辅助工具变量选择：依托大模型的文献检索与领域知识，通过叙述推理、角色扮演与反事实推理，系统搜索适配不同经管场景的IV。典型案例：历史移民分布作为劳动供给的IV、地质特征作为政策实施的IV、距离作为信息不对称的IV。

主题12：经典因果推断方法的Skill化——DID、IV、RDD、PSM全自动

本讲定位：将实证研究的“高频刚需”方法封装为可复用的Agent Skill，实现“一句话跑回归”。

核心内容：

面板数据模型的Agent自动化：固定效应（FE）、随机效应（RE）、Hausman检验、高维固定效应（reghdfe）的自动选择与运行。

DID全流程自动化：标准DID的自动运行、平行趋势检验图表的自动生成、安慰剂检验的自动实施。交错DID的偏误诊断：Goodman-Bacon分解的自动计算与可视化。

IV/2SLS的Skill封装：第一阶段回归、弱工具检验（F统计量）、过度识别检验（Sargan/Hansen）的自动输出。

RDD的自动化：精确/模糊断点的自动判断、带宽选择（MSE最优）、操纵检验（McCrary密度检验）。

PSM的Skill封装：近邻匹配、核匹配、半径匹配的自动选择与比较、平衡性检验（标准化偏差）。

实操：“DID助手”Agent——输入Card & Krueger（1994）数据，Agent自动运行DID、绘制平行趋势图、输出ATE，并进行安慰剂检验。

主题13：交叠DID的前沿方法与Agent一键实现

本讲定位：系统掌握当前因果推断领域最受关注的方法论进展——交叠DID的稳健估计。

核心内容：

交错DID与传统TWFE的识别偏误：交错处理的定义与典型场景（政策在不同时点对不同个体实施）。TWFE在异质性处理效应下的负权重问题——为什么传统双向固定效应模型会给出错误符号的估计量。

Bacon分解：传统DID偏误的诊断工具——将TWFE估计量分解为所有可能的2×2 DID比较的加权平均，识别哪些比较是“好”的、哪些是“有问题”的。

Callaway & Sant'Anna（CS）估计量：CS的识别逻辑——使用“干净”的控制组（从未处理或尚未处理的个体）。队列划分与动态处理效应的构建。

Sun & Abraham（SA）方法：适用场景与识别前提，与CS方法的核心区别与互补关系。

三大稳健估计量的一键实现：让Agent根据数据结构自动选择并运行csdid（Callaway-Sant'Anna）、did_imputation（插补法）、eventstudyinteract（交互加权法），并自动生成三者的组别-时期ATT对比图表。

主题14：群聚-双重差分（Bunching-DID）的原理与Agent实现

本讲定位：介绍一种前沿且极具识别力的因果推断方法——Bunching-DID。

核心内容：

群聚现象：非线性政策激励（如税率跳点、补贴门槛、规制阈值）如何引发经济行为体在阈值附近的“群聚”行为。这一现象既是政策设计的 unintended consequence，也是研究者识别因果效应的“天然实验室”。

传统方法的视角盲区：纯粹的聚束分析（Bunching）只能识别阈值附近的局部行为反应，却无法区分“真正的行为调整”与“测量误差/操纵行为”。传统DID则受限于平行趋势假设在阈值附近的失效。

Bunching-DID的基本原理：将聚束分析的局部识别力与DID的跨期对比优势相结合，通过门槛处反事实分布拟合（高阶多项式回归）构建反事实基准，通过操纵区间（Manipulation Window）的客观划定区分“受政策影响的个体”与“不受影响的个体”。

标准化实施流程：操纵区间内的ITT效应评估→非操纵区间内的DID无偏估计（核心回归）→安慰剂检验与带宽稳健性检验。

实操：基于Agent的Bunching-DID识别估计，参考文献包括蔡宏波等（2025，《经济研究》）与孟元、杨蓉（2024，《世界经济》）的前沿应用。

主题15：智能体自动化顶刊复现系统——6阶段标准化流程

本讲定位：以顶刊论文复现为验收标准，构建标准化的智能体复现工作流。

核心内容：

复现的学术价值：为什么复现是掌握实证方法的最佳路径——从“看懂”到“做到”的跨越。顶刊复现资源库介绍：EJD（Economics Journal Dataverse）、Harvard Dataverse、AER数据存档等。

复现的四个层次：结果复现（完全复刻原文表格与图形）→稳健性拓展（替换样本/变量/方法）→方法迁移（将识别策略应用于新问题）→理论创新（在复现中发现新机制）。

Claude Code复现的6阶段标准化流程：

阶段1——论文摄入：Agent自动解析论文的研究设计、模型设定、变量定义与核心识别策略
阶段2——数据审核：Agent检查数据完整性、变量一致性，自动生成数据质量报告
阶段3——代码翻译：将Stata/R代码自动翻译为Python/Stata跨平台可执行脚本
阶段4——结果验证：Agent运行代码并与原文结果进行数值比对（系数、标准误、样本量）
阶段5——差异文档化：自动生成差异解释报告（归因于版本差异、聚类方式或模型设定）
阶段6——复现报告生成：输出符合顶刊标准的专业复现报告

主题16：顶刊论文完整复现实战与方法迁移

本讲定位：以一篇真实AER论文为对象，完整走一遍复现流程，并学习如何将复现经验迁移至自身研究。

核心内容：

复现论文选择：以AER论文“The Effect of Pollution on Worker Productivity”为实操案例。这篇论文因其清晰的识别策略、公开的代码与数据、适中的方法复杂度，是绝佳的复现教学素材。

实操全流程：

提示词设计：让Claude Code克隆GitHub仓库、安装依赖环境、生成复现计划
Agent自动运行代码，逐表逐图对比原始结果
生成复现报告：包含差异表（系数、标准误、样本量三列对比）、差异解释（因软件版本不同或聚类方式差异导致）
复现失败时的诊断策略：如何让Agent自我纠错、如何定位问题根源

从复现到创新：方法迁移：

如何识别复现论文中可迁移的方法论要素——识别策略的核心逻辑、适用条件、边界限制
Agent辅助进行“方法移植”的可行性评估：你的数据是否满足同样的识别假设？你的研究问题是否适配同样的实证框架？
实操：让Agent基于复现经验，自动生成一篇研究提案的“研究方法”章节

主题17：AI辅助学术写作的核心原则与提示词工程

本讲定位：系统讲授AI辅助学术写作的方法论，让学员从“会用AI写”升级为“懂得如何用好AI写”。

核心内容：

AI时代学术写作的五项核心原则：

清晰性：如何让AI帮你把复杂逻辑用最简约的语言表达，避免“为复杂而复杂”
精确性：Agent辅助术语一致性检查，确保全文概念使用无歧义
逻辑性：Agent构建“论点→论据→论证”的三段式逻辑链，确保每个 claim 都有支撑
说服力：让Agent扮演“最挑剔的审稿人”，在写作阶段就预判潜在质疑点
读者意识：Agent模拟目标期刊读者群体的知识背景与阅读期待，自动调整叙事策略

提示词工程的进阶策略：

从“帮我写一段”到精准指令：RTCE框架（角色/任务/约束/示例） ——定义AI扮演的角色（如“经验丰富的实证经济学家”）、明确任务（如“撰写引言第二段”）、设定约束（如“不超过200字、引用至少3篇文献”）、提供示例（如“参考AER某论文的写法”）
多轮迭代修改策略：“草稿→Agent批判→修订→再审稿”的循环，每次迭代聚焦不同维度（逻辑→语言→格式）
上下文锚定：将顶刊范文的叙事风格作为参照锚点，让Agent模仿其节奏与语调

实操：用三种不同的提示词策略生成同一段落，对比效果差异，理解“好提示词”与“差提示词”的质变。

主题18：Agent辅助论文各章节撰写——从引言到结论的全流程

本讲定位：将AI辅助写作能力落实到论文的每一个章节，实现从数据到成稿的系统转化。

核心内容：

标题与摘要：Agent生成多个标题版本（描述型、问题型、发现型）供筛选。摘要在限定字数内最大化研究贡献的表达——Agent自动识别“背景→问题→方法→发现→贡献”五要素是否完整。

引言的四段论逻辑链：

Agent辅助构建“研究缺口→研究问题→研究发现→研究贡献”的叙事弧线
文献定位：如何让Agent精准识别并框定对话的学术阵营——你的研究与谁对话、在哪一点上对话、贡献了什么新东西
研究贡献的提炼：Agent从理论、实证、政策三个维度系统归纳贡献点

理论框架与研究假设：

多智能体角色扮演：配置“支持者Agent”与“批判者Agent”对假设逻辑进行攻防演练
Agent辅助绘制理论机制图，将文字化的理论推演转化为可视化因果链条

研究设计：

Agent自动生成变量定义表、模型设定与识别策略的标准化说明
数据来源与样本筛选的规范化描述

实证结果：

Agent帮助从回归数字中提炼“学术故事”——不是罗列表格，而是构建全文叙事弧线
结果解读的三层递进：统计显著性→经济显著性→理论含义

结论与讨论：

Agent辅助提炼理论贡献、政策启示与研究局限
未来研究方向的智能生成与多方案筛选

主题19：“无AI痕迹”的学术写作规范与语言风格自然化

本讲定位：解决AI辅助写作中最关键的痛点——如何让AI生成的文章“不像AI写的”。

核心内容：

AI生成痕迹的自我检测方法：

句式重复性分析：AI倾向于使用相似的句式结构（如“This paper finds that...”的反复出现），Agent可自动标记高频句式
词汇偏好识别：AI有特定的“偏好词库”（如“delve into”、“underscore”、“notably”），过度使用即暴露AI痕迹
段落结构模式检测：AI倾向于“主题句→证据句→结论句”的机械三段式，缺乏人类写作的节奏变化

语言风格自然化策略：

让Agent将“机械感”转化为“学者感”——从“The results indicate that...”到“Our findings point to...”
学者风格迁移：让Agent学习并模仿你本人的写作风格（基于你过去论文的语料训练）
个性化术语库：建立你专属的术语偏好与表达习惯库

AI使用的学术边界：

各大期刊对AI使用的政策梳理与合规指南
如何在论文中透明声明AI的使用范围与方式

实操：对一段AI生成的文本进行“去AI化”润色，体验从“机器味”到“学者味”的转变过程。

主题20：多智能体审稿模拟、回复信生成与个人写作系统搭建

本讲定位：以“投稿-审稿-修改-回复”的学术发表闭环为场景，完成个人专属学术写作Agent系统的搭建。

核心内容：

多智能体审稿模拟：

配置“主编Agent + 方法审稿人Agent + 理论审稿人Agent”的三智能体审稿团队
各Agent根据目标期刊的标准，从不同维度评估论文质量（理论创新、方法 rigor、实证可信度、写作清晰度）
自动生成结构化的审稿意见：包含总体评价、大修/小修/拒稿建议、具体修改清单

审稿意见自动回复：

Agent针对每一条审稿意见逐一生成回复信初稿
回复策略：对可修改的意见提供具体修改方案，对不可修改的意见提供理性辩护
“修改说明”与“正文修改”的交叉索引自动生成

论文修改优先级排序：

Agent根据修改难度与边际收益对修改清单进行排序，制定高效的修改计划

个人学术写作Agent系统的搭建：

个人写作风格指南：让Agent学习并内化你的行文偏好、术语习惯与修辞风格
写作素材库：自动分类保存顶刊范文的精彩句式、论证范式与结构模板
写作进度管理：Agent自动追踪各章节完成状态，识别瓶颈章节并生成下一步撰写建议