下载了 CFPS/CHARLS 却不会写论文?这份＂从选题到回归＂的完整路径,少走两年弯路-夜雨聆风

下载了 CFPS/CHARLS 却不会写论文?这份＂从选题到回归＂的完整路径,少走两年弯路

BEAUTIFUL

从数据库到论文：CFPS 与 CHARLS 微观实证的完整落地路径，写给每一个正在选题的你

引子：为什么你下载了数据，却写不出论文？

在经济学、社会学、公共管理乃至医学院的实证研究圈子里，有两个名字几乎是绕不开的—— CFPS （中国家庭追踪调查）和 CHARLS （中国健康与养老追踪调查）。

这两个数据库几乎是每一位做微观实证研究的研究生、青年教师的”起手式”。打开知网一搜，以 CFPS 或 CHARLS 为关键词的论文动辄数千篇，仅截至 2023 年 9 月，仅以 CHARLS 为基础发表的论文就超过 4,500 篇，其中 SCI/SSCI 英文期刊论文超过 2,000 篇。

但奇怪的现象是：大多数人下载完数据之后，就卡死在了第二步。有人对着成百上千个变量发呆，不知道该从哪里下手；有人好不容易跑出了回归，却被审稿人一句”你的识别策略是什么”打回原形；还有人辛辛苦苦搭了模型，才发现选题本身就不成立。

问题从来不在工具，而在逻辑。这篇文章，我想把一条从数据库到论文的完整主线，拆给你看。

先认识你的”武器”：CFPS 与 CHARLS 到底是什么

很多新手在一开始就搞混了——CFPS 和 CHARLS 都叫”追踪调查”，到底差别在哪里？

CFPS（China Family Panel Studies），由北京大学中国社会科学调查中心（ISSS）于 2010 年正式实施，目标样本规模 16,000 户，覆盖全国 25 个省、市、自治区。问卷分四类：社区问卷、家庭问卷、成人问卷、少儿问卷。它的特点是大而全 ——经济活动、教育、婚姻家庭、人口迁移、身心健康，几乎囊括了一个中国家庭与个体所能被度量的方方面面。官网是 isss.pku.edu.cn/cfps/。

CHARLS（China Health and Retirement Longitudinal Study），由北京大学国家发展研究院主持，目前与武汉大学共同执行。基线调查于 2011—2012 年开展，覆盖全国 150 个县级单位、450 个村（社区），初始样本约 1.7 万人，聚焦于 45 岁及以上中老年人群。它的参照系是美国 HRS、英国 ELSA 和欧洲 SHARE，这意味着它天然具备国际可比性。官网是 charls.pku.edu.cn。

一句话区分：

CFPS 关注”一家人的生活全貌”，CHARLS 关注”中老年人的健康与养老”。

所以你会发现，做劳动力市场、教育回报、代际流动、子女养育的研究，CFPS 几乎是首选；而做养老保险、健康老龄化、认知功能、慢病管理的研究，CHARLS 则是不二之选。

这两个数据库在国际同行评议中的认可度都很高，加上样本规模足够大，天然满足大样本下的渐进性质，模型的稳健性有保障，实证结果也更有说服力。这就是为什么我常对学生讲：只要你的选题够扎实，用这两个数据库投稿时外审老师的第一印象分就不会差。

选题：不是从”我想做什么”开始，而是从”数据告诉我能做什么”开始

这是大多数人犯的第一个错误。

很多新手拿着一个朦胧的想法——”我想研究数字经济对老年人幸福感的影响”——就一头扎进数据里。三天之后，他会发现问卷里找不到”数字经济”的直接度量，而”幸福感”又有好几个不同的量表在打架。

真正有效的选题流程，是反向的。

我的建议是：先读文献，再看问卷，最后定选题。打开知网，在”篇关摘”字段输入”CFPS”或”CHARLS”，把近三年发表在核心期刊的十几篇论文拉出来，通读一遍。你会很快建立起两种认知：

这个数据库中哪些变量是被反复使用的”硬通货”（比如 CHARLS 里的 CES-D 抑郁量表、ADL 日常活动量表）；

哪些研究方向已经饱和（比如单纯的”互联网使用对主观幸福感的影响”），哪些方向还存在缝隙。

适合 CFPS 与 CHARLS 的好选题，通常具备三个特征：

有明确的因果识别逻辑问卷里要能找到天然的外生冲击或工具变量，比如政策时点、地区差异、家庭事件（丧偶、子女外出）等；
有中国特色但又能对话国际文献比如中国独有的户籍制度、新农合、计划生育政策，都是 SSCI 审稿人会感兴趣的情境；
变量在问卷中是”可测且可信”的

不要去硬造问卷里没有的概念，很多学生的”创新”其实只是”为难自己”。

变量：从问卷条目到可回归的变量，中间差的是”构造”

这是第二个容易翻车的环节。

一份 CFPS 的成人问卷，有数百个问题；一份 CHARLS 的家户问卷，同样如此。从原始问卷到最终进入模型的 $y$、$x$、控制变量组，中间需要一整套严谨的构造逻辑。

因变量（被解释变量）的定义

以”心理健康”为例，CFPS 和 CHARLS 都提供了 CES-D（流行病学研究中心抑郁量表）。CFPS 里常用 8 项版本，每一项按 0—3 分编码后加总，得到一个连续的抑郁指数。这不是选择题，而是研究者自己构造出来的合成变量。CHARLS 也提供了类似的量表，此外还有 ADL（日常生活活动能力）、IADL（工具性日常生活活动）这类功能度量。

核心解释变量的构造

比如你要研究”家庭金融负债对心理健康的影响”，那么”是否有负债”可以是 0/1 变量，”负债规模”可以是连续变量，还可以进一步按负债类型（房贷、消费贷、民间借贷）分组。一个解释变量的不同构造方式，往往意味着完全不同的故事。

控制变量的选取

这是新手最容易偷懒的地方，往往习惯性地塞进”性别、年龄、受教育年限、婚姻、收入、户籍”——然后就没了。

但真正严谨的实证，会按个人层面—家庭层面—社区层面—省份层面的多层结构去搭建控制变量组。比如做老年人健康的研究，除了个人特征，还需要控制家庭结构（子女数量、是否同住）、社区条件（是否有卫生室、是否集中供暖）、地区固定效应。这些信息在 CFPS 和 CHARLS 里其实都有，只是藏得深，需要你去翻社区问卷和跨年度数据匹配。

一句话总结变量处理的精髓：变量不是”找”出来的，是”造”出来的。

模型：不要炫技，要匹配数据结构

关于模型选择，我见过最大的误区，是学生一上来就想做 DID（双重差分）或者 RDD（断点回归），理由是”这样审稿人喜欢看”。

方法是为问题服务的，而不是反过来。

根据 CFPS 和 CHARLS 的数据结构，常用模型大致可以分成几类：

当因变量是连续变量

（如收入、抑郁得分、认知得分）——OLS 是基础，面板数据下优先考虑固定效应模型（个体固定效应 + 年份固定效应），这是近几年顶刊里最常见的基础设定；

当因变量是二元或有序变量

（如是否患慢病、自评健康等级）——用 Logit / Probit 或 Ordered Logit；

当存在显著的内生性

——工具变量法（IV）、Heckman 两步法、倾向得分匹配（PSM）是常见工具；

当有明确的政策冲击

（如新农合推广、延迟退休）——DID、事件研究法（Event Study）、PSM-DID 组合拳；

当因变量是时间到事件

（如首次患病时间、死亡时间）——Cox 比例风险模型，这是 CHARLS 发医学二区期刊的常见套路。

最关键的一点：你用什么模型，取决于数据能支持什么。CFPS 是每两年一轮的严格追踪面板，适合做固定效应和 DID；CHARLS 同样是每两年一轮，截至目前已经发布了五轮数据（2011、2013、2015、2018、2020），其中 2020 年第五轮数据于 2023 年 11 月正式公开发布，时间跨度足够做生命历程研究和队列分析。

几点给初学者的忠告

写了这么多，最后我想把一些带学生的经验浓缩成几句话：

第一，不要迷信”清洗好的数据” 。市面上有很多打包好的”CFPS 已清洗版本”，看似省事，其实埋了大量的坑。真正能打磨出论文的人，一定是自己动手从原始问卷合并、清洗、构造变量的人。这个过程才是你真正理解数据的过程。
第二，代码可以复刻，逻辑不能复刻。你可以完整复现一篇顶刊论文的所有回归，但你不会因此写出下一篇顶刊论文。真正的创新来自在别人已有的框架上，问一个新的问题，或换一个新的视角。
第三，先跑出一个”丑陋但完整”的稿子。很多人卡在”精致的拖延症”里，非要把每个变量处理到完美才敢跑回归。但实证研究的真相是：写作是在回归中完成的，不是在回归之前完成的。先跑出一份能读的初稿，再反复打磨，才是高效的路径。
第四，数据之外，永远有一个真实的中国。CFPS 记录了上亿个中国家庭的经济活动与代际关系，CHARLS 记录了数以万计的中老年人从壮年走向衰老的轨迹。当你在 Stata 里敲下命令的时候，不要忘记——每一行数据背后，都是一个人、一个家庭、一段时代的缩影。好的研究，是让这些沉默的数字重新开口说话。

结语

从数据库到论文，真正考验的从来不是代码能力，而是把一个现实问题翻译成可验证的计量语言的能力。选题、变量、模型，每一步都互为因果——选题决定了你需要哪些变量，变量决定了你能用哪些模型，而模型反过来又会倒逼你去检视选题的稳健性。

CFPS 和 CHARLS 这两个数据库，是中国微观实证研究最肥沃的两块土壤。土壤本身足够好，剩下的，就看你能不能耐下心来，把这条从数据到论文的路，扎扎实实走一遍。

祝你早日跑出自己的第一个显著系数。