乐于分享
好东西不私藏

下载了 CFPS/CHARLS 却不会写论文?这份"从选题到回归"的完整路径,少走两年弯路

下载了 CFPS/CHARLS 却不会写论文?这份"从选题到回归"的完整路径,少走两年弯路

BEAUTIFUL
从数据库到论文:CFPS 与 CHARLS 微观实证的完整落地路径,写给每一个正在选题的你
01
引子:为什么你下载了数据,却写不出论文?
在经济学、社会学、公共管理乃至医学院的实证研究圈子里,有两个名字几乎是绕不开的—— CFPS (中国家庭追踪调查)和 CHARLS (中国健康与养老追踪调查)。
这两个数据库几乎是每一位做微观实证研究的研究生、青年教师的”起手式”。打开知网一搜,以 CFPS 或 CHARLS 为关键词的论文动辄数千篇,仅截至 2023 年 9 月,仅以 CHARLS 为基础发表的论文就超过 4,500 篇,其中 SCI/SSCI 英文期刊论文超过 2,000 篇。
但奇怪的现象是: 大多数人下载完数据之后,就卡死在了第二步 。有人对着成百上千个变量发呆,不知道该从哪里下手;有人好不容易跑出了回归,却被审稿人一句”你的识别策略是什么”打回原形;还有人辛辛苦苦搭了模型,才发现选题本身就不成立。
问题从来不在工具,而在 逻辑 。这篇文章,我想把一条从数据库到论文的完整主线,拆给你看。
02
先认识你的”武器”:CFPS 与 CHARLS 到底是什么
很多新手在一开始就搞混了——CFPS 和 CHARLS 都叫”追踪调查”,到底差别在哪里?
CFPS(China Family Panel Studies) ,由北京大学中国社会科学调查中心(ISSS)于 2010 年正式实施,目标样本规模 16,000 户,覆盖全国 25 个省、市、自治区。问卷分四类:社区问卷、家庭问卷、成人问卷、少儿问卷。它的特点是 大而全 ——经济活动、教育、婚姻家庭、人口迁移、身心健康,几乎囊括了一个中国家庭与个体所能被度量的方方面面。官网是 isss.pku.edu.cn/cfps/。
CHARLS(China Health and Retirement Longitudinal Study) ,由北京大学国家发展研究院主持,目前与武汉大学共同执行。基线调查于 2011—2012 年开展,覆盖全国 150 个县级单位、450 个村(社区),初始样本约 1.7 万人,聚焦于 45 岁及以上中老年人群 。它的参照系是美国 HRS、英国 ELSA 和欧洲 SHARE,这意味着它天然具备国际可比性。官网是 charls.pku.edu.cn。
一句话区分:
CFPS 关注”一家人的生活全貌”,CHARLS 关注”中老年人的健康与养老”。
所以你会发现,做劳动力市场、教育回报、代际流动、子女养育的研究,CFPS 几乎是首选;而做养老保险、健康老龄化、认知功能、慢病管理的研究,CHARLS 则是不二之选。
这两个数据库在国际同行评议中的认可度都很高,加上样本规模足够大,天然满足大样本下的渐进性质, 模型的稳健性有保障,实证结果也更有说服力 。这就是为什么我常对学生讲:只要你的选题够扎实,用这两个数据库投稿时外审老师的第一印象分就不会差。
03
选题:不是从”我想做什么”开始,而是从”数据告诉我能做什么”开始
这是大多数人犯的第一个错误。
很多新手拿着一个朦胧的想法——”我想研究数字经济对老年人幸福感的影响”——就一头扎进数据里。三天之后,他会发现问卷里找不到”数字经济”的直接度量,而”幸福感”又有好几个不同的量表在打架。
真正有效的选题流程,是反向的 。
我的建议是: 先读文献,再看问卷,最后定选题 。打开知网,在”篇关摘”字段输入”CFPS”或”CHARLS”,把近三年发表在核心期刊的十几篇论文拉出来,通读一遍。你会很快建立起两种认知:
  • 这个数据库中哪些变量是被反复使用的”硬通货”(比如 CHARLS 里的 CES-D 抑郁量表、ADL 日常活动量表);
  • 哪些研究方向已经饱和(比如单纯的”互联网使用对主观幸福感的影响”),哪些方向还存在缝隙。
适合 CFPS 与 CHARLS 的好选题,通常具备三个特征 :
  1. 有明确的因果识别逻辑问卷里要能找到天然的外生冲击或工具变量,比如政策时点、地区差异、家庭事件(丧偶、子女外出)等;
  2. 有中国特色但又能对话国际文献比如中国独有的户籍制度、新农合、计划生育政策,都是 SSCI 审稿人会感兴趣的情境;
  3. 变量在问卷中是”可测且可信”的
不要去硬造问卷里没有的概念,很多学生的”创新”其实只是”为难自己”。
04
变量:从问卷条目到可回归的变量,中间差的是”构造”
这是第二个容易翻车的环节。
一份 CFPS 的成人问卷,有数百个问题;一份 CHARLS 的家户问卷,同样如此。从原始问卷到最终进入模型的 $y$、$x$、控制变量组,中间需要一整套严谨的构造逻辑。
因变量(被解释变量)的定义
以”心理健康”为例,CFPS 和 CHARLS 都提供了 CES-D(流行病学研究中心抑郁量表) 。CFPS 里常用 8 项版本,每一项按 0—3 分编码后加总,得到一个连续的抑郁指数。 这不是选择题,而是研究者自己构造出来的合成变量 。CHARLS 也提供了类似的量表,此外还有 ADL(日常生活活动能力)、IADL(工具性日常生活活动)这类功能度量。
核心解释变量的构造
比如你要研究”家庭金融负债对心理健康的影响”,那么”是否有负债”可以是 0/1 变量,”负债规模”可以是连续变量,还可以进一步按负债类型(房贷、消费贷、民间借贷)分组。一个解释变量的不同构造方式,往往意味着完全不同的故事。
控制变量的选取
这是新手最容易偷懒的地方,往往习惯性地塞进”性别、年龄、受教育年限、婚姻、收入、户籍”——然后就没了。
但真正严谨的实证,会按 个人层面—家庭层面—社区层面—省份层面 的多层结构去搭建控制变量组。比如做老年人健康的研究,除了个人特征,还需要控制家庭结构(子女数量、是否同住)、社区条件(是否有卫生室、是否集中供暖)、地区固定效应。这些信息在 CFPS 和 CHARLS 里其实都有,只是藏得深,需要你去翻社区问卷和跨年度数据匹配。
一句话总结变量处理的精髓 :变量不是”找”出来的,是”造”出来的。
05
模型:不要炫技,要匹配数据结构
关于模型选择,我见过最大的误区,是学生一上来就想做 DID(双重差分)或者 RDD(断点回归),理由是”这样审稿人喜欢看”。
方法是为问题服务的,而不是反过来 。
根据 CFPS 和 CHARLS 的数据结构,常用模型大致可以分成几类:
  • 当因变量是连续变量
(如收入、抑郁得分、认知得分)——OLS 是基础,面板数据下优先考虑 固定效应模型 (个体固定效应 + 年份固定效应),这是近几年顶刊里最常见的基础设定;
  • 当因变量是二元或有序变量
(如是否患慢病、自评健康等级)——用 Logit / Probit 或 Ordered Logit;
  • 当存在显著的内生性
——工具变量法(IV)、Heckman 两步法、倾向得分匹配(PSM)是常见工具;
  • 当有明确的政策冲击
(如新农合推广、延迟退休)——DID、事件研究法(Event Study)、PSM-DID 组合拳;
  • 当因变量是时间到事件
(如首次患病时间、死亡时间)——Cox 比例风险模型,这是 CHARLS 发医学二区期刊的常见套路。
最关键的一点 :你用什么模型,取决于数据能支持什么。CFPS 是每两年一轮的严格追踪面板,适合做固定效应和 DID;CHARLS 同样是每两年一轮,截至目前已经发布了五轮数据(2011、2013、2015、2018、2020),其中 2020 年第五轮数据于 2023 年 11 月正式公开发布,时间跨度足够做生命历程研究和队列分析。
06
几点给初学者的忠告
写了这么多,最后我想把一些带学生的经验浓缩成几句话:
  1. 第一,不要迷信”清洗好的数据” 。市面上有很多打包好的”CFPS 已清洗版本”,看似省事,其实埋了大量的坑。真正能打磨出论文的人,一定是自己动手从原始问卷合并、清洗、构造变量的人。这个过程才是你真正理解数据的过程。
  2. 第二,代码可以复刻,逻辑不能复刻 。你可以完整复现一篇顶刊论文的所有回归,但你不会因此写出下一篇顶刊论文。真正的创新来自 在别人已有的框架上,问一个新的问题,或换一个新的视角 。
  3. 第三,先跑出一个”丑陋但完整”的稿子 。很多人卡在”精致的拖延症”里,非要把每个变量处理到完美才敢跑回归。但实证研究的真相是: 写作是在回归中完成的,不是在回归之前完成的 。先跑出一份能读的初稿,再反复打磨,才是高效的路径。
  4. 第四,数据之外,永远有一个真实的中国 。CFPS 记录了上亿个中国家庭的经济活动与代际关系,CHARLS 记录了数以万计的中老年人从壮年走向衰老的轨迹。当你在 Stata 里敲下命令的时候,不要忘记——每一行数据背后,都是一个人、一个家庭、一段时代的缩影。好的研究,是让这些沉默的数字重新开口说话。
07
结语
从数据库到论文,真正考验的从来不是代码能力,而是 把一个现实问题翻译成可验证的计量语言 的能力。选题、变量、模型,每一步都互为因果——选题决定了你需要哪些变量,变量决定了你能用哪些模型,而模型反过来又会倒逼你去检视选题的稳健性。
CFPS 和 CHARLS 这两个数据库,是中国微观实证研究最肥沃的两块土壤。土壤本身足够好,剩下的,就看你能不能耐下心来,把这条从数据到论文的路,扎扎实实走一遍。
祝你早日跑出自己的第一个显著系数。