如何用AI测度企业文化?RFS、《金融研究》同款数据,直接免费分享给你!

做公司治理或非正式制度研究的朋友,可能都遇到过同一个难题:诚信文化到底怎么量化?
查一下文献,常见做法是用问卷调查,但样本量有限、覆盖面窄。也有人用年报里的“诚信”“合规”等关键词词频,可翻几篇年报就发现问题——有的公司通篇喊“我们始终坚持诚信经营”,但翻看监管记录,违规处罚不少;有的公司很少提“诚信”,却建立了完善的举报人保护制度。
词典法根本抓不住语义。
直到去年,RFS(Review of Financial Studies)上发了一篇论文 Dissecting Corporate Culture Using Generative AI (Li et al., 2025)。作者用生成式AI从分析师报告、电话会文本里提取企业文化因果三元组(事件→文化→结果),还比较了分析师、管理层、员工三方视角的差异。方法很漂亮,逻辑很清晰,但复刻起来……

我算了一笔账:要处理上千万条年报句子,要写代码调用大模型API,要处理输出格式、并发控制、成本控制……对大多数经管研究者来说,技术门槛依然不低。
而且这还是美国数据。做中国研究怎么办?换成A股年报,一切重来。
无独有偶,同年《金融研究》第9期的《诚信文化与金融企业社会责任承担》(田子方等,2025)聚焦中国A股金融上市公司,采用有监督机器学习筛选年报文本,并借助大语言模型(Qwen1.5-110b)构建了金融上市公司诚信文化强度指标。研究发现,诚信文化通过增强信息透明度和降低经营风险,显著提升了金融企业的社会责任表现。

中外两大金融学期刊不约而同地聚焦企业文化,可见这一主题的学术价值。但无论是RFS的复杂因果提取,还是《金融研究》的行业限定性尝试,想把数据构建方法真正落地,仍面临不少繁琐工作。我们就在想:能不能把这事提前做完?把几百万条年报句子跑完,把文化类型识别封装成可以直接用的面板数据?
于是我们用AI文易平台,调了先进的GPT模型,把2001-2024年所有A股上市公司年报的“管理层讨论与分析”(MD&A)章节拆成句子,一条一条跑了一遍。识别了六类企业文化:协作与以人为本、客户导向、创新与适应、诚信、绩效导向、其他。
我们跑通了这套流程,数据开放获取
跑完的结果,我们整理成了两份数据:
一份是“诚信文化”指标,复刻《金融研究》2025年第9期田子方老师团队的做法——用大语言模型判断年报句子是否体现“诚实守信、不逾越底线,审慎经营”的诚信文化,然后汇总到公司-年份层面。如果你研究金融企业社会责任、信息不对称、合规经营,这个变量可以直接拿来用。
[顶刊复刻] 从RFS到《金融研究》:用AI大模型复刻企业诚信文化测度
另一份是完整的“六类企业文化”测度,对应RFS论文的中国版复刻。除了诚信,还包括协作、创新、客户导向、绩效导向等维度。每个维度都有句子级别的标签和公司-年份的聚合指标(占比、频次等)。想做异质性分析、机制检验,或者探索不同文化类型对业绩、风险、创新的差异化影响,这份数据可以省去大量前期工作。
[RFS顶刊复刻] 如何用生成式AI构建中国版企业文化测度?
为什么把数据免费分享出来?
第一,数据源是公开的年报,方法也是公开的。既然已经跑出来了,就应该尽可能开放,方便大家检验、复刻和拓展。这比锁在硬盘里更有价值。
第二,我们更希望您能通过这些数据,真正了解AI文易平台的强大能力。具体而言,如果您需要研究企业文化的其他维度(如创新导向、客户导向、协作与以人为本、绩效导向),也就是完整复刻RFS顶刊论文中的那套六类企业文化测度,平台上有现成的解决方案:您可以优惠获取全套数据,也可以使用平台的自定义Prompt自行运行。如果您想进一步探索更复杂的因果链提取,例如‘什么原因导致了什么文化,文化又带来了什么结果’,平台同样可以低成本帮您实现。
诚信文化测度数据,按照文末方式参与活动即可免费领取!
与此同时,活动期间参与平台内测的所有用户朋友,都将获赠一个月VIP,享受全平台数据优惠购买及更多平台权限!
对于此前参加过数字化转型测度数据活动的朋友们,请您联系客服,我们会为您开通一个月的平台VIP权限。
数据长什么样?
给您看几条模型判断的例子:
-
• 原文:“公司始终坚持合规经营,报告期内未发生一起重大违约事件,客户投诉率同比下降30%。”模型输出:诚信(✓ 正确识别) -
• 原文:“未来公司将进一步加强内部控制体系建设,防范道德风险。”模型输出:诚信(✓ 正确,体现了“防范道德风险”) -
• 原文:“我们倡导开放、包容的团队氛围,鼓励跨部门协作。”模型输出:协作与以人为本(✓)
模型不是匹配关键词,而是真正理解语义。那些似是而非的空话,模型会自动过滤掉。
拿到数据后你能做什么?
-
• 直接跑回归:把“诚信文化强度”变量合并到你的财务面板里,检验它对企业社会责任、违规概率、融资成本等的影响。 -
• 做机制分析:看诚信文化是通过降低信息不对称还是降低经营风险来起作用的。 -
• 做异质性:用六类文化的细分指标,比较不同文化类型的治理效果差异。
不止于企业文化:任何定制化研究数据,我们都能帮你完成
真正让我们兴奋的,不是跑完了一个指标,而是验证了一件事:借助AI文易平台,任何基于大模型的大规模文本分析需求,都可以低门槛、高效率地落地为研究级面板数据。
你的研究方向可能不是企业文化。你可能关心:
-
• ESG语调与漂绿识别:从年报、社会责任报告中,构建“实质性行动”和“空泛承诺”的二元标签; -
• 数字化转型与战略叙事:不只算词频,而是让模型理解“公司在技术投入上是真金白银,还是概念包装”; -
• 风险信息披露的情感与模糊性:抓监管问询函、业绩说明会里的管理层语调、不确定表达与模糊策略; -
• 供应链、创新合作、竞争策略:从年报MD&A中提取企业之间的合作网络、竞争动向; -
• 任何一个你论文里急需,但现有数据库买不到、爬不到的文本变量。
我们常被问到一个问题:“我的研究想法还不够具体,也能做吗?”
当然可以。 从模糊的构想到清晰的“判断标准”,中间确实有一段路。这正是我们可以介入的地方——我们配备了专门的数据工程师,能跟你一起把研究问题翻译成AI能执行的Prompt。哪怕你目前只有一个方向性的选题、一个大概想测的构念,我们可以帮你把它细化、操作化,一步步打磨成可重复运行的文本分析流程。
无论你的研究场景有多垂直、多新颖,你不需要部署模型、不需要写代码。你可以只是告诉我们“我想从文本里找出什么”,甚至只是“我想研究这个方向,但还没想好具体怎么量化”,剩下的交给我们和AI文易平台。
更灵活的是,你既可以用我们现有的数据集,也可以上传自己的文本语料(年报、公告、新闻、研报、专利、社交媒体……),还可以在平台上自主编写Prompt、调试分类体系,一遍一遍迭代,直到跑出你满意的指标。想要全托管式服务也完全没问题:你提需求,我们来设计数据处理流程、评估结果、交付最终面板数据。
这也就意味着:你离一篇顶刊的实证部分,可能只差一个想法——甚至一个还不成型的想法。
如果你对AI文本分析本身感兴趣,也可以用我们的平台(AI文易)自己跑——不需要写代码,写一段Prompt,上传CSV,点一下启动,几百万条句子几个小时跑完。这次的数据就是用这个平台生产的。
这份数据,现在可以分享给你
我们把这套企业文化数据整理好了,想把它分享给真正在做相关研究的朋友。
👉 如果你对这套数据感兴趣,或者想亲自体验一下“两步就能跑完AI文本分析”的AI文易平台,可以查看文末图片。我们还准备了专属客服,如果你在数据使用或平台操作上遇到任何问题,可以直接问。
P.S. 如果你自己也有研究想法,但不知道怎么用数据实现,也欢迎来和我们交流。如果你身边也有做相关研究的朋友,欢迎转发给他。毕竟,工具的最终价值,是让好想法能落地。

点击左下角「阅读原文」,即刻开始文易!
声明:如需在论文中引用数据,请注明数据来自于AI文易平台。
夜雨聆风