如何用AI测度企业文化?RFS、《金融研究》同款数据,直接免费分享给你!-夜雨聆风

如何用AI测度企业文化?RFS、《金融研究》同款数据,直接免费分享给你!

做公司治理或非正式制度研究的朋友，可能都遇到过同一个难题：诚信文化到底怎么量化？

查一下文献，常见做法是用问卷调查，但样本量有限、覆盖面窄。也有人用年报里的“诚信”“合规”等关键词词频，可翻几篇年报就发现问题——有的公司通篇喊“我们始终坚持诚信经营”，但翻看监管记录，违规处罚不少；有的公司很少提“诚信”，却建立了完善的举报人保护制度。

词典法根本抓不住语义。

直到去年，RFS（Review of Financial Studies）上发了一篇论文 Dissecting Corporate Culture Using Generative AI (Li et al., 2025)。作者用生成式AI从分析师报告、电话会文本里提取企业文化因果三元组（事件→文化→结果），还比较了分析师、管理层、员工三方视角的差异。方法很漂亮，逻辑很清晰，但复刻起来……

我算了一笔账：要处理上千万条年报句子，要写代码调用大模型API，要处理输出格式、并发控制、成本控制……对大多数经管研究者来说，技术门槛依然不低。

而且这还是美国数据。做中国研究怎么办？换成A股年报，一切重来。

无独有偶，同年《金融研究》第9期的《诚信文化与金融企业社会责任承担》（田子方等，2025）聚焦中国A股金融上市公司，采用有监督机器学习筛选年报文本，并借助大语言模型（Qwen1.5-110b）构建了金融上市公司诚信文化强度指标。研究发现，诚信文化通过增强信息透明度和降低经营风险，显著提升了金融企业的社会责任表现。

中外两大金融学期刊不约而同地聚焦企业文化，可见这一主题的学术价值。但无论是RFS的复杂因果提取，还是《金融研究》的行业限定性尝试，想把数据构建方法真正落地，仍面临不少繁琐工作。我们就在想：能不能把这事提前做完？把几百万条年报句子跑完，把文化类型识别封装成可以直接用的面板数据？

于是我们用AI文易平台，调了先进的GPT模型，把2001-2024年所有A股上市公司年报的“管理层讨论与分析”（MD&A）章节拆成句子，一条一条跑了一遍。识别了六类企业文化：协作与以人为本、客户导向、创新与适应、诚信、绩效导向、其他。

我们跑通了这套流程，数据开放获取

跑完的结果，我们整理成了两份数据：

一份是“诚信文化”指标，复刻《金融研究》2025年第9期田子方老师团队的做法——用大语言模型判断年报句子是否体现“诚实守信、不逾越底线，审慎经营”的诚信文化，然后汇总到公司-年份层面。如果你研究金融企业社会责任、信息不对称、合规经营，这个变量可以直接拿来用。

[顶刊复刻] 从RFS到《金融研究》：用AI大模型复刻企业诚信文化测度

另一份是完整的“六类企业文化”测度，对应RFS论文的中国版复刻。除了诚信，还包括协作、创新、客户导向、绩效导向等维度。每个维度都有句子级别的标签和公司-年份的聚合指标（占比、频次等）。想做异质性分析、机制检验，或者探索不同文化类型对业绩、风险、创新的差异化影响，这份数据可以省去大量前期工作。

[RFS顶刊复刻] 如何用生成式AI构建中国版企业文化测度？

为什么把数据免费分享出来？

第一，数据源是公开的年报，方法也是公开的。既然已经跑出来了，就应该尽可能开放，方便大家检验、复刻和拓展。这比锁在硬盘里更有价值。

第二，我们更希望您能通过这些数据，真正了解AI文易平台的强大能力。具体而言，如果您需要研究企业文化的其他维度（如创新导向、客户导向、协作与以人为本、绩效导向），也就是完整复刻RFS顶刊论文中的那套六类企业文化测度，平台上有现成的解决方案：您可以优惠获取全套数据，也可以使用平台的自定义Prompt自行运行。如果您想进一步探索更复杂的因果链提取，例如‘什么原因导致了什么文化，文化又带来了什么结果’，平台同样可以低成本帮您实现。

诚信文化测度数据，按照文末方式参与活动即可免费领取！

与此同时，活动期间参与平台内测的所有用户朋友，都将获赠一个月VIP，享受全平台数据优惠购买及更多平台权限！

对于此前参加过数字化转型测度数据活动的朋友们，请您联系客服，我们会为您开通一个月的平台VIP权限。

数据长什么样？

给您看几条模型判断的例子：

• 原文：“公司始终坚持合规经营，报告期内未发生一起重大违约事件，客户投诉率同比下降30%。”模型输出：诚信（✓ 正确识别）
• 原文：“未来公司将进一步加强内部控制体系建设，防范道德风险。”模型输出：诚信（✓ 正确，体现了“防范道德风险”）
• 原文：“我们倡导开放、包容的团队氛围，鼓励跨部门协作。”模型输出：协作与以人为本（✓）

模型不是匹配关键词，而是真正理解语义。那些似是而非的空话，模型会自动过滤掉。

拿到数据后你能做什么？

• 直接跑回归：把“诚信文化强度”变量合并到你的财务面板里，检验它对企业社会责任、违规概率、融资成本等的影响。
• 做机制分析：看诚信文化是通过降低信息不对称还是降低经营风险来起作用的。
• 做异质性：用六类文化的细分指标，比较不同文化类型的治理效果差异。

不止于企业文化：任何定制化研究数据，我们都能帮你完成

真正让我们兴奋的，不是跑完了一个指标，而是验证了一件事：借助AI文易平台，任何基于大模型的大规模文本分析需求，都可以低门槛、高效率地落地为研究级面板数据。

你的研究方向可能不是企业文化。你可能关心：

• ESG语调与漂绿识别：从年报、社会责任报告中，构建“实质性行动”和“空泛承诺”的二元标签；
• 数字化转型与战略叙事：不只算词频，而是让模型理解“公司在技术投入上是真金白银，还是概念包装”；
• 风险信息披露的情感与模糊性：抓监管问询函、业绩说明会里的管理层语调、不确定表达与模糊策略；
• 供应链、创新合作、竞争策略：从年报MD&A中提取企业之间的合作网络、竞争动向；
• 任何一个你论文里急需，但现有数据库买不到、爬不到的文本变量。

我们常被问到一个问题：“我的研究想法还不够具体，也能做吗？”

当然可以。 从模糊的构想到清晰的“判断标准”，中间确实有一段路。这正是我们可以介入的地方——我们配备了专门的数据工程师，能跟你一起把研究问题翻译成AI能执行的Prompt。哪怕你目前只有一个方向性的选题、一个大概想测的构念，我们可以帮你把它细化、操作化，一步步打磨成可重复运行的文本分析流程。

无论你的研究场景有多垂直、多新颖，你不需要部署模型、不需要写代码。你可以只是告诉我们“我想从文本里找出什么”，甚至只是“我想研究这个方向，但还没想好具体怎么量化”，剩下的交给我们和AI文易平台。

更灵活的是，你既可以用我们现有的数据集，也可以上传自己的文本语料（年报、公告、新闻、研报、专利、社交媒体……），还可以在平台上自主编写Prompt、调试分类体系，一遍一遍迭代，直到跑出你满意的指标。想要全托管式服务也完全没问题：你提需求，我们来设计数据处理流程、评估结果、交付最终面板数据。

这也就意味着：你离一篇顶刊的实证部分，可能只差一个想法——甚至一个还不成型的想法。

如果你对AI文本分析本身感兴趣，也可以用我们的平台（AI文易）自己跑——不需要写代码，写一段Prompt，上传CSV，点一下启动，几百万条句子几个小时跑完。这次的数据就是用这个平台生产的。

这份数据，现在可以分享给你

我们把这套企业文化数据整理好了，想把它分享给真正在做相关研究的朋友。

👉 如果你对这套数据感兴趣，或者想亲自体验一下“两步就能跑完AI文本分析”的AI文易平台，可以查看文末图片。我们还准备了专属客服，如果你在数据使用或平台操作上遇到任何问题，可以直接问。

P.S. 如果你自己也有研究想法，但不知道怎么用数据实现，也欢迎来和我们交流。如果你身边也有做相关研究的朋友，欢迎转发给他。毕竟，工具的最终价值，是让好想法能落地。

🌐 官方网站：fintextai.com

点击左下角「阅读原文」，即刻开始文易！

声明：如需在论文中引用数据，请注明数据来自于AI文易平台。