AI 社科论文应用教学!如何用 AI 从新闻和公告中发现事件变量!

点击蓝字关注我们

AI academic space

推荐使用最新科研AI工具：

https://chat.cnpaperdata.com

本文基于 Barcelona School of Economics（BSE）工作论文：

Mayoral, L., Mueller, H., Philipp, M., Rauh, C., & Vassallo, R. (2026).Semantic Similarity Measures in Newspaper Text for Detecting and Predicting Disruptive Institutional EventsBSE Working Paper No. 1555

研究使用全球新闻文本与机器学习方法，构建制度性冲击的识别与预测框架，覆盖政变、任期延长与司法系统弱化等事件类型。

作者来自 Barcelona School of Economics（BSE）、Universitat Pompeu Fabra（UPF）等机构，研究方向集中在政治经济学与文本数据建模。

数据来源与事件定义

研究构建了跨国制度性事件数据集，覆盖三类核心事件：

• 军事政变（Coup d’état）
• 任期限制规避（Term-limit evasion）
• 司法系统弱化（Judiciary weakening）

数据来源包括多个权威事件数据库：

• Cline Center Coup Dataset
• Powell & Thyne Coup Data
• Versteeg et al. term-limit dataset
• Helmke judicial manipulation data
• DEED（Democratic Erosion Event Dataset）

最终形成覆盖 194个国家、1989年以来的月度面板数据。

新闻数据部分来自全球主流媒体数据库：

• Factiva
• LexisNexis
• BBC Monitor
• Associated Press
• The New York Times
• The Economist
• LatinNews

总规模约 600万条新闻标题，按国家与月份进行结构化整理。

方法链条：从新闻到风险变量

研究的核心是将新闻文本转化为可用于统计建模的风险指标，整体流程可以分为四个连续步骤。

文本向量化（语义空间构建）

每条新闻标题首先被映射到向量空间。

中文场景下推荐的 embedding 模型为：

Kingsoft-LLM/QZhou-Embedding-Zh（MTEB #1）或Tencent/Youtu-Embedding（工业级强基线）

这些模型在语义排序任务中表现稳定，适用于事件检测场景。

from sentence_transformers import SentenceTransformermodel = SentenceTransformer("Kingsoft-LLM/QZhou-Embedding-Zh")vec = model.encode("军方宣布接管国家政权")

输出为高维语义向量，用于表示新闻在语义空间中的位置。

事件语义原型（Prototype）

每类制度性事件通过“语义原型”进行定义。

原型由40–70条典型新闻标题构成，例如：

• military takeover
• constitutional manipulation
• judicial intervention

这些样本经过 embedding 后取平均，形成事件中心向量。

import numpy as npevent_vec = np.mean(model.encode([    "军队进入首都并控制政府机构",    "政府宣布解散议会",    "军事力量接管国家政权"]), axis=0)

这一向量代表某类制度性冲击的语义中心。

语义匹配（风险强度测量）

每条新闻与事件原型计算余弦相似度：

from sklearn.metrics.pairwise import cosine_similarityscore = cosine_similarity([news_vec], [event_vec])[0][0]

该分数用于刻画新闻与制度性冲击语境之间的接近程度。

在这一阶段，每条新闻被转化为一个连续风险信号。

国家-月份风险指标

在文章层面完成计算后，进一步聚合到国家-月份：

Risk(i,t) = mean similarity(all headlines in country i at month t)

同时构建补充统计量：

• 最大相似度（max）
• Top-k平均
• 标准差（离散程度）
• 新闻数量（coverage）

这些变量共同构成文本驱动的风险特征体系。

事件识别模型（Nowcasting）

在事件识别阶段，研究使用监督学习模型判断某国某月是否发生制度性冲击。

主要模型为：

• XGBoost（主模型）
• LightGBM
• CatBoost

输入变量包括三类信息：

语义特征

• mean / max / std similarity
• top-k similarity

文本结构特征

• 新闻数量
• LDA主题分布

历史结构特征

• 距离上次事件时间
• 最近事件频率
• 选举周期变量

输出为：

事件发生概率（0–1）

模型在不同事件类型上的表现稳定：

• Coup：AUC ≈ 0.90
• Term-limit evasion：AUC ≈ 0.92
• Judiciary weakening：AUC ≈ 0.80

embedding特征在所有类别中均提供稳定增益。

事件预测（12个月滚动预测）

在识别基础上，研究进一步构建预测模型，用于估计未来12个月内事件发生概率。

方法采用 expanding window 设计：

• 每月更新训练样本
• 仅使用历史数据训练
• 输出未来12个月风险概率

核心模型为 Random Forest，通过多棵树集成建模非线性关系。

输入变量延续识别阶段特征，并加入时间衰减与长期历史结构信息。

中文场景实现路径

该方法可直接迁移至中文新闻与政策文本分析任务。

参考榜单：

https://huggingface.co/spaces/mteb/leaderboard

模型	位置
QZhou-Embedding-Zh	MTEB #1
Tencent/Youtu-Embedding	工业强基线
Seed / Conan 系列	次优替代

中文实现示例

from sentence_transformers import SentenceTransformerfrom sklearn.metrics.pairwise import cosine_similarityimport numpy as npmodel = SentenceTransformer("Kingsoft-LLM/QZhou-Embedding-Zh")event_vec = np.mean(model.encode([    "政府解散议会并接管司法系统",    "军方宣布接管国家政权",    "修改宪法延长总统任期"]), axis=0)news_vecs = model.encode([    "总统宣布解散最高法院",    "议会通过宪法修正案",    "经济政策保持稳定"])scores = cosine_similarity(news_vecs, [event_vec]).flatten()risk_index = np.mean(scores)

方法结构总结

整体系统可以抽象为：

新闻标题→ embedding（QZhou / Youtu）→ prototype similarity→ country-month aggregation→ XGBoost nowcast→ Random Forest forecast

结论

该研究构建了一套基于语义相似度的制度性风险测度框架，将全球新闻文本转化为连续可计算的风险时间序列，并进一步用于事件识别与预测。

其核心结构可以概括为：

用 embedding 空间中的语义距离，将新闻转化为制度性风险信号，并在时间维度上构建可预测的风险轨迹。

InfinitePaper AI 现已正式上线！

我们诚邀您即刻体验，感受AI如何重塑您的科研工作流。

新用户专享福利：即日起关注公众号后台发送 [ AI福利 ]，即可领取7 天高级会员！
教育福利：添加客服完成 教育认证，即可再享受会员 8 折优惠！
分享福利：转发本文至朋友圈（保留2小时）或科研群（15人以上），截图发送至客服，可领取科研工具包 （包含：经济学理论手册、科研AI手册）！

活动期间永久会员最高可直降 560 元！

点击“阅读原文” 直达官方网站