v2.1 完整版(可直接落地执行)
适用范围:学术研究、政策分析、商业情报、公共传播、AI辅助信息处理等全场景信息检索与分析
核心目标:在生成式AI泛滥、信息疫情频发、多模态内容普及的时代,建立可验证、可复现、可审计、人机协同合规的知识生产标准
第一章 信源准入与分级管理
1.1 基础排除项(零容忍清单)
排除类型 判定标准 检测手段
商业广告 存在付费推广标识、软文特征、CTA(行动号召)话术 广告拦截库 + 人工复核
匿名自媒体 无明确作者署名、无机构隶属、无学术背景可查 域名WHOIS查询 + 作者溯源
营销号内容 已标注为营销号的公众号、标题党特征(情绪词>30%)、无原创标识 平台标记 + 文本情绪分析
AI生成内容(v2.1细化) 1.纯AI生成:AIGC检测概率>0.7、无AI使用声明、无人工审核痕迹 2.AI辅助创作:概率0.5-0.7未标注+无审核痕迹 3.多模态AI生成:图文/音视频伪造痕迹明确 GPTZero/Originality.ai/国产AI检测器+多模态伪造检测工具+作者声明核查
操作规范(v2.1补充):
1. 排除决策必须记录具体理由(如"排除X篇:GPTZero检测AI概率0.85,无人工审核声明")
2. 边缘案例(AIGC概率0.5-0.7)启动人工深度审查:完成事实溯源核查、逻辑连贯性测试、作者创作过程核实,形成书面审查记录,合格方可准入
3. AIGC内容分级管控:- 纯AI生成内容:零容忍,直接排除
• AI辅助人类创作:人类主导核心逻辑/事实核查,AI仅润色/格式整理,需标注"AI辅助创作"并附审核痕迹,可纳入C级及以上
• AI工具数据处理:仅做提取/统计,无需检测,仅需披露工具使用
4. 多模态AI内容(图文/音视频)检测阈值与文本一致,无源文件痕迹直接排除
1.2 搜索引擎中立性协议
检索策略:
1. 学术优先:默认使用Google Scholar、Semantic Scholar、OpenAlex、PubMed、CNKI(中文)
2. 跨平台验证:同一查询必须在≥3个独立索引执行,标记结果差异度>30%的查询
3. 算法审计:记录各平台排序算法版本(如Google Scholar 2024年权重调整),分析算法偏见对结果的影响
域名分级权重(v2.1补充细化):
等级 域名类型 权重 备注
A+ .edu/.gov/.ac.uk+机构知识库+政府公益一类事业单位域名 1.0 验证SSL证书+机构隶属,国别域名(.gov.cn/.edu.cn)同权
A 同行评审期刊、DOAJ认证OA期刊、预印本平台(arXiv、bioRxiv) 0.9 核查ISSN/DOI真实性
B 国际智库(布鲁金斯、兰德)、权威媒体(Reuters/AP) 0.7 交叉验证信源独立性
C 企业白皮书、专家实名博客、ResearchGate实名认证账号、社交媒体权威账号 0.4 仅辅助参考,不可独立依据
D 内容农场、未验证自媒体、营销号 0.0 自动过滤
动态权重调整(v2.1新增):
信源出现1次事实错误,权重下调0.1;累计2次及以上,直接降至D级并纳入黑名单
1.3 来源可信度矩阵(动态版)
等级 类型 准入条件 有效期 降级触发条件
A级 同行评审期刊、政府统计、国际组织报告 DOI/报告编号可验证;数据可用性声明(DAS)完整 永久(撤稿监测) 撤稿、数据造假、复制危机
B级 学术会议、预印本、权威智库报告 核验作者机构/ORCID;预印本声明投稿状态 2年(正式出版后升级) PubPeer质疑、方法学缺陷
C级 权威新闻稿、专家访谈、行业白皮书 ≥2个独立信源交叉验证;作者可确认 6个月(时效内容) 事实错误、利益冲突曝光
P级(实时信息流) 社交媒体、突发新闻 未经核实默认P级;4小时内升级/排除 4小时 超时未验证、出现反转证据
P级信源升级量化标准(v2.1新增):
满足2个及以上A/B级信源印证、事实无争议、无反转证据,可升级为C级;未达标则直接排除
1.4 实时可信度衰减模型(v2.1场景细分)
适用场景:突发公共事件、快速演变议题(疫情、冲突、政策变动、财经舆情)
可信度半衰期规则(按议题细分):
1. 公共卫生/突发安全事件:未经核实社交热点2h,权威媒体首发6h,政府实时数据12h
2. 财经/政策变动议题:未经核实信息流3h,权威财经媒体首发8h,政府数据24h
3. 社会舆情/泛资讯议题:社交热点4h,权威媒体首发12h
4. 预印本(未同行评审):6个月
5. 政府常规统计数据:24h(标注更新时间)
滚动验证协议:
1. 每6小时重新评估P级信源状态
2. 标记"信息疫情"风险话题,人工复核比例提升至100%
3. 出现反转证据立即排除相关信源,同步回溯已用内容
第二章 数据可印证性强制规范
2.1 溯源追踪机制(技术升级版+v2.1实操细化)
数据类型 存档要求 技术实现
网页内容 URL+Wayback存档+截图 WARC格式完整捕获(含JS渲染)
学术文献 DOI+版本控制(预印本→正式版) Unpaywall API关联版本差异
数据库 检索式+时间戳+结果导出 原始CSV/JSON+查询日志
动态内容 交互式Dashboard、可视化工具 Playwright录屏+参数快照+DOM捕获
受限访问数据 注明"受限访问"+申请理由+审批链 内部系统权限日志
区块链存证(v2.1落地细则):
1. 存证主体:分析员为第一存证人,项目负责人复核,关联工号/机构编码
2. 链选择:公开研究用Polygon公链,机构内部用Hyperledger私有链,跨机构用联盟链
3. 轻量化方案:数据量<100条可采用SHA-256哈希+机构加密存档,留存哈希值与路径
4. 存证信息:数据指纹、时间戳、责任人数字签名,提供公开/内部核验接口
5. 核验要求:第三方可通过交易ID/内部权限验证数据不可篡改
2.2 三角验证原则(强化版+v2.1 AI专项)
基础要求:
• 单一数据源不得作为结论依据
• 必须通过≥2种独立方法/来源交叉验证
扩展要求:
• 方法三角:定量数据+定性访谈+文献元分析
• 来源三角:学术文献+政府数据+行业报告
• 时间三角:历史数据+实时监测+预测模型
• 地理三角:不同国家/地区数据(消除地域偏见)
AI辅助分析专项验证(v2.1新增):
1. AI生成分析/趋势判断:执行人工复盘+原始数据核算+独立信源验证三重验证
2. AI建模数据:采用"AI建模+传统统计验证+专家审核"三角模式
3. 纯AI生成结论:追加方法学验证,执行四重验证
统计方法论披露:
必须提供:样本量、抽样方式、误差范围、置信区间、缺失值处理方法;缺失任一要素,标记"统计可复现性不足"
2.3 可复现性支持标准(v2.1 AI披露细化)
检查项 合格标准 不合格标记
原始数据链接 提供下载/补充材料 原始数据未公开
代码开源 GitHub/Zenodo托管,附README/依赖清单 代码可复现性不足
分析环境 Docker镜像/conda环境文件 环境配置缺失
AI辅助分析 完整披露AI工具、版本、提示词、随机种子、迭代轨迹 AI生成未声明
AI信息分类披露要求:
1. 通用AI(ChatGPT/文心一言/Gemini):完整提示词(系统+用户)、输出时间、随机种子
2. 专业分析AI(Python/Stata/SPSS AI):额外披露模型参数、训练数据范围、分析代码
3. 提示词全程留存版本轨迹,与报告同步存档
第三章 科学严谨性执行框架
3.1 操作透明化:黑箱报告 2.0(v2.1新增AI专项字段)
强制记录内容:
【检索日志】
• 初始检索结果数量:____
• 平台分布:Google Scholar (), Semantic Scholar (), 其他 (___)
• 算法版本:____
【AI辅助检索日志(v2.1新增)】
• AI检索工具:、核心提示词:
• AI初步检索结果:、人工复核差异:
• AI辅助分析结论:、人工验证通过:
【筛选流程】
• 第1层排除(基础项):篇,原因:_
• 第2层排除(AIGC检测):篇,平均AI概率:_
• 第3层排除(可信度分级):___篇,C级降P级:___篇
• AI辅助筛选排除(v2.1新增):篇,原因:_
• 最终纳入:篇(A级,B级___,C级___,P级___)
【验证记录】
• 三角验证执行次数:____
• 一致性检验结果:____
• 存证哈希值/区块链ID:____
• AI辅助验证一致性率(v2.1新增):____
3.2 偏见消除程序(量化升级+v2.1 AI偏见补充)
一致性检验:
• 标准:Cohen's Kappa系数≥0.8(几乎完全一致)
• 0.6-0.8:引入第三方仲裁员重评分歧项
• <0.6:全员重训,数据重新标注
偏见类型清单(v2.1扩展AI专项):
偏见类型 检测方法 消除措施
确认偏见 盲法审查(隐藏研究假设) 反向假设测试
发表偏见 漏斗图/Egger检验 检索灰色文献
语言偏见 仅英文vs多语言对比 非英语文献≥20%
时效偏见 引用文献年代分析 经典文献(>10年)≥15%
地理偏见 作者地理分布统计 全球南方文献≥25%
AI确认偏见(v2.1新增) AI摘要vs全文阅读差异 关键文献强制人工全文阅读
AI算法检索偏见(v2.1新增) AI检索vs人工全量检索对比 偏差率>20%调整策略,不单一依赖AI
AI训练数据偏见(v2.1新增) 训练数据地域/语言/学科覆盖度 覆盖不足补充人工检索
多样性审计(v2.1补充AI维度):
1. 每季度统计作者性别/地理/机构多样性,偏离基准>20%书面说明并纠正
2. 新增AI工具数据源/算法类型多样性审计,偏离行业基准>15%需说明
3.3 数据完整性保全
存储标准:
• 格式:PDF/A(文档)、WARC(网页)、CSV(数据)、MP4(录屏)
• 期限:≥5年
• 校验:SHA-256哈希+区块链存证
禁止行为:
• 选择性排除与假设相悖的数据(Cherry-picking)
• 异常值处理无统计依据(需提供Grubbs/IQR检验记录)
3.4 人机协作协议(v2.1流程+追责细化)
责任边界:
任务 人类责任 AI辅助范围 禁止行为
信源分级 最终确认 建议+证据摘要 完全委托AI决策
数据提取 核查关键数据 自动化表格解析 不核对直接引用
趋势分析 解释因果机制 模式识别+可视化 相关性=因果性
报告撰写 逻辑与伦理审查 语法优化+结构建议 未标注AI生成内容
标准化协作流程(v2.1新增):
AI初步检索/筛选→人工复核关键内容→AI数据整理→人工验证准确性→AI格式优化→人工终审结论
认知卸载警示与追责(v2.1新增):
1. 每日AI辅助>4h,强制30min"无AI阅读",核心文献(≥30%)纯人工全文阅读并签字
2. 关键结论需脱离AI口头阐述逻辑链
3. 追责划分:AI建议失误+人工未复核→人工担80%责任;AI虚假内容+已标注→工具方主责,人工担20%复核责
4. 团队规范:统一AI版本/提示词,禁止私自使用未备案AI工具
第四章 质量控制与伦理
4.1 动态校准机制(v2.1新增AI专项触发器)
黑名单管理:
• 更新频率:每季度
• 纳入标准:≥2次独立核实的虚假信息
• 申诉通道:机构提交反驳证据,60天内复审
自动化监测触发器(v2.1 AI专项新增):
1. 常规触发器:文献撤稿(2h预警)、域名信誉骤降(即时标记)、PubPeer质疑(24h复核)、利益冲突曝光(即时降级)
2. AI专项触发器:AIGC批量虚假信息(2h预警)、多模态深度伪造(即时排除)、AI算法偏见超标(强制干预)、AI模型漏洞(24h复核)
主动响应:
• 自动通知分析员,临时降级信源至C级(待复核)
• 全量扫描报告,标记依赖该信源的结论
• AI虚假信息直接降为D级,启动修正流程
4.2 伦理声明(全球化扩展+v2.1 AI伦理细化)
领域 合规要求 适用场景
个人信息 GDPR、CCPA、PIPL、LGPD 含个人标识数据
脆弱群体 双重知情同意(个体+社区) 难民、少数民族等
历史档案 来源社区咨询程序 殖民/战争档案
环境伦理 碳足迹核算,优先绿色数据中心 大规模爬取(>10万条)
AI伦理(v2.1新增) 披露AI使用范围,禁止深度伪造作证据;授权训练数据 全AI辅助环节
AI伦理补充要求(v2.1新增):
1. 禁止使用未授权个人/涉密数据训练AI工具
2. AI工具提供方与议题存在商业关联,需披露并更换工具
3. AI内容不可冒充原创,引用标注"AI辅助+人工复核"
4. 脆弱群体数据禁止AI自动识别,人工全程参与
内容区分标准:
• 🔵 事实陈述:可验证客观数据(附来源)
• 🟡 分析推论:逻辑推导(附推理过程)
• 🟠 政策建议:价值判断(附利益冲突声明)
4.3 误差响应流程(主动化升级+v2.1 AI误差细分)
误差分类与差异化时限(v2.1新增):
阶段 常规误差时限 AI专属误差(计算/数据源)时限 AI逻辑推导误差时限
自动预警 2h 2h 4h
初步核实 24h 12h 24h
影响评估 48h 24h 48h
修正发布 72h 48h 72h
追溯通知 7天 5天 7天
复盘机制(v2.1新增):
AI误差处置后3日内完成复盘,优化提示词/工具使用规则,避免重复发生
第五章 技术实施规范
5.1 工具栈标准(v2.1新增国产工具+禁用细则)
功能 推荐工具 备选方案 禁用工具
AIGC检测 GPTZero、Originality.ai、百度AI文本检测器、腾讯文心检测器 OpenAI AI文本分类器 无训练数据/无合规资质/无精度报告工具
深度伪造检测 Microsoft Video Authenticator、Truepic、阿里云视频核验、讯飞音频检测 合规开源验证模型 未经验证小众工具
网页捕获 Playwright+pywb(WARC) Puppeteer+Webrecorder 仅截图无DOM捕获工具
区块链存证 Ethereum、Hyperledger Polygon 中心化存证服务
一致性检验 R irr包、Python sklearn 人工计算 未验证在线计算器
版本控制 Git+Zenodo Figshare 无DOI私有仓库
工具更新机制(v2.1新增):
每年度评估工具栈,淘汰精度/合规不达标工具,新增适配AI新技术的工具
5.2 人员资质与培训(v2.1 AI专项能力细化)
分析员分级:
• 初级:信息素养认证(AIGC识别+统计基础)+AI工具合规使用实操
• 高级:≥3年经验+主导≥5份黑箱报告+AI偏见/误差处置培训
• 仲裁员:≥5年经验+跨学科+伦理认证+多模态AI审核能力
强制年度培训(v2.1补充实操考核):
• 新兴AIGC检测技术(4h)
• 统计方法更新(8h)
• 伦理案例研讨(4h)
• 无AI分析演练(4h)
• 新增:AI工具实操、多模态审核、AI误差处置演练,实操考核通过方可上岗
夜雨聆风