📑 本文目录 一、写在前面:为什么你需要这份指南? 二、备案边界确定:谁来报,报什么 三、算法名称与基本信息:先把"门面"写规范 四、模型来源说明:模型从哪里来,授权是否清楚 五、数据与语料说明:数据从哪里来,能不能用 六、算法流程图:输入、处理、输出讲清楚 七、安全评估:向主管部门证明"已测过" 八、内容安全机制:输入审核、输出审核形成闭环 九、生成合成内容标识:记得写显式和隐式 十、服务协议、投诉举报与日志留存 |
一、写在前面:为什么你需要这份指南?
很多企业第一次准备大模型备案时,都会有一个误判:认为备案只是把企业信息、产品信息、模型信息填完整,然后补几份制度文件即可。
但从实际项目经验看,大模型备案真正审查的并不是"有没有提交文件",而是企业是否能够把一款大模型服务的主体责任、模型来源、数据来源、功能边界、安全控制、内容标识、投诉处置、日志留存、持续整改讲清楚、写完整、证据链闭合。
被退回意味着什么?轻则需要重新补充说明、修改表述、补证据、重做流程图;重则可能影响产品上线节奏、客户交付节点、应用商店上架、项目验收和对外商业化进度。
注意:因文件过多,需要模板的,请在后台回复“模板”获取
二、备案边界确定:谁来报,报什么
大模型备案的第一步,不是写模型介绍,也不是写安全评估,而是先回答两个问题:
- 第一,备案主体是谁?
- 第二,备案对象是什么?
这两个问题如果没有先界定清楚,后面的模型来源、数据来源、安全机制、服务协议都会出现错位。
2.1 主体边界:谁是服务提供者?
主体边界决定了谁承担备案责任、谁对外提供服务、谁负责用户管理、谁负责内容安全和投诉处置。

2.2 服务边界:报的是产品、功能,还是模型?
很多企业会把"产品""算法""模型"混在一起写,导致材料逻辑混乱。三者应当区分:

举个例子:
如果一款产品叫"XX 智能客服系统",它面向高速出行用户提供 ETC 咨询、通行费查询、售后工单辅助等服务,那么:
产品是:XX 智能客服系统
算法可以写为:XX 智能客服生成合成算法
模型可以是:通义千问、Qwen、DeepSeek、企业自研模型,或者第三方大模型 API
备案材料不能只写"我们使用大模型提供智能问答服务",而应当写清楚:
用户输入什么 系统如何识别用户意图 是否检索知识库 是否调用大模型 输出内容如何生成 输出前是否进行安全审核 是否添加 AI 标识 是否留存日志 异常内容如何拦截和处置 注意:因文件过多,需要模板的,请在后台回复“模板”获取

三、算法名称与基本信息:先把"门面"写规范
大模型备案材料中,算法名称看似简单,但实际是高频退回点。
算法名称一般应符合"主体简称/产品简称 + 使用场景(可选)+ 算法类型 + 算法"的规范逻辑。名称不宜过短,也不宜过度营销化。
3.1 算法名称怎么写?

命名原则
① 名称中要有主体或产品简称 ② 名称中要体现服务场景 ③ 名称中要体现算法类型
3.2 算法基本情况怎么写?
算法基本情况不是写技术论文,也不是写产品宣传语,而是用简洁、准确、可审查的语言说明该算法做什么、如何做、服务谁、输出什么。

四、模型来源说明:模型从哪里来,授权是否清楚
模型来源是大模型备案的核心材料之一。主管部门关注的不是企业是否用了最先进的模型,而是企业是否能够说明:
模型是谁提供的 模型版本是什么 企业是否有权使用 模型部署在哪里 模型是否经过安全控制 模型更新后如何管理
4.1 模型来源分类

常见被退回原因
① 只写模型名称,不写版本——无法判断实际使用的模型能力和风险边界
② 只写调用 API,不写服务商——无法判断模型能力来源和责任分工
③ 使用开源模型但未说明协议——无法判断商业使用是否合法合规
④ 模型更新机制缺失——无法判断版本变更后的安全评估是否持续有效
⑤ 多模型调用关系不清——无法判断最终输出由哪个模型生成
4.2 模型来源说明模板

五、数据与语料说明:数据从哪里来,能不能用
大模型备案材料中,数据和语料部分最容易被写虚。很多企业只写"数据来源合法合规""已进行清洗脱敏""不包含违法违规内容",但没有说明数据类型、来源路径、处理规则、标注规则和证明材料,这种写法通常支撑力度不足。
5.1 数据类型怎么拆?

5.2 语料来源怎么写?

常见被退回原因
① 只写"公开数据",不写来源——无法判断数据合法性
② 只写"已脱敏",不写脱敏规则——无法判断个人信息保护措施
③ 只写"已标注",不写标注标准——无法判断数据质量
④ 只写"知识库",不写更新机制——无法判断内容持续有效性
⑤ 训练数据与知识库数据混写——无法判断数据用途
六、算法流程图:把输入、处理、输出讲清楚
大模型备案不是只看文字说明,也看系统流程是否闭环。一个合格的大模型算法流程,至少应当覆盖以下环节:
用户输入 输入内容安全校验 语义理解或意图识别 知识库检索或业务规则匹配 模型推理生成 输出内容安全校验 显式标识或隐式标识 结果输出 日志留存 投诉举报和整改优化 6.2 流程图模板

常见被退回原因
① 流程图过于简单—只写"输入—模型—输出",无法体现安全控制
② 没有输入审核—无法说明对违法违规输入的前置拦截
③ 没有输出审核—无法说明生成内容风险控制
④ 没有日志留存—无法支持追溯、投诉处理和监督检查
⑤ 没有人工复核—高风险场景缺少人工处置机制
⑥ 流程图与文字不一致—图里有知识库,正文没写;正文写了审核,图里没有
七、安全评估:需要证明"已测过"
安全评估是大模型备案材料中最关键的部分之一。很多企业安全评估写得很虚,只写"系统已建立安全防护机制""模型不会生成违法违规内容""已通过内部测试",但没有测试题库、测试类别、测试过程、测试结果和整改记录。这种写法不能形成有效证明。
7.1 安全评估应覆盖哪些范围?

7.2 测试题库怎么准备?
安全评估不能只准备几十条样例。建议按风险类别建立测试题库,并形成拒答测试集、非拒答测试集和业务功能测试集。

7.3 安全评估题型与作用

材料体量参考:普通文本生成类或智能问答类项目,安全评估正文加附件通常会形成数十页至上百页材料;多模态、视频生成、语音合成、人脸人声相关项目,材料体量通常更大。页数不是法定标准,关键在于测试范围是否完整、测试样本是否充分、测试结论是否可复核。
注意:因文件过多,需要模板的,请在后台回复“模板”获取

八、内容安全机制:输入审核、输出审核、人工复核要形成闭环
大模型服务的安全控制,不能只靠模型本身。一个较完整的内容安全机制,至少包括六个环节:
输入审核 模型推理控制 输出审核 人工复核 风险拦截 整改优化
8.1 输入审核怎么写?
输入审核主要解决"用户输入了不该输入的内容,系统如何处理"的问题。
8.2 输出审核怎么写?
输出审核主要解决"模型生成了不该生成的内容,系统如何拦截"的问题。
8.3 人工复核怎么写?
人工复核不是所有内容都人工看一遍,而是对高风险命中、投诉争议、异常输出、重点场景进行人工处置。

九、生成合成内容标识:不要漏写显式和隐式
大模型备案材料中,标识机制越来越重要。企业应说明生成合成内容是否添加标识、在哪里添加、以什么形式添加、下载导出后是否保留、是否支持隐式标识或元数据标识。
9.1 标识类型

9.2 不同模态怎么标识?

常见被退回原因
① 只写页面标识,漏写下载导出——内容离开平台后难以识别来源
② 服务协议未写标识义务——用户责任提示不足
③ 隐式标识完全未说明——不利于生成内容溯源
十、服务协议、投诉举报与日志留存:备案不是只看模型
大模型备案材料不只看技术,也看企业是否具备持续治理能力。主管部门通常会关注企业是否建立用户规则、投诉举报、异常处置、日志留存、未成年人保护、个人信息保护等机制。
10.1 服务协议应写什么?


夜雨聆风