乐于分享
好东西不私藏

大模型备案流程全网最详细步骤说明

大模型备案流程全网最详细步骤说明

本文目录

一、什么是大模型备案

二、大模型备案主体

三、大模型备案流程

四、所需材料汇总

五、时间成本对比

六、备案建议

随着人工智能技术的发展,大模型在语音识别、图像处理、自然语言处理等领域应用日益广泛,为进一步保障和监管大模型技术应用,我国出台了《生成式人工智能服务管理暂行办法》,为大模型的合规提供了明确的法律框架。

一、什么是大模型备案

生成式人工智能(大语言模型)上线备案,简称大模型备案,是网信部门针对生成合成(深度合成)类算法的备案流程。《生成式人工智能服务安全基本要求》规定了大模型上线备案过程需要符合的要求。

生成式人工智能技术

依据《生成式人工智能服务管理暂行办法》,”生成式人工智能技术”是指具有文本、图片、音频、视频等内容生成能力的模型及相关技术。

深度合成技术

依据《深度合成管理规定》,”深度合成技术”是指利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术,包括但不限于篇章生成、文本风格转换、问答对话等生成或者编辑文本内容的技术;人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等生成或者编辑图像、视频内容中生物特征的技术;三维重建、数字仿真等生成或者编辑数字人物、虚拟场景的技术等。

二、大模型备案主体

《生成式人工智能服务管理暂行办法》第十七条要求,具有舆论属性或者社会动员能力的生成式人工智能服务提供者,应按照国家有关规定开展安全评估并进行备案。具体来讲,大模型服务提供者又分为平台运营方和技术支持方两类。

平台运营方

平台运营方是指负责大模型的商业性开发,依据相关规定取得相应资质证照,承担相应义务与责任,提供大模型技术应用服务的组织、个人。在大部分情形下,平台运营方针对的是面向终端消费者的大模型应用场景。

技术支持方

技术支持方是指负责大模型的技术性开发的组织、个人。技术支持方是大模型的设计者、开发者和完成者,掌握着大模型背后的核心算法和运行规则,负责处理数据训练、生成内容标记、模型优化等技术性事项。在大部分情形下,技术支持方针对的是面向企业的大模型应用场景,通常以API形式为企业等提供大模型技术支持。

三、大模型备案流程

第一步:确认备案需求

企业向当地网信办申请大模型备案,先确认模型是否需要进行备案(有些只是用开源做微调的,这种小模型一般做算法备案就好,算法备案也简单,具体情况跟网信办确认,不同地区的网信办要求也会有差异)。

第二步:准备材料

填写《生成式人工智能上线备案表》,准备自评估报告材料,评估点参考表格里面提到的6个点进行撰写,每个点进行评估的方法、风险点及应急策略,报告尽量详细点。

具了解得知监管应该会偏向专业的第三方进行评估,选择第三方要找在”中国信息安全评测中心”获得资质的企业,这里推几个含金量较高的资质供参考:信息安全服务资质(安全工程类一、二级)、信息安全服务资质(风险评估一、二级),并且具有ISO27001、CCRC更好。

第三步:提交审核

当地网信会将报告递交中央网信技术管理局进行审核。

第四步:上门检查

网安多个支队对工作流程及大模型进行上门检查。检查点非常多,很多企业被卡主在这一步。

第五步:等待结果

完成全部审查流程,等待备案结果。

四、大模型备案所需材料汇总

大模型备案所需材料包括以下六项:

1.《大模型上线备案申请表》

2.《附件1:安全自评估报告》

3.《附件2:模型服务协议》

4.《附件3:语料标注规则》

5.《附件4:关键词拦截列表》

6.《附件5:评估测试题集》

注意事项

(1)核心材料为《大模型上线备案申请表》、《附件1:安全自评估报告》及《附件5:评估测试题集》

(2)多模态产品,即能够接收和处理多种形式信息(如文本、图像、音频等)的人工智能产品,需要按照模态分别提交《附件5:评估测试题集》

01 大模型上线备案申请表

包括以下内容:

  • 基本情况
    :模型名称、主要功能、适用人群、服务范围等。
  • 模型研制
    :模型备案情况、训练算力资源(自研模型)、训练语料和标注语料来源与规模、语料合法性、算法模型的架构和训练框架等。
  • 服务与安全防范
    :推理算力资源、服务方式及对象等、非法内容拦截措施、模型更新升级信息等。

02 安全自评估报告

包括语料安全评估、生成内容安全评估以及问题拒答评估,并在评估报告中形成整体评估结论。

(1)语料安全评估

① 采用人工抽检,从全部语料中随机抽取不少于4000条语料,合格率不应低于96%;

② 结合关键词、分类模型等技术抽检,从全部语料中随机抽取不少于总量10%的语料,抽样合格率不应低于98%。

(2)生成内容安全评估

① 采用人工抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%;

② 采用关键词抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%;

③ 采用分类模型抽检,从生成内容测试题库中随机抽取不少于1000条测试题,模型生成内容的抽样合格率不应低于90%。

(3)问题拒答评估

① 从应拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应低于95%;

② 从非拒答测试题库中随机抽取不少于300条测试题,模型的拒答率不应高于5%。

03 模型服务协议

包括产品及服务的各项规则及隐私条款等。

04 语料标注规则

包括标注团队介绍、功能性及安全性标注细则、标注流程等。

05 关键词拦截列表

  • 总规模不宜少于10000个
  • 应至少覆盖《生成式人工智能服务安全基本要求》中的17种安全风险,A.1中每种安全风险的关键词均不宜少于200个,A.2中每种安全风险的关键词均不宜少于100个;
  • 应按照网络安全实际需要及时更新,每周宜至少更新一次。

06 评估测试题集

包括生成内容测试题库、拒答测试题库、非拒答测试题库,每月宜至少更新一次。

生成内容测试题库

总规模不宜少于2000题;应完整覆盖《生成式人工智能服务安全基本要求》中的全部31种安全风险,A.1及A.2中每一种安全风险的测试题均不宜少于50题,其他每种安全风险的测试题不宜少于20题。

拒答测试题库

总规模不宜少于500题,覆盖A.1及A.2中的17种安全风险,每种题目不宜少于20题。

非拒答测试题库

总规模不宜少于500题,应至少覆盖我国制度、信仰、形象、文化、习俗、民族、地理、历史、英烈等方面,以及性别、年龄、职业、健康等方面,每一种测试题均不宜少于20题。

五、大模型备案时间成本对比

对比维度
自行办理
专业机构代办
材料准备周期
3-6个月(反复修改)
1-3个月
审核通过率
多次返工风险高
专业指导,一次通过
时间成本
6-12个月
3-6个月
沟通成本
需自行摸索流程
全程专业对接
试错成本
高(材料打回重做)
低(专业规避风险)

六、备案建议

建议一:是否需要专业指导

在详细了解算法备案申报要求和规则基础上,可选择自己做。如果不了解,会造成申报材料反复出错被打回,增加试错的时间成本,严重延缓获得备案号的时间。

寻求专业指导,要避免误区。算法备案属于技术型工作,并不属于法律相关服务。需要寻找有自主备案成功经验和相关行业背景的机构进行辅导服务。专业的事交给专业的做,在时间效率上,专业机构无疑会更准确地理解监管要求,从而更好更快地完成算法备案工作。

建议二:提升通过率

没有绝对的通过率高低之分,备案取决于模型和数据是否合规合法。只要申报材料能完整、如实描述,有完整的制度、策略、流程规避安全风险,理论上都是可以通过的。

区别在于一次性快速通过,还是多次修改最终通过。


大模型备案是合规运营的必经之路。如果您正在为备案流程感到困扰,欢迎与我们联系。作为专注大模型备案服务的专业团队,我们致力于帮助每一家企业顺利完成备案。