点
击
蓝
字

关
注
我
们

本篇是参加“万维博通杯”档案信息化公司业务与技术实力大比武(简称“大比武2026”)的投稿文章,来自北京众优科技有限公司,作者:张明吉。

2025年以来,国家档案局在多个政策文件中都明确释放了一个信号:档案行业应当主动拥抱人工智能技术(比如档办发〔2026〕2号《关于推进人工智能在档案行业应用的意见》)。这份期许不难理解——国家对档案工作越来越重视,档案数据体量急剧增长,基层档案员日复一日的重复劳动亟待解放。政策的东风已经吹起,但在基层,风却常常吹不动一扇门。
笔者在过去两年走访了大量企业和政府单位的档案部门,发现一个真实的落差:基层档案员对大模型为代表的AI技术抱有极高热情,清楚知道这项技术能帮他们从机械录入和繁琐检索中脱身;但回到工位后,AI依然与他们隔着千山万水——没有算力、没有预算、没有技术团队。档案行业需要AI普惠化,但面前横着三重门槛:“算力从哪来、数据是否安全、场景如何适配”。本文从实践者视角,谈谈我们对这条破局路径的探索。
一、行业困局:AI普惠化面临的四重壁垒

壁垒一:
公有云不可用
——涉密与敏感数据的合规红线
档案数据天生带有高敏感性。企业档案涉及商业秘密、人事任免、合同文书;政务档案更可能包含内部决策过程、公民个人信息乃至国家秘密,大量档案数据根本不具备上公有云处理的条件。这意味着市场上最唾手可得的云端大模型是无法被档案部门使用的
壁垒二:
自建算力投入高
——一次性投入高,决策周期长,ROI难以论证
采购一套能够支撑大模型推理的算力集群,对于大多数档案部门来说是一笔沉重的账目。高性能计算设备、配套存储与网络设施、机房环境、后续运维成本,加在一起动辄百万起步。基层档案部门在绝大多数企业和政府机构中都承担支撑性职能,去申请一笔六、七位数的智能化改造预算几乎等于自我否决。
壁垒三:
算力资源难争取
——档案部门在企业内部非核心业务,算力竞争激烈
有些单位其实已经有了算力——企业总部统一采购的AI计算平台,或政务云上的GPU资源池。按理说档案部门可以直接申请使用,但现实往往更骨感。算力资源在任何一个组织内部都是稀缺品,研发部门要用它跑训练,业务部门要用它做分析。档案部门的优先级往往是相对较低的。
壁垒四:
最后一公里落地难
——通用大模型≠档案业务可用,场景适配缺一不可
就算前三个问题都解决了,那么仅把一个通用大模型直接丢给档案员,依然解决不了多少实际问题。模型能力必须与业务场景契合在一起才能产生实际工作价值,每一个场景的落地,都需要领域知识、数据准备、工程适配的三重耦合。

四重壁垒叠加,档案行业的AI应用呈现出极度割裂的格局:头部大型档案馆可以负担中心化的智能化平台;中小型档案室和基层档案员,只能继续手工录入、逐条著录。
二、破局思路:边缘AI+垂直大模型路径选择

面对这个困局,传统的“采购服务器+部署模型+对接系统”路径对于大多数档案用户来说是一条代价太高的路。
从2023年开始,我们持续跟踪大模型技术演进,与几家央企重点客户合作,先后验证了智能著录、智能审核、RAG增强检索、多模态档案挖掘、智能标签提取、智能编研等场景的可行性。这些项目大多跑在客户的中心算力环境上,效果得到了验证,但能在中心算力上跑通的方案,不等于能复制到千千万万个基层档案室。
基层客户跟我们说得最多的话,是“能不能让我们也用得上?”。他们想要的是一个轻量化、低成本、不需要专门IT支持就能跑起来的产品。

这个诉求倒逼我们重新思考方案形态。档案智能化真正缺少的,不是一个更强大的通用模型,而是一个“预置好的、插电即用的、数据不出域的”完整解决方案。它应该像一台打印机一样——开箱、插电、连上电脑就能开始工作。
边缘AI计算节点,也就是一台小型化的本地算力设备,进入了我们的视野。它够小,可以直接放在档案员的办公桌上;够封闭,不需要联网就能运行;够便宜,相比中心化部署的成本几乎可以忽略不计。剩下的问题是:如何在如此有限的硬件约束内,塞进一个真正能处理档案业务的智能引擎?
三、方案架构:三位一体的系统工程

最终形成的方案是由边缘算力单位、档案智能算法引擎、桌面交互客户端三个部分紧密耦合而成。它们单独看都不算新奇,但要让三者在一个边缘设备上协同运转,并且对用户呈现出”无感调用”的体验,背后是一整套系统工程。
其关键特性就是:整个方案在出厂前已经完成了硬件适配、算法部署、通信联调、压力测试和稳定性验证。用户收到的设备开箱后只需要插电、连接本地电脑、安装客户端软件即可开始使用。从拆包装到跑通第一个档案著录任务,时间以分钟计,而非以月计。

(一)
边缘算力单元

这是一台体积比巴掌还小的本地计算设备。硬件层面基于国产芯片架构,具备CPU和专用NPU/TPU,可实现神经网络推理、Transformer架构的硬件加速,能够承载大模型推理、图像处理、向量计算等任务的本地执行。

为了在如此紧凑的功耗和算力空间内跑起规模可观的模型,需要采用轻量化压缩技术,通过结构化裁剪、参数共享、动态精度调度等手段,将原本需要数据中心级别资源才能运行的模型压缩到边缘设备可承载的范围内。推理引擎层面也做了大量内存优化和计算图重构,确保长上下文处理能力不因硬件受限而断崖式下跌。设备运行过程中只需要供电即可工作,与外部世界的唯一连接是一根直连网线(与用户的电脑连接进行信息传递)。设备本身不保存任何用户数据,处理完即释放。
(二)
档案智能算法引擎

这是方案的大脑,也是工程难度最大的部分。引擎内部整合了多个异构模型:经过领域微调的档案垂直大语言模型负责文本理解与生成任务;多模态混合模型负责图文交叉分析;专门的视觉模型处理OCR、版面分析、印章识别;完全定制化的高速图像处理模型;语音模型处理音视频转写;向量计算模型支撑语义检索。这些模型需要根据实际业务场景的需求进行动态组合与裁剪,确保用户拿到的是刚好够用、没有冗余的算法能力。
(三)
桌面交互客户端

用户看到的只有一个安装在本地电脑上的软件界面。档案收集、导入、整理、检索、导出——这些常规操作不仅仅在UI上进行优化,更重要的是在于面向AI场景进行重新设计开发,会自动触发后台AI处理任务,自动分发给边缘算力单元,完成后再将结果取回呈现。整个过程用户没有感知,不需要手动切换、不需要配置参数。
四、应用场景与业务流程

在实际使用中,边缘AI计算节点与客户端软件形成了“盒子+桌面”的协同架构。盒子负责智能计算,桌面端负责业务交互和结果呈现。二者通过一根网线直连,不经过企业内网其他节点,更不需要访问互联网。
档案员可以在桌面端中导入扫描件、音视频文件、电子文档等各类档案材料,也可以直接驱动扫描仪进行高速连续扫描。系统根据材料类型自动触发处理流程:扫描件进入OCR和版面分析流水线;根据文档内容和视觉特征自动打标形成标签;音视频文件进入语音转写流水线;图纸文件自动识别图签内容;红头、红章文件对盖章位置重点处理。

这些任务并不是串行排队执行的。通过合理的任务编排,著录、OCR、语音识别、向量索引构建等不同类型的计算任务可以在有限算力下实现最大程度的并行。
在部署模式上,这套方案支持三种形态:纯边缘模式适用于小型档案室和网络条件受限的环境;企业内部算力对接模式可调用企业已有的中心算力资源,与边缘盒子互补;公有云模式适用于非涉密场景。三种模式可由用户根据需求自由切换。
五、开放性与生态融合

一套真正的行业解决方案,不能是一座孤岛。在这个原则上有三个层面的设计。

数据层面的开放性:

生成的档案数据完全归用户所有。用户可以随时将整理完成的档案批量导出,格式覆盖主流档案管理系统可直接导入的数据结构,也支持各地城建档案馆、综合档案馆的标准接收格式。
系统层面的融合性:

对于已部署我司数字档案管理系统的用户,边缘盒子可以与其形成混合工作模式。盒子可被Web系统感知并调用,系统会自动判断工作负荷的分配路径,边缘盒子可用时本地执行,否则回退到中心算力服务。整个过程对终端用户透明。
对存量系统的兼容性:

对于已部署其他厂商档案管理系统的用户,在不改动原有系统的前提下,也可以获得智能化处理能力。档案员只需要在边缘客户端上完成AI增强处理,再按标准格式导出导入原有系统即可。
六、实践效果

从交付节奏来看,传统路径”采购服务器→部署环境→安装模型→调试对接”往往需要数月周期,而本文介绍的边缘方案将这个时间压缩到了一天。用户上午收到设备,下午就能处理真实档案。

从处理效率来看,以档案著录为例,一名有经验的档案员手工著录日均产出约300条。采用智能著录后,日均处理量达到1万以上,准确率在95%以上,工作效率得到极大提升。
从安全性来看,所有数据处理均在本地独立完成,数据不上互联网,设备本身不保存任何持久化用户数据,整体方案基于国产信创技术体系构建。
从目前已在档案数字化团队、企业用户现场投入实际使用的反馈情况来看,接受程度和满意度大幅超出预期。一台摆在桌面上、不需要IT部门介入、不需要培训就能用的设备,对于基层档案员的心理门槛远低于任何需要走审批流程的IT项目。
七、结语

档案智能化的普及,最终要回归到基层档案员能不能用得上、敢不敢用。边缘AI计算节点方案提供了一条务实的路径:数据不出域、成本可控、开箱即用、与现有系统不冲突。它未必是唯一答案,但对于那些已经被算力门槛和数据安全顾虑挡在门外的档案单位来说,它可能是比较接近现实的那一个。
数字罗塞塔计划公众号致力于成为全国领先的档案信息化知识分享与交流平台。独木难成林,众创力量大!作为中立的第三方平台,我们将努力为广大档案信息化从业企业提供一个展示自身业务与技术专业水平的舞台,共同推动档案行业的进步与发展。

热文推荐







保存社会记忆
传承人类文明

档案信息化
就看罗塞塔

点“赞”、“❤”和“分享”,给罗塞塔充点儿电吧~
夜雨聆风