未来公司的文档,都应该变成可编辑、可检索、可调用的 HTML

公司每天都会产生很多文档。
制度、流程、会议纪要、项目资料、质量报告、培训课件、表格、图片、扫描件,最后大多以附件的形式留在系统里。
附件当然有价值。它保留了原始文件,也方便下载和归档。但如果企业知识长期停在附件状态,员工使用起来还是很累:要找到文件,下载文件,打开文件,在几十页里翻内容,再把有用的部分复制出来。
很多时候,文件已经上传了,知识还没有真正进入系统。
我们接下来要解决的,就是这件事。
上传之后,文档要先变成可用内容
未来无论从企业微信上传,还是从网页端、移动端上传,系统都应该先做一件基础工作:把文档解析成一份结构化的 HTML 内容。
这里说的 HTML,重点不在技术格式。它要解决的是:一份文档进入系统后,能直接阅读、局部编辑、检索和调用。
Word、PDF、PPT、Excel、图片扫描件,原始文件可以继续保留。但员工日常使用时,不应该每次都回到附件里翻找。系统应该把其中的标题、段落、表格、图片和关键结构提取出来,形成一份统一内容。
这样,文档才开始变成公司知识的一部分。

不同入口,看到同一份内容
以后公司会有多个使用入口。
员工可能在企业微信里问,也可能在网页端打开资料,未来也可能在 iOS 端查看、批注和编辑。
这些入口不应该各存一份内容。更好的方式是:后台只有一份统一的 HTML 内容,不同端只是根据场景展示它、编辑它、调用它。
•企业微信适合快速问答和临时查看。
•网页端适合完整阅读、编辑和整理。
•移动端适合现场查看、拍照补充和轻量确认。
•Agent 适合检索、摘要、问答、拆解任务和生成 Wiki。
入口可以不同,内容底座应该一致。
这会减少很多重复整理。今天在企业微信里问到的依据,明天在网页端打开,仍然能看到同一段原文;项目现场补充的说明,后续 Agent 检索时也能用到。
人要能改,Agent 也要能查
企业文档进入系统以后,不能只靠自动解析。
自动解析负责把文件变成初始内容,人负责校正和确认。比如标题有没有识别错,表格有没有断行,适用范围有没有写清,责任部门和更新时间是否需要补充。
这一步很重要。因为企业知识最终要被人使用,也要承担管理责任。系统可以帮忙整理,但关键口径仍然需要业务人员确认。
等内容被校正以后,Agent 才能更稳地工作。
它可以基于这份内容回答问题,也可以提取摘要,生成 FAQ,拆出流程步骤,整理成 Wiki 页面,或者在项目推进时调取相关制度和历史资料。
如果底层仍然是一堆附件,Agent 每次都要临时解析、临时判断,结果就不稳定。内容层稳定下来以后,检索、问答、编辑和复用才有基础。

文档会从“存放对象”变成“工作对象”
以前我们问得最多的是:这个文件在哪里?
以后更常见的问题会变成:
•这个制度适用于哪些部门?
•这个流程需要准备哪些材料?
•这份会议纪要里,谁负责下一步?
•这个项目资料里,有哪些未关闭问题?
•这份质量报告的原因、措施和验证结果分别是什么?
当文档变成统一内容后,员工不一定要完整打开原文件,也能先得到可追溯的答案。需要进一步确认时,再回到原文和原始附件。
这不是为了减少人工判断。恰恰相反,它是为了让人工判断有依据,让每一次查询、编辑和复盘都能回到具体来源。
第一版要把基础做扎实
这件事听起来很大,但第一版不需要追求复杂。
先把几个基础能力做稳:
•上传文件后,能生成结构清楚的 HTML 内容。
•标题、段落、表格、图片的位置尽量保留。
•HTML 内容可以在网页端编辑,并保留修改记录。
•企业微信、网页端、移动端读取同一份内容。
•Agent 回答问题时,可以引用对应来源。
•不同权限的人,只能看到自己有权查看的内容。
这些基础能力比界面花哨更重要。企业知识系统最怕的是看起来内容很多,真正用的时候找不到、改不了、追不回来源。
这是公司知识管理的底座工程
未来公司积累的知识,不会只来自正式制度。
一次会议、一次客户投诉、一次项目复盘、一张现场照片、一份 Excel 表格,都可能成为后面工作的依据。
关键是它们进入系统以后,能不能被整理成稳定内容,能不能被人继续修正,能不能被不同端读取,能不能被 Agent 检索和调用。
这就是把文档统一解析为 HTML 的意义。
它要做的事,是让公司每天产生的资料逐步变成可用的知识。资料进入系统后,人能看,人能改,Agent 能查,后续工作能接着用。
这一步做扎实,企业知识才会从“存过”走向“用得起来”。
夜雨聆风