哪篇文档有问题?一套加权算法帮你自动揪出来
你有几千篇文档。我问你:你知道其中哪些是“有问题”的吗?大概率,你答不上来。
而几种最容易想到的笨办法,其实都不靠谱:
你需要的,是一套自动化的“问题文档识别”机制,让算法先从几千篇里,把最可疑的那几十篇挑出来。
一、核心思路:把“用户觉得有问题”的信号加权综合
别被“算法”两个字吓到,核心逻辑特别朴素,一句话:
一个可用的公式长这样:问题文档得分 = 评论向量 × 0.6 + 解决率向量 × 0.4。
“评论向量”是从评论里提取的“问题信号强度”——差评有多少、有多狠;“解决率向量”是用户点“没用”的比例——点“没用”的人越多,说明它越没解决问题。
那为什么是 0.6 和 0.4,不是五五开?因为信息量不一样。评论是“开放式”的,它告诉你具体哪里不对(“第三步那个按钮根本找不到”);而“有用/没用”只是个二元按钮,只告诉你“行/不行”,不告诉你“为什么”。信息量大的,自然该给更高权重。这个权重不是金科玉律,可按你的数据去调,但“评论权重高于点踩权重”这个大方向通常成立。
二、算法的执行步骤
其中“评论向量”可以综合考虑这么几件事:
差评的数量(评论越多且越偏负面,向量值越高);
评论的情感强度(“完全看不懂”显然比“有点复杂”更严重);
评论的时间衰减(最近的差评,比一年前的更值得重视)。
而“解决率向量”则简单些:解决率 = 点“有用” ÷(点“有用” + 点“没用”),解决率越低,向量值越高。
三、拿到清单之后,先别急着改
很多人拿到“问题文档 Top 50”,第一反应是把清单甩给作者:去,改!打住——这是最容易好心办坏事的一步。正确做法是先分类,再分配,因为“有问题”背后藏着完全不同的病因:
| 问题类型 | 表现 | 处理方式 |
|---|---|---|
一篇“产品缺陷类”文档,你让作者怎么改都没用,因为根子不在文档上。所以第一步永远是分类,第二步才是分配。
四、一个容易被忽略的细节:“踩”也是信号
有些用户是“沉默的差评者”——他懒得打字写评论,但会顺手点一个“踩”。如果算法只盯着评论文本,就会把这一大批沉默信号全漏掉。所以一套完整的得分,应该同时吃进两种信号:文本信号(评论说了什么)+ 行为信号(用户做了什么)。 说的和做的,合起来才是真相。
这是系列的第 2 篇。前两篇我们都在和“文档本身”较劲。从下一篇起,视角要变了:我们开始盯着人——那个正在读文档的用户,他到底是谁?有趣的是,你不用发任何问卷,光靠他的阅读行为,就能把他猜个八九不离十。欢迎关注「文档不头疼」。

夜雨聆风