Qwen3.5-27B 拿下文档脱敏王座,24GB显存就能跑-夜雨聆风

Qwen3.5-27B 拿下文档脱敏王座,24GB显存就能跑

想在本地搞定文档脱敏？现在最猛的模型，是Qwen 3.5 27B。Reddit上一个老哥拿它测了最难的手写体OCR、人脸遮挡和自定义实体识别，结果发现，这模型24GB显存就能跑，效果已经能塞进实际工作流里用了。

Qwen 3.5 27B是测试中表现最好的本地模型，能处理难认的手写体，也能识别自定义实体。
但它有个“偷懒”的毛病，有时会漏掉整行文本，人脸检测的框也不够准，必须人工复核。
作者给了具体操作建议：日常任务用PaddleOCR+Qwen混合方案；难手写体或人脸检测，就用Qwen 3.5 27B全页处理并手动检查。

实测结果：27B模型一骑绝尘

测试用了四个Qwen模型（8B, 9B, 35B A3B, 27B），跑三个高难度任务。结果很明确，Qwen 3.5 27B（4-bit量化版）是综合冠军。处理潦草手写体时，它能认出文字并给出单词级别的边界框，效果图看这里。不过作者也警告，这模型有时会“偷懒”，漏掉整行字，所以人工检查不能少。

人脸检测任务，它能认出页面上的两张脸，但和其他模型一样，边界框没完全盖住脸，导致脱敏失败，效果图看这里。

最亮眼的是自定义实体识别。给模型指令让它找“Lauren”的全名、邮箱、电话（标为LAUREN）和大学名（标为UNIVERSITY），它都成功定位了，效果图看这里。作者说，小于27B的模型在这个任务上基本都搞不定。

具体怎么用？作者给了详细方案

根据测试结果，作者推荐了不同场景下的具体操作流程，核心就是混合策略和人工兜底。

常规OCR/脱敏任务：
先用pymupdf这类库做简单文本提取。对于有图片的页面，用PaddleOCR + Qwen 3.5 27B VLM的混合方案。PaddleOCR处理简单的印刷体，Qwen处理PaddleOCR信心低的难搞行。

极难手写体文档：
直接用Qwen 3.5 27B处理整页，然后人工检查。甚至可以跑两遍模型，以防它第一次“偷懒”漏字。

人脸或签名检测：
用Qwen 3.5 27B处理整页，但必须手动调整边界框以确保完全覆盖。或者可以调整指令，让模型把脸或签名周围的空间也框进去。

自定义实体识别：
直接用Qwen 3.5 27B LLM。

测试工具和完整报告

整个测试用的是开源的 doc_redaction 仓库。想复现或者看更详细结果（包括所有测试截图和模型对比）的，可以看作者的完整报告：

OCR and redaction with Qwen 3.5 – full post with test results
https://seanpedrick-case.github.io/doc_redaction/src/ocr_and_redaction_with_qwen35.html

留言聊聊
你觉得这种需要人工复核的AI辅助脱敏，在实际工作中能接受吗？还是说必须100%全自动才敢用？

来源：Reddit LocalLLaMA｜原文：Testing Qwen 3.5 for OCR and redaction tasks