乐于分享
好东西不私藏

Qwen3.5-27B 拿下文档脱敏王座,24GB显存就能跑

Qwen3.5-27B 拿下文档脱敏王座,24GB显存就能跑

想在本地搞定文档脱敏?现在最猛的模型,是Qwen 3.5 27B。Reddit上一个老哥拿它测了最难的手写体OCR、人脸遮挡和自定义实体识别,结果发现,这模型24GB显存就能跑,效果已经能塞进实际工作流里用了。

  • Qwen 3.5 27B是测试中表现最好的本地模型,能处理难认的手写体,也能识别自定义实体。
  • 但它有个“偷懒”的毛病,有时会漏掉整行文本,人脸检测的框也不够准,必须人工复核
  • 作者给了具体操作建议:日常任务用PaddleOCR+Qwen混合方案;难手写体或人脸检测,就用Qwen 3.5 27B全页处理并手动检查。

实测结果:27B模型一骑绝尘

测试用了四个Qwen模型(8B, 9B, 35B A3B, 27B),跑三个高难度任务。结果很明确,Qwen 3.5 27B(4-bit量化版)是综合冠军。处理潦草手写体时,它能认出文字并给出单词级别的边界框,效果图看这里。不过作者也警告,这模型有时会“偷懒”,漏掉整行字,所以人工检查不能少

人脸检测任务,它能认出页面上的两张脸,但和其他模型一样,边界框没完全盖住脸,导致脱敏失败,效果图看这里。

最亮眼的是自定义实体识别。给模型指令让它找“Lauren”的全名、邮箱、电话(标为LAUREN)和大学名(标为UNIVERSITY),它都成功定位了,效果图看这里。作者说,小于27B的模型在这个任务上基本都搞不定。

具体怎么用?作者给了详细方案

根据测试结果,作者推荐了不同场景下的具体操作流程,核心就是混合策略人工兜底

常规OCR/脱敏任务:
先用pymupdf这类库做简单文本提取。对于有图片的页面,用PaddleOCR + Qwen 3.5 27B VLM的混合方案。PaddleOCR处理简单的印刷体,Qwen处理PaddleOCR信心低的难搞行。

极难手写体文档:
直接用Qwen 3.5 27B处理整页,然后人工检查。甚至可以跑两遍模型,以防它第一次“偷懒”漏字。

人脸或签名检测:
用Qwen 3.5 27B处理整页,但必须手动调整边界框以确保完全覆盖。或者可以调整指令,让模型把脸或签名周围的空间也框进去。

自定义实体识别:
直接用Qwen 3.5 27B LLM

测试工具和完整报告

整个测试用的是开源的 doc_redaction 仓库。想复现或者看更详细结果(包括所有测试截图和模型对比)的,可以看作者的完整报告:

OCR and redaction with Qwen 3.5 – full post with test results
https://seanpedrick-case.github.io/doc_redaction/src/ocr_and_redaction_with_qwen35.html


留言聊聊
你觉得这种需要人工复核的AI辅助脱敏,在实际工作中能接受吗?还是说必须100%全自动才敢用?

来源:Reddit LocalLLaMA|原文:Testing Qwen 3.5 for OCR and redaction tasks