乐于分享
好东西不私藏

不上传文件,也能在线抽取文档内容?Kreuzberg Demo 让文档解析变得更简单

不上传文件,也能在线抽取文档内容?Kreuzberg Demo 让文档解析变得更简单

如果你做过知识库、RAG、文档检索、合同归档、论文整理,应该很熟悉这个问题:

文档里的内容明明就在眼前,但要把 PDF、Word、表格、图片里的文字、表格和元数据稳定抽出来,往往并不简单。

过去,想完成这件事通常需要几步:

安装复杂依赖、配置 OCR、写脚本、调用 API、上传文件、等待服务器处理。

对开发者来说,这意味着环境成本;对普通用户来说,这几乎就是门槛;对企业和隐私敏感场景来说,“上传文件”本身就是风险。

现在,你可以直接打开 Kreuzberg 的在线 Demo:

https://docs.kreuzberg.dev/demo.html[1]

把文件拖进去,就能在浏览器里完成文本、表格和元数据抽取。

更重要的是:这个 Demo 不需要服务器上传,不需要 API Key,文件不会离开你的设备。它通过 WebAssembly 在浏览器本地运行。

这意味着什么?

简单说,Kreuzberg Demo 把“文档解析”这件事从一个工程问题,变成了一个打开网页就能体验的能力。

你不需要安装 Python 环境。

不需要部署后端服务。

不需要注册账号。

不需要把文件传到云端。

也不需要先理解 OCR、PDF 解析、表格识别这些底层细节。

打开 Demo,拖入文件,等待结果。

输出可以查看 Markdown,也可以查看 JSON。

对于很多场景来说,这已经足够直观:你可以快速判断一个文档能否被抽取、抽取后的结构是否适合进入知识库、是否适合做 RAG、是否适合进一步自动化处理。

隐私保障:文件在浏览器本地处理

Kreuzberg Demo 最值得强调的一点,是它的本地处理模式。

官方 Demo 页面明确说明:文件通过 WebAssembly 在浏览器内部处理,文件不会离开你的设备。

这对很多用户非常关键。

比如:

合同、报价单、财务报表、内部制度、研究资料、客户材料、医疗或法律文档,这些文件往往不适合随意上传到第三方平台。但如果只是想测试文档抽取效果,以往又很难绕开“上传”这一步。

Kreuzberg Demo 提供了另一种选择:

先在本地浏览器里完成抽取体验,再决定是否接入 SDK、API、CLI 或自部署服务。

这让文档智能不再必须从“上传文件”开始。

零门槛:给开发者,也给非开发者

Kreuzberg 本身是一个面向开发者的文档智能框架,底层由 Rust 核心驱动,并提供多语言绑定,支持 Python、TypeScript/Node.js、Rust、Go、Java、C# 等多种语言。

但 Demo 的意义在于,它把这个能力变成了任何人都可以体验的入口。

对于开发者,你可以用 Demo 快速验证:

这个 PDF 能不能抽出干净文本?

表格能不能保留结构?

元数据有没有识别出来?

输出 Markdown 是否适合进入 LLM 或 RAG 流程?

JSON 结构是否方便后续程序处理?

对于产品、运营、研究人员或企业用户,你不需要理解技术栈,也可以直接看到结果:

上传前无需注册。

使用前无需部署。

测试前无需写代码。

整个过程就是拖拽文件、查看结果。

这就是“0 门槛”的价值。

不只是文本:Kreuzberg 面向的是文档智能

文档解析并不只是“把 PDF 变成一段纯文本”。

真实文档里有标题、段落、表格、图片、页码、元数据、扫描件、Office 文件、HTML、邮件、归档文件等复杂结构。Kreuzberg 的目标,是把这些复杂材料转化成更适合机器处理的结构化结果。

根据官方文档,Kreuzberg 支持 91+ 文件格式,可以抽取文本、表格和元数据,并在需要时运行 OCR。WebAssembly 版本也支持浏览器环境下的文本抽取、Tesseract WASM OCR、表格抽取、元数据抽取、分块、语言检测等能力。

这意味着它不只适合“看看文件里有什么”,也适合后续进入更完整的 AI 工作流:

  • 知识库构建
  • RAG 文档预处理
  • 企业搜索
  • 合同和票据解析
  • 论文与报告整理
  • 数据清洗
  • 多格式文档归档

Demo 是入口,Kreuzberg 是后面的完整工程能力。

在线 Demo 适合哪些场景?

我建议你在这些情况下直接试试 Kreuzberg Demo:

  1. 你想快速测试某个 PDF、Word 或表格文件的抽取效果;
  2. 你希望把文档转成 Markdown,用于 LLM、知识库或笔记系统;
  3. 你希望查看结构化 JSON,评估后续自动化处理可行性;
  4. 你处理的是隐私敏感材料,不希望为了测试效果而上传文件;
  5. 你不是开发者,但想直观看到文档智能能做什么;
  6. 你是开发者,正在选择文档解析、RAG 预处理或 OCR 方案。

需要说明的是,Demo 出于浏览器沙盒和体验考虑,对文件大小有限制。官方页面中显示当前沙盒限制为 1MB;更大的文档可以使用 Kreuzberg 的 API、SDK、CLI 或其他部署方式。

为什么我们要做这个 Demo?

因为文档智能不应该只停留在“会写代码的人才能试”。

一个好的文档抽取工具,首先应该让用户看见结果。

看见 Markdown 输出。

看见 JSON 结构。

看见表格是否被保留。

看见元数据是否可用。

看见自己的文件不需要上传,也可以完成处理。

Kreuzberg Demo 想解决的正是这个体验问题:

让你在几秒钟内理解文档抽取的价值,而不是先花半天搭环境。

总结

Kreuzberg Demo 的核心体验可以概括成三句话:

在线使用,打开网页即可体验。

本地处理,文件不离开设备。

零门槛抽取,文本、表格、元数据一目了然。

如果你正在做知识库、RAG、文档自动化、企业搜索,或者只是想找一个更可靠的文档抽取工具,可以先从这个 Demo 开始:

https://docs.kreuzberg.dev/demo.html[1]

不用安装,不用上传,不用 API Key。

把文件拖进去,看看 Kreuzberg 能为你的文档做什么。

资料依据

  • Kreuzberg Demo:https://docs.kreuzberg.dev/demo.html[1]
  • Kreuzberg Features:https://docs.kreuzberg.dev/features/[2]
  • Kreuzberg WASM API:https://docs.kreuzberg.dev/reference/api-wasm/[3]
  • Kreuzberg Format Support:https://docs.kreuzberg.dev/reference/formats/[4]

References

[1] https://docs.kreuzberg.dev/demo.html

[2] https://docs.kreuzberg.dev/features/

[3] https://docs.kreuzberg.dev/reference/api-wasm/

[4] https://docs.kreuzberg.dev/reference/formats/