你在用AI工作流吗?如果答案是"试过,但搞不定",大概率不是AI不够聪明,而是你的工具链根本就没串起来。
一个完整的内容生产/分析/输出流程,涉及至少五个环节:读取文件、理解内容、记住上下文、生成结果、输出交付。每个环节之间一旦需要人工介入,整个流程就卡住了。
本周三个开源工具,分别解决这五个环节中最高频的卡点。

MarkItDown:给你的文件开一个"AI专用出口"
这是微软AutoGen团队开源的工具,GitHub 108K+ star,6月初被大规模推荐。它能把PDF、Word、Excel、PPT、图片、音频、HTML——几乎你能想到的所有格式——一键转成Markdown。
重点不是"能转",是"转得好"。它保留文档结构:标题、列表、表格、链接一个不丢。图片里的文字能OCR提取,音频能转录文字,连PDF里的脚注都能识别。转出来的东西喂给任何AI模型、RAG系统、知识库都是现成的。
一个命令就搞定:`markitdown report.xlsx > report.md`。支持Python API,可以集成到任何数据处理流程里。
想象一个场景:你下周要给客户做汇报,把合同、方案书、数据表格全丢进去,它给你还原理赔清清爽爽的一份,你拿来直接喂给AI做分析。
获取方式:
GitHub搜索「d寅月/MarkItDown」,pip install markitdown即可安装。

Cognee:让AI Agent真正"记住"上下文
RAG概念很热,但大多数RAG只是"最近邻匹配"——拿语义最接近的片段返回来。没有关系推理,没有结构理解,问"上次讨论的那个方案后来怎么调整的",它一脸懵。
Cognee是给AI Agent设计的记忆层。它把文档转换成知识图谱:实体、关系、领域规则。Agent搜索的时候搜的是"意思"而不仅是"关键词"。
支持多数据源:文件、数据库、向量存储、API都能接入。输出可以直接给Claude Code、LangGraph、OpenClaw这些主流框架,6月21日刚有更新。
一个真实场景:你让AI帮你分析一份100页的竞品报告,然后用"上次提到的那个技术方案"继续追问。没有记忆层的AI会迷失,有Cognee的AI知道你在问什么。
获取方式:
GitHub搜索「topoteratos/cognee」,pip install cognee即可安装,支持Docker快速启动。

html-video:让编码Agent直接生成视频
nexu-io团队(Open Design背后的人)6月开源的项目,三周GitHub 2000+ stars。它解决的是一个具体问题:你想让AI Agent生成一个演示视频,它应该怎么做?
传统方案:调用视频生成API,按帧收费,每次渲染都是钱。
html-video的思路完全不一样。它把HTML变成视频——Agent描述一个视频场景,它生成多帧HTML动画,然后在本地直接渲染成MP4。不按次收费,不走云端API,本地就能跑。
支持Open Design、Claude Code、Cursor、Codex、Hermes等主流编码Agent。Apache-2.0协议,可以商用。
获取方式:
GitHub搜索「nexu-io/html-video」,支持pip安装和Docker本地部署。
工具的意义,就是让你把时间留给真正需要思考的事
夜雨聆风