Graphify:把代码、文档和截图变成 AI 能查询的知识图谱

Graphify 把代码库变成地图，而不是更大的提示词

大型代码库最烦人的地方，不是文件太多。

真正的问题是关系藏在不同介质里：函数调用在代码里，设计理由在 README 里，数据库假设在迁移脚本里，架构图可能还是一张截图。你可以让 AI 助手把这些东西全读一遍，但这通常只是把“我不知道该看哪儿”换成“模型读了太多，还是不知道该信哪儿”。

Graphify 的做法更像先画地图，再让助手导航。

Graphify 是什么？

Graphify 是一个面向 AI coding assistant 的开源 skill。它可以把一个目录里的代码、文档、论文、图片、视频和音频处理成一个可查询的知识图谱，输出交互式 HTML、graph.json 和一份 GRAPH_REPORT.md 审计报告。

截至 2026-05-04，PyPI 上显示的最新版本是 graphifyy 0.7.0，发布时间是 2026-05-03。它的安装包在 PyPI 上叫 graphifyy，但 CLI 仍然叫 graphify。官方说明里强调这一点，是因为 PyPI 上其他 graphify* 包并不属于这个项目。

最短路径大概长这样：

ounter(lineounter(linepip install graphifyygraphify install

然后在支持的助手里运行：

ounter(line/graphify .

如果你在 Codex 里使用，官方 PyPI 说明里提到 Codex 也可能使用 $graphify 触发。具体以前端 agent 的本地配置为准。

输出目录通常是：

ounter(lineounter(lineounter(lineounter(lineounter(linegraphify-out/  graph.html  GRAPH_REPORT.md  graph.json  cache/

graph.html 用来浏览图，graph.json 用来后续查询，GRAPH_REPORT.md 会列出高连接度节点、意外连接和建议问题。缓存目录则解决反复跑同一批文件的成本问题。

为什么知识图谱比“读完整个仓库”更适合 AI 助手？

AI 助手擅长读局部上下文，但不擅长记住一个工程的拓扑。

一个仓库里的关键问题经常不是“AuthService 在哪一行定义”，而是：

ounter(lineounter(lineounter(line支付重试逻辑为什么依赖用户画像？哪个模块同时影响 API schema 和后台任务？这份设计文档里的限流假设，在代码里真的存在吗？

这些问题不是纯文本搜索问题。你需要关系：调用、引用、共享数据结构、概念相似、设计理由、跨文档依赖。

Graphify 把这些关系显式写进图里。之后助手回答问题时，不必每次从一堆文件重新开始读，而是可以沿着节点、边、社区和最短路径走。

这也是 Graphify 比普通代码可视化工具有意思的地方。它不是只画 import graph。它把代码结构、文档语义、图片信息和转写文本放在同一张图里。

Graphify 实际怎么工作？

Graphify 的流水线可以拆成三段。

第一段是确定性的代码结构提取。它用 Tree-sitter 解析代码，抽取类、函数、import、调用关系、docstring 和一些代码注释里的设计理由。这一步不需要 LLM，所以成本低，也更可复现。

第二段是语义提取。文档、论文、图片和转写后的音视频会交给 AI 助手处理，提取概念、关系和设计 rationale。Graphify 的本地 skill 里要求并行分块处理，通常按 20 到 25 个文件一个 chunk 分发，避免一个大上下文把模型拖进泥里。

第三段是合并、聚类和导出。Graphify 使用 NetworkX 表示图，用 Leiden 社区发现算法按图拓扑聚类，再导出 HTML、JSON、GraphML、SVG、Neo4j Cypher、Obsidian vault 或 MCP server，取决于你启用的参数。

关键点是：它的社区发现不是靠 embedding 做向量聚类。语义相似关系本身会作为 semantically_similar_to 边进入图，Leiden 再根据边密度找社区。也就是说，图结构就是检索信号。

它如何避免“模型编关系”？

Graphify 最值得保留的设计，是它没有假装所有边都一样可靠。

每条关系都会被标记成三类：

ounter(lineounter(lineounter(lineEXTRACTED   源文件里明确存在的关系，比如 import、调用、引用、论文 citationINFERRED    合理推断出来的关系，比如共享数据结构、隐含依赖、概念相似AMBIGUOUS   不确定但值得保留给人复核的关系

同时，每条边还有 confidence_score。本地 skill 里对分数有明确约束：EXTRACTED 永远是 1.0，INFERRED 要根据证据强弱判断，AMBIGUOUS 通常落在 0.1 到 0.3。

这听起来像小事，但对工程团队很重要。因为 AI 最危险的时刻不是它不知道，而是它把猜测写得像事实。

Graphify 的图谱不是“真理数据库”。它更像一份带置信度和来源的工程地图：这条路是源码里明说的，那条路是模型推断的，还有一条路看起来可疑，最好找人看一眼。

哪些场景最适合用 Graphify？

第一个场景是接手陌生代码库。

你可以先跑 /graphify .，看 GRAPH_REPORT.md 里哪些节点是高连接度节点，哪些社区边界被跨越。比起让 AI “总结这个仓库”，这个入口更接近真实工程师会做的事：先找枢纽，再看模块之间怎么互相影响。

第二个场景是研究资料库。

Graphify 明确借鉴了 Andrej Karpathy 的 /raw 文件夹工作流：论文、tweet、截图、笔记全都丢进去，再让系统从杂乱输入里建出结构。对研究来说，最有价值的不是把每篇论文摘要一遍，而是发现不同资料之间共享的概念、方法和冲突假设。

第三个场景是长期项目记忆。

graphify-out/graph.json 可以跨会话保留。几周后你再问“限流策略和账单队列之间有什么关系”，助手不必从零读完整个仓库。它可以从已有图谱里找节点、邻居、社区和路径。

它不适合什么？

Graphify 不是替代代码审查的工具。

AST 能抓结构，LLM 能补语义，但它无法证明行为正确。一个 INFERRED 边可能很有用，也可能只是一个值得调查的线索。你仍然需要测试、日志、运行时 trace 和人的判断。

它也不是越大越好。Graphify 的本地说明里对超大语料有保护：超过 200 个文件或 200 万词时，应该先提示用户选择子目录。这个限制很合理。知识图谱的价值来自结构密度，不是把硬盘上的所有东西都丢进一锅汤里。

隐私上也要讲清楚：代码结构提取在本地做，音视频转写可以用本地 Whisper；但文档、论文和图片的语义提取会走你当前 AI 助手背后的模型 API。对内部资料库使用前，团队需要知道哪些内容会离开本机。

一个实际的工作流

我会这样把 Graphify 放进日常开发：

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(line1. 在仓库根目录创建 .graphifyignore，排除 node_modules、dist、vendor 和生成代码。2. 跑 /graphify .，先读 GRAPH_REPORT.md，而不是直接点开大图乱逛。3. 针对高连接度节点问问题，比如 “为什么 BillingJob 连接到 FeatureFlags？”4. 用 /graphify path 查询两个概念之间的最短路径。5. 代码改动后用 /graphify --update 只重跑变化文件。6. 如果要给其他 agent 用，启动 MCP server，让它们通过 query_graph、get_neighbors、shortest_path 访问图。

对大型团队来说，最有意思的不是 HTML 图，而是第 6 步。图谱变成 agent 之间共享的上下文层。一个 agent 修后台任务，另一个 agent 写迁移脚本，它们查询的是同一张带来源、置信度和社区边界的地图。

Graphify 的取舍

Graphify 做了一个清醒的选择：不用向量数据库当默认答案。

这不代表 embedding 没用。它只是说，在代码库理解这个问题上，拓扑关系经常比“文本相似”更接近工程事实。两个函数名字很像，不代表它们在架构上有关；一个文档段落和一个模块没有共同关键词，也可能通过数据结构或设计决策强相关。

代价也很明显。图谱质量取决于提取质量，尤其是语义边。你需要接受 INFERRED 和 AMBIGUOUS 的存在，也需要在关键决策前回到源文件确认。

但这是一个诚实的代价。比起把整个仓库塞进上下文窗口，然后希望模型自己在脑子里维护一张隐形地图，我更愿意让关系显式化，让不确定性浮到台面上。

FAQ

Graphify 和代码依赖图有什么区别？

依赖图通常只覆盖 import、call graph 或包关系。Graphify 还会把文档、论文、图片、音视频转写和设计理由纳入同一张图，并标记关系置信度。

Graphify 需要 Neo4j 吗？

不需要。Graphify 默认使用 NetworkX 和本地文件输出。Neo4j 是可选导出或推送目标。

Graphify 会把代码上传到云端吗？

代码结构提取通过 Tree-sitter 在本地完成。文档、论文和图片的语义提取会使用你当前 AI coding assistant 背后的模型 API。音视频转写可在本地运行。

Graphify 适合小项目吗？

可以用，但收益不同。小项目未必能节省多少 token，因为本来就能塞进上下文。小项目的价值主要是结构清晰；大项目的价值才会更多体现在跨会话记忆和查询成本下降。

结尾

Graphify 的真正卖点不是“把仓库画成一张漂亮的图”。

它更像给 AI 助手补上一个工程师会先做的动作：在读细节之前，先理解地图。哪些东西是枢纽，哪些关系是源码事实，哪些只是合理猜测，哪些社区之间有意外通道。

下次接手一个陌生仓库时，可以先跑：

ounter(line/graphify .

然后别急着问“总结这个项目”。先问一个更工程化的问题：

ounter(line/graphify path "用户认证" "数据库迁移"

如果这条路径存在，你会比读完 40 个文件更快知道自己该紧张哪里。

参考资料

PyPI: https://pypi.org/project/graphifyy/
Graphify 官网: https://graphify.net/zh/
GitHub 仓库: https://github.com/safishamsi/graphify
本地 skill: C:\Users\tiandi\.agents\skills\graphify\SKILL.md