本周GitHub热门AI工具速递:Token省95%、推理快10倍

【老王AI工具包】专注挖掘免费AI工具，每周3篇实测干货。

关注我，别错过下一个技术红利 ↓

是，这个礼拜GitHub又炸了7个AI开源工具——Token省了95%、推理快了10倍，全是可本地跑的那种。

往下翻，你看完一样想：这周的白嫖名额也太满了。

01 Token省钱的

agentsview

💡核心思路：AI编码到底花了多少钱，一眼看清。

用Cursor、Claude Code这些的朋友，每月Token账单基本是一笔糊涂账——哪个项目烧了多少、哪次对话最贵，全凭感觉。

agentsview把所有AI编码工具的用量汇总到一个本地看板，SQLite存本地，Token消耗、资金成本、历史会话全可视化。

🎯适用场景：重度AI编码开发者，想精准控成本的。

📎开源地址：https://github.com/kenn-io/agentsview

headroom

💡核心思路：LLM输入文本压缩到5%，不改模型不改代码。

任何大模型的输入——RAG片段、Agent日志、对话上下文——扔进去，直接省60%-95% Token。不需要改业务逻辑，不用换模型。

装上，就开始省钱。

📎https://github.com/headroom

codebase-memory-mcp

💡核心思路：大代码库AI每次从头读？让它记住。

用Cursor处理10万行项目，每次切换对话AI都"失忆"——重新读全量文件，Token哗哗烧，响应慢成龟。

codebase-memory-mcp给AI装持久记忆，自动解析158种语言的函数、类、接口关系。Token消耗降到1/20，查询毫秒级。

🎯适用场景：后端/全栈开发，常年跟大型仓库打交道。

https://github.com/DeusData/codebase-memory-mcp

02 推理提速

LMCache

💡核心思路：大模型推理KV缓存加速器，10倍提速。

本地跑长上下文大模型（Qwen3-235B这种），KV Cache吃显存——首字延迟高、并发带不动。

LMCache专攻这个。实测Qwen3推理性能提升10倍，首字延迟优化13倍，缓存访问比原生vLLM快7倍。兼容vLLM、SGLang、TensorRT-LLM。

🎯适用场景：私有化大模型部署、推理服务运维。

📎 https://github.com/LMCache/LMCache

03 安全防护

NVIDIA SkillSpector

💡核心思路：英伟达官方AI Skill安全扫描器。

自定义AI Skill、Agent插件，谁知道有没有后门？Prompt注入、恶意命令、凭证窃取——多数开发者装上就用，从不检查。

SkillSpector静态扫描，不占硬件不跑服务。16大类64种AI专属漏洞全覆盖，自动出风险评分报告。上线首周5500+Star。

🎯适用场景：对外服务的AI Agent、Skill发布前必扫。

📎https://github.com/NVIDIA/SkillSpector

04 Agent能力拓展

Chatwoot

💡核心思路：开源自建AI客服，不交年费，数据自己手里。

商用AI客服一年大几千，数据还在第三方。个人副业、小微企业用户咨询散落在网站、邮箱、社交平台——管不过来。

Chatwoot一个后台接所有渠道，内置AI自动回复、工单分配。Docker一键部署，3.2万Star。

🎯适用场景：私域运营、AI副业、小程序服务。

📎 https://github.com/chatwoot/chatwoot

open-notebook

💡核心思路：Notebook LM平替，数据本地存。

Notebook LM好用但数据上云。open-notebook复刻核心能力——AI分析文档、笔记管理、知识库搭建——同时数据全部本地留存。

https://github.com/lfnovo/open-notebook

05 彩蛋·一句话工具

工具名称	一句话简介	Star热度
addyosmani/agent-skills	谷歌工程师整理生产级AI编码技能合集	⭐
Agent-Reach	零API成本抓取B站/小红书，AI内容调研工具	33.5k⭐
last30days-skill	AI自动聚合海外多平台资讯、主题热点	44.4k⭐

📌 收藏备用：这10个工具够你折腾一个月。每次想找新灵感，翻出来。

你现在用哪个？评论区唠两句 👇

顺手点个在看，让需要的朋友也看到