删了 28 个插件后,我用 2 行代码找回了 Obsidian 的灵魂
0. 爷爷的瓶盖过滤器:工程力照进现实
我把 Obsidian 里那 30 多个插件列表甩给 Gemini,问它:「通过这份清单,你觉得我是个什么样的人?」
AI 没有迟疑。它先用一句高情商定调:「你绝非新手,而是一位经验丰富的『知识架构师』。你的工作流核心是:海量输入 → 精细处理 → 有效输出。」
紧接着,它亮出手术刀:「但你要警惕 配置过载(Configuration Overload)」。
这句话戳中了我。2023 年起,我在成都建设路那张俯瞰二环路车流的书桌上,把 Obsidian 变成了思想的游乐场。作为一个对软件有专研癖好的人,我总忍不住给它「加装涡轮」,尤其是 2025 年 AI 浪潮席卷之后。
Markdown 本就是 AI 的母语,Obsidian 与 AI 天生该是天作之合。于是我翻遍 Reddit 和官方论坛,把所有带 「Smart」、「Chat」、「AI」 字眼的插件尽数收入囊中。
我以为瓶颈在于 AI 不够聪明,后来才发现,真正的痛点是我们被想象力所包装的工程力过于缺乏。 我们习惯用鼠标点击、窗口切换这些高摩擦的「旧交互」,去驾驭大模型这个光速运转的「新大脑」。
就像家里洗面盆下水常常被堵,爷爷随手用矿泉水瓶盖做了一个小小的过滤器 。这就是解决问题不可或缺的工程力。
1. 交互方式的更新
更优雅的思考
我的知识生产曾被锁在键盘前。直到某天在图书馆,我盯着满屏待整理的半截灵感,突然意识到:为什么思考必须被钉在工位上?
例如洗澡时,炽热的水流击打着头颅和身体,是我才思最为敏捷的时候。大脑飞快运转,妙想如织,心流无限。心流在哪里,我就应该去哪里,那为何又要被钉在工位上?
于是,我开始尝试语音输入。
演进三部曲
|
|
|
|
|
|---|---|---|---|
| 键盘时代 |
|
|
|
| 麦克风时代 |
|
|
|
| 跨屏时代 |
|
|
手机拾音→实时转写→直传 Obsidian |
现在,我的典型场景是:揣着手机在书架间或者楼外踱步,边走边说。身体在移动,思维在发散,文字以 300+ 字/分钟的速度自动沉淀为 Markdown。等我踱回座位,屏幕上已铺开半页带着呼吸感的,夹杂着「呃」「那个」的口语流。
所以有两点,
第一、Chatbot的串行交互机制,到底是效率低下,而借助语音输入,相当于将独占和串行,进化成了批处理。
第二、口播的不完美,又恰恰是 LLM 时代的意外红利。
传统工作流视语音转写的噪音为负担,但 Gemini 这类模型天生擅长从非结构化语言中提取语义:
-
• 它自动忽略「呃」「啊」的填充词,从口语跳跃中捕捉思维脉络 -
• 重复和修正(「不是 A,应该是 B」)反而暴露了思考的演进轨迹 -
• 甚至误听或者口误,在上下文里也能被模型自动纠偏
这是一次静默的范式转移:我们不再为机器驯化表达,而是让机器适配人类最自然的思维流。
「踱步权」的意义
很多人问我为什么执着于语音输入。那你有没有考虑到,在非侵入式脑机接口普及前,最好的交互方式是怎样的?对的,是语音交互。
而换一个维度,从人类角度来考虑,捍卫「踱步权」,是不是也是对舒适的工作方式,美好生活的向往呢?
认知科学证实,身体移动能激活大脑的默认模式网络(DMN),这是灵感迸发的温床。当键盘声在图书馆成为社交负担,当工位变成思维牢笼,讯飞跨屏输入 + LLM 的组合,卖的不是「语音转文字」的功能,而是让思考重回身体、让灵感在空间中流动的自由。
几分钟后回到电脑前,面对那篇带着体温的口语化草稿,我只需轻点 Gemini:「请将以下内容转化为结构清晰的段落,保留原意但提升逻辑流畅度」。它秒回的,是一篇带着我思维指纹的精致文本。
2. 打穿隔阂:2行核心命令的务实美学
语音输入解决了「从 0 到 1」的草稿生成,但当我们坐回桌前,面对 AI 进行「从 1 到 100」的精修时,鼠标的每一次拖拽,都在磨损刚刚积累的心流。
典型场景:写完一篇长文,想拖进 Gemini 网页版润色。但 Obsidian 侧边栏的文件,无法直接拖到浏览器。传统操作是:
右键文件 → 「在资源管理器中显示」 → 等窗口弹出 → 找高亮文件 → 拖拽
(耗时 ~8 秒,心流中断)
在官方功能缺席时,自身的工程力就得上场了,Shell 脚本就是我们的瑞士军刀。我用 Shell Commander 插件,定义了两个实用命令,直接调用 Windows 底层能力:
方案 A:一键定位
最符合直觉的方案。按下快捷键,资源管理器瞬间弹出并高亮选中当前文档:
explorer /select,"{{file_path:absolute}}"
这行命令让文件定位时间从 5 秒缩短到 0.5 秒,心流不再因工具而断裂。
方案 B:剪贴板管道
有时我甚至不想打开新窗口。用 PowerShell 管道能力,直接将文件对象句柄抓取到剪贴板:
powershell -Command "Get-Item '{{file_path:absolute}}' | Set-Clipboard"
这两行命令,实则是打穿 Obsidian 本地环境与 Web AI 之间隔阂的实用工具。它体现了我的核心理念:不被工具的局限性锁死,而是用组合的思维去突围。
💡 注:本文中称“2 行脚本”,实指核心逻辑仅 2 行。实际配置需安装 Shell Commander 插件、理解基础 PowerShell 语法。
⚠️ 兼容性提示:经测试,通义千问(Qwen)网页版不支持剪贴板对象粘贴(方案 B),需使用方案 A 进行文件定位拖拽。
3. 撞墙记:当 Vibe Coding 遇上「最后一公里」
我也曾是个狂热的「造轮子党」,Vibe Coding(靠直觉 + AI 辅助的快速编程)让我自信心爆棚。
最典型的例子是Gemini 网页剪藏。
我一直觉得,与 AI 的对话不等同于闲聊,而是头脑风暴与共创 。但那些精妙的对话散落在浏览器标签页里,导出不便、无法统一管理。
为了把 Gemini 的网页对话优雅地存入知识库,我最初拒绝了所有第三方插件。我想:「Obsidian 官方不是有 Web Clipper 吗?我自己魔改一下不就行了?」
于是,我开启了 Vibe Coding 模式。我花了几小时,对着官方 Clipper 的代码大刀阔斧:写 Prompt 清洗 HTML 标签、提取正文、保留格式……
结果呢?
我确实搞出了一个勉强能跑的版本。但网页结构一变,脚本就挂;清洗稍有不慎,排版就乱成一锅粥。我不擅长 UI,也谈不上审美,面对 HTML 的排版地狱,我最终缴械投降。
直到某天,我无意中点开 Agent Client 那个不起眼的「软盘」图标,对话瞬间变成格式完美的 Markdown 笔记,信息完整、排版整洁、重点突出。
我恍然大悟:Vibe Coding 给了一种『我也能行』的幻觉,但工程的最后一公里,往往是由无数个「长尾」铺成的。把专业的事交给成熟的工具,不是投降,是止损 。
4. 总结我用过的插件
为了寻找最佳的 AI 伴侣,我把市面上主流的 Obsidian AI 插件都拖进了「角斗场」。
淘汰区
选手 1:Smart Connections
淘汰理由:付费墙锁死真智能
它主打 「让笔记与笔记对话」 ,概念令人着迷。但深入使用后发现:真正的智能被锁在 Pro 付费墙之后。免费版的嵌入模型效果平平,经常检索出毫不相关的笔记。
客观评价:笔记量小、不愿折腾的用户仍可一用;但对追求模型透明度、长文本处理的硬核玩家,它是在用付费墙绑架你的数据。
选手 2:Copilot
淘汰理由:API 消耗不可控
功能全面,但也比较激进。某次我尝试用它进行全库问答(QA),它在后台进行了暴力的向量检索和上下文填充,结果我的 API 额度瞬间被击穿,429 TooManyRequests 的错误柱状图直冲云霄。
结论:在没有精细控制 Token 消耗机制前,任何『全库索引』的 AI 插件都是钱包的粉碎机。
选手 3:Custom Frames
淘汰理由:物理隔绝的「假集成」
它能把 Gemini 网页版完整塞进 Obsidian 侧边栏,看起来很美好。但一上手就露馅了:它只是个浏览器套壳。
最大的痛点是 「物理隔绝」 ,无法把 Obsidian 里的笔记文件直接拖进这个窗口。
幸存者:Agent Client
胜出理由:克制而优雅
在经历一圈折腾后,Agent Client 成了我的主力 GUI 交互工具。它胜出的理由很简单:它懂 Obsidian。
-
• UI/UX 的克制:界面完美融入 Obsidian 原生风格,不像其他插件像个「嵌入的网页」 -
• 一键保存的实用主义:那个不起眼的「软盘」图标,点击即把当前对话变成格式完美的 Markdown 笔记 -
• 比魔改更稳定:我曾花大量时间魔改官方 Web Clipper,但 Agent Client 的剪藏效果比我手写的脚本更优雅、更稳定 
-
这才是属于 Obsidian 的 AI 交互方式:聊完即存,知识闭环。
5.为什么是 Gemini?因为「卖铲子」的人足够大方
在模型百花齐放的今天,我为什么对 Google Gemini 情有独钟?
理由很俗,也很真实:因为「卖铲子」的人足够大方。当然铲子也足够好。
淘金热中,最稳赚不赔的不是淘金者,而是卖铲子的人。Google 在这场 AI 淘金热中,选择做那个慷慨的「铲子商」:
-
• 100 万 Token 的 Context Window:可直接处理整本书、整个项目的代码,无需分段 -
• 家庭套餐额度 ×5:基本实现「API 自由」,让实验成本趋近于零 -
• Gemini CLI 这条「暗线」:这才是终极的「原生集成」。
后来 Gemini CLI 问世,配合 Terminal 插件,我直接将终端嵌入 Obsidian tab 。这彻底解决了「拖拽」的痛点,因为在命令行里,Obsidian的原生拖拽能够被Terminal及Gemini CLI所识别,Agent Client就更不在话下。
6. 结语:进击的巨人
你可能已经跃跃欲试,想去配置 Shell Commander 或安装 Agent Client 了。
但我还是先泼一盆冷水。
我们要清醒地认识到:我们现在的这些折腾,可能都只是暂时的。
软件开发门槛在降低,大模型能力在指数级增长。也许 3 个月、6 个月后,Obsidian 官方或某个巨头就会推出完美的 AI Native 笔记应用,把我们今天费尽心机搭建的“土法炼钢”流水线彻底吞噬。
那折腾的意义何在?
因为在这个“人人皆创客”的时代,工具会过时,但驾驭工具的逻辑不会。
这不仅是减法,更是一场交互界面的重构。当通过 Terminal 直接与数据对话时,我突然明白:最好的交互不是更华丽的 GUI,而是更短的神经通路。我们删掉中间层,不是为了省空间,而是为了让思想无损直达。
“做减法”不是技术选择,而是一种认知自律:
-
• 加法是本能:看到新工具就想装,看到新功能就想试 -
• 减法是修行:问自己“这个工具真的解决了我的痛点,还是只满足了我的收集癖?”
当我们用 Shell 脚本打通数据流,当我们看着 API 图表分析 Token 消耗,我们不仅仅是在配置软件,我们是在训练自己与 AI 协作的直觉 。这套直觉,才是未来面对任何新工具时的“元能力”。
行动指南:
1. 从你当前工作流中最痛的 1 个断点开始(比如文件拖拽、对话保存) 2. 用现有工具或简单脚本尝试“务实打通” 3. 记录过程,哪怕失败,那些弯路才是你独有的“训练语料” 趁着时间窗口还在,务实前行。先成为问题的定义者,再成为方案的构建者。
附录:我的“幸存者”配置清单
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|

夜雨聆风
