日常复盘、AI 工具使用与本地多模态模型部署实践感悟

一、每日清晨的复盘习惯

每天清晨，我都会到公园步行一小时，借着散步放空思绪，用录音笔随心记录想法、观点与实战案例，边走边梳理、边思考边总结。这样的方式一举两得，既锻炼身体，又能沉淀思路、提炼逻辑、完成内容创作，不用刻意占用整块时间，高效又轻松。

二、AI 语音转写：从录音到成文的流程

随着 AI 语音技术普及，录音复盘成文的流程变得十分便捷。以往录音整理繁琐费力，如今依靠人工智能语音转文字，就能快速把口语内容转为文稿。但口述录音天然存在逻辑松散、语气词繁多、思路跳跃随意等问题，严谨度远不如主动写作，因此转写只是第一步。

后续还需要：

• 剔除口头禅与冗余口语
• 理顺行文逻辑
• 校验转写错误与记忆偏差
• 最终打磨成完整通顺的文章

整套流程都离不开大语言模型辅助处理。

三、录音设备与 AI 工具搭配使用

日常我搭配两套录音设备使用：

讯飞录音笔

• 优点：语音忠实度、原始转写效果稳定可靠
• 不足：内容智能整理能力一般

豆包

• 优点：文本梳理优化效果出众，能快速规整长篇口语文稿
• 细节保留最好

AI 的局限性

AI 会主动抹平尖锐观点、偏激论点与犀利批判，偏向通用中立逻辑，敏感话题还会拒绝生成内容。为此我搭配多款模型互补使用：

• Gemini Pro：抽象处理能力更强，但容易丢失案例细节
• ChatGPT：输出精简深刻，同样会省略大量信息

多模型组合搭配使用，才能兼顾原创观点与内容完整性。

豆包录音纪要功能

我也体验过豆包自带录音纪要功能，支持 40 分钟录音处理，可完整留存原声。但自动智能整理后的内容容易偏离本人原意，不如讯飞原生转写 + 豆包二次整理的组合实用高效。平时偶尔使用 AI 长文生成能力，更多时候还是保留内容原汁原味，自主发布原创思考。

四、每日复盘的自律价值

长期每日复盘总结，慢慢变成一种自律习惯，反过来不断推着自己前行。专注人工智能领域，坚持每日实战实践，在操作中总结行业规律。

人本身存在惰性，闲暇时光极易陷入空虚、胡思乱想，滋生情绪内耗与焦虑。而规律复盘、持续学习，能有效填补空闲，避免虚度光阴。很多棘手难题不必死磕纠结，适当搁置、沉淀思考，换个时间再回看，往往豁然开朗。

五、AI 与学习的"科技与狠活"

人工智能大幅加速了学习与问题处理效率，改变了传统知识慢慢沉淀、自然发酵的模式。就像酱香白酒，传统方式需要长年窖藏沉淀才有醇厚风味，AI 就如同行业里的**"科技与狠活"**，快速调配出口感、成分高度相近的成品。

有人坚守传统，拒绝科技速成产物，这是主观选择；但在学习、思考、解决问题层面，AI 已经彻底重构效率，让人快速突破难点、深耕领域，这是时代巨大的变革。

六、核心实操：多模态大模型本地部署

抛开日常感悟，本次核心实操课题为多模态大模型本地化部署。

纯文本大模型部署现状

纯文本大模型 Mac 本地部署技术已经十分成熟，主流部署平台我均已搭建完毕。前期常用一款工具，如今更偏向 GUI 相关平台：

• LM Studio：可视化界面，操作友好
• oMLX：基于 MLX 推理架构
• vMLX：针对苹果芯片 MLX 推理架构深度优化，内存占用更低、运行性能更好，但模型兼容性有限

我不偏好命令行操作，大多选用可视化界面工具。

超高量化压缩技术，可以把数百 G 的大模型压缩至本地可运行规格，适配通义千问 3.6、英伟达 Nemotron 等多款大参数量模型。在专属平台运行更稳定，却无法跨平台通用，不同工具之间也存在接口匹配兼容问题，编程交互界面仍未完善落地。

原生多模态模型的部署难题

目前通义千问 Omni、英伟达 Nemotron Omni 等原生音视频多模态模型已发布。这类模型打通文字、图片、语音、视频全域推理能力，是真正原生多模态架构。

但现有主流本地部署平台大多仅支持图片识别，无法加载、调用音频与视频推理能力，接口与交互界面均存在明显局限。

各推理框架对比

我借助 Codex 分析了方案框架的优劣：

框架	优势	不足
vLLM-MLX	适配性强，支持生产级多模态服务，可正常测试图片、音频、视频全维度内容	纯命令行操作，上手难度较高
OpenWebUI	依托 Ollama 底层架构，支持外接模型接口配置	加载 Nemotron Omni 后依旧无法实现原生音视频推理

Codex 建议额外挂载独立语音转写、语音生成模型，但这已经违背原生多模态一体推理的核心逻辑，并非真正意义上的多模态部署。反复调试消耗了 Codex Plus AI 对话限额。截至目前，Mac 端原生本地音视频多模态模型部署，依旧没有成熟实现。

过往探索历程回顾

回顾过往多模态探索历程：

• Xinference（去年尝试）：音频、图片、视频需要分开加载独立模型，并非一体化多模态能力，仅适合功能验证，无法落地生产使用。环境依赖复杂、调试繁琐，耗时两个月最终搁置。
• ComfyUI（多媒体工作流编排工具）：串联各类模型节点实现语音克隆、音频播客生成，学习门槛较高，经过半年摸索才顺利完成首次语音播客制作。

当前 AI 的短板暴露

Warp 调试 ComfyUI 多媒体创作平台额度消耗极快，日常使用成本很高。近期测试 Hermes 智能体原生 ComfyUI Skill 复刻语音播客生成任务，早前存在的 Eagle 注意力机制的代码 bug再次出现，反复调试多次才正常运行。

这也暴露出当前 AI 一大短板：跨智能体无法留存问题解决方案与调试经验。单次故障修复后无法固化能力，同类问题重复出现，重复耗费大量时间排查。

Claude Cowork 的沙箱局限

Claude Cowork 采用沙箱机制，无法支持本机终端交互，属于封闭沙箱环境，不能满足本地模型底层部署调试需求。需要切换到 Claude Code CLI 处理终端排查问题，而 Claude Code CLI 与 Claude Cowork 工具终端能力互不互通，也给本地 AI 模型深度实操带来不少困扰。

总结

以上便是近期日常思考、AI 工具使用心得，以及苹果设备原生多模态大模型本地部署的全流程实战探索，相关调试与优化工作仍在持续推进。