
一、每日清晨的复盘习惯
每天清晨,我都会到公园步行一小时,借着散步放空思绪,用录音笔随心记录想法、观点与实战案例,边走边梳理、边思考边总结。这样的方式一举两得,既锻炼身体,又能沉淀思路、提炼逻辑、完成内容创作,不用刻意占用整块时间,高效又轻松。
二、AI 语音转写:从录音到成文的流程
随着 AI 语音技术普及,录音复盘成文的流程变得十分便捷。以往录音整理繁琐费力,如今依靠人工智能语音转文字,就能快速把口语内容转为文稿。但口述录音天然存在逻辑松散、语气词繁多、思路跳跃随意等问题,严谨度远不如主动写作,因此转写只是第一步。
后续还需要:
• 剔除口头禅与冗余口语 • 理顺行文逻辑 • 校验转写错误与记忆偏差 • 最终打磨成完整通顺的文章
整套流程都离不开大语言模型辅助处理。
三、录音设备与 AI 工具搭配使用
日常我搭配两套录音设备使用:
讯飞录音笔
• 优点:语音忠实度、原始转写效果稳定可靠 • 不足:内容智能整理能力一般
豆包
• 优点:文本梳理优化效果出众,能快速规整长篇口语文稿 • 细节保留最好
AI 的局限性
AI 会主动抹平尖锐观点、偏激论点与犀利批判,偏向通用中立逻辑,敏感话题还会拒绝生成内容。为此我搭配多款模型互补使用:
• Gemini Pro:抽象处理能力更强,但容易丢失案例细节 • ChatGPT:输出精简深刻,同样会省略大量信息
多模型组合搭配使用,才能兼顾原创观点与内容完整性。
豆包录音纪要功能
我也体验过豆包自带录音纪要功能,支持 40 分钟录音处理,可完整留存原声。但自动智能整理后的内容容易偏离本人原意,不如讯飞原生转写 + 豆包二次整理的组合实用高效。平时偶尔使用 AI 长文生成能力,更多时候还是保留内容原汁原味,自主发布原创思考。
四、每日复盘的自律价值
长期每日复盘总结,慢慢变成一种自律习惯,反过来不断推着自己前行。专注人工智能领域,坚持每日实战实践,在操作中总结行业规律。
人本身存在惰性,闲暇时光极易陷入空虚、胡思乱想,滋生情绪内耗与焦虑。而规律复盘、持续学习,能有效填补空闲,避免虚度光阴。很多棘手难题不必死磕纠结,适当搁置、沉淀思考,换个时间再回看,往往豁然开朗。
五、AI 与学习的"科技与狠活"
人工智能大幅加速了学习与问题处理效率,改变了传统知识慢慢沉淀、自然发酵的模式。就像酱香白酒,传统方式需要长年窖藏沉淀才有醇厚风味,AI 就如同行业里的**"科技与狠活"**,快速调配出口感、成分高度相近的成品。
有人坚守传统,拒绝科技速成产物,这是主观选择;但在学习、思考、解决问题层面,AI 已经彻底重构效率,让人快速突破难点、深耕领域,这是时代巨大的变革。
六、核心实操:多模态大模型本地部署
抛开日常感悟,本次核心实操课题为多模态大模型本地化部署。
纯文本大模型部署现状
纯文本大模型 Mac 本地部署技术已经十分成熟,主流部署平台我均已搭建完毕。前期常用一款工具,如今更偏向 GUI 相关平台:
• LM Studio:可视化界面,操作友好 • oMLX:基于 MLX 推理架构 • vMLX:针对苹果芯片 MLX 推理架构深度优化,内存占用更低、运行性能更好,但模型兼容性有限
我不偏好命令行操作,大多选用可视化界面工具。
超高量化压缩技术,可以把数百 G 的大模型压缩至本地可运行规格,适配通义千问 3.6、英伟达 Nemotron 等多款大参数量模型。在专属平台运行更稳定,却无法跨平台通用,不同工具之间也存在接口匹配兼容问题,编程交互界面仍未完善落地。
原生多模态模型的部署难题
目前通义千问 Omni、英伟达 Nemotron Omni 等原生音视频多模态模型已发布。这类模型打通文字、图片、语音、视频全域推理能力,是真正原生多模态架构。
但现有主流本地部署平台大多仅支持图片识别,无法加载、调用音频与视频推理能力,接口与交互界面均存在明显局限。
各推理框架对比
我借助 Codex 分析了方案框架的优劣:
| vLLM-MLX | 纯命令行操作 | |
| OpenWebUI |
Codex 建议额外挂载独立语音转写、语音生成模型,但这已经违背原生多模态一体推理的核心逻辑,并非真正意义上的多模态部署。反复调试消耗了 Codex Plus AI 对话限额。截至目前,Mac 端原生本地音视频多模态模型部署,依旧没有成熟实现。
过往探索历程回顾
回顾过往多模态探索历程:
• Xinference(去年尝试):音频、图片、视频需要分开加载独立模型,并非一体化多模态能力,仅适合功能验证,无法落地生产使用。环境依赖复杂、调试繁琐,耗时两个月最终搁置。 • ComfyUI(多媒体工作流编排工具):串联各类模型节点实现语音克隆、音频播客生成,学习门槛较高,经过半年摸索才顺利完成首次语音播客制作。
当前 AI 的短板暴露
Warp 调试 ComfyUI 多媒体创作平台额度消耗极快,日常使用成本很高。近期测试 Hermes 智能体原生 ComfyUI Skill 复刻语音播客生成任务,早前存在的 Eagle 注意力机制的代码 bug再次出现,反复调试多次才正常运行。
这也暴露出当前 AI 一大短板:跨智能体无法留存问题解决方案与调试经验。单次故障修复后无法固化能力,同类问题重复出现,重复耗费大量时间排查。
Claude Cowork 的沙箱局限
Claude Cowork 采用沙箱机制,无法支持本机终端交互,属于封闭沙箱环境,不能满足本地模型底层部署调试需求。需要切换到 Claude Code CLI 处理终端排查问题,而 Claude Code CLI 与 Claude Cowork 工具终端能力互不互通,也给本地 AI 模型深度实操带来不少困扰。
总结
以上便是近期日常思考、AI 工具使用心得,以及苹果设备原生多模态大模型本地部署的全流程实战探索,相关调试与优化工作仍在持续推进。
夜雨聆风