一台 CD 随身听教会 AI 维修的真正门槛
一台索尼 D-NE800 CD 随身听,故障描述是「不读盘」。把机器、电池、症状的照片发过去,再附一段「三天前还好好的,昨天换过一次电池」的时间线,AI 能在三轮问答内定位到「电池仓弹簧触点氧化」这种冷门原因,给出「用细砂纸轻擦正负极触点」的具体动作。真正拆机之前,没有专业仪器,没有电路图,只有一部手机和一段带照片的对话。
这不是某次偶然的运气,而是当提示词写得足够结构化之后,AI 现场指导维修的下限。AI 不会动手,但它能让一个零基础的人在 30 分钟内完成 10 年前需要老法师带教才能做的判断。
这篇文章拆解这条链路:先讲清楚「AI 修设备」这件事为什么成立,再给四套可以直接复制使用的提示词模板,覆盖家电、拆机、工业设备、完全陌生设备四种场景,最后给出 7 个让提示词「落地而不是好看」的细节。
为什么 AI 能现场指导维修
维修的核心动作是三件事:把现象描述准、缩小故障范围、给出可执行的下一步。这三件事 AI 都能做,而且做得出人意料地稳——前提是输入端结构化。
2026 年 6 月 Nature 上一篇关于 MIRA 自主医疗智能体的论文,把同一件事在医疗领域做到了极致:MIRA 在沙盒电子病历环境里调用 11 类临床工具、8.5 万余种可执行操作,对 500 余例急诊病例做完整闭环诊断,平均准确率 87.8%,比专科医师组 78.1% 和基层轮转医师组 71.1% 分别高出约 10 个和 17 个百分点,治疗规范依从性比医师组高 35 个百分点。医疗是比维修复杂得多的领域,但只要把工具调用权、上下文装配、决策回路三件事做对,AI 就能在陌生领域达到人类专家的下限。
把这件事搬到设备维修上,需要解决三个工程问题:
第一,背景装配。把设备型号、出厂年代、运行环境、故障时序、已尝试动作都告诉 AI,等于给它的检索空间做了剪枝。背景越完整,AI 越不需要靠概率猜。一个反例是只发一句「这台 XXX 坏了」——AI 面对的是整个设备类型的所有故障,命中率自然低到个位数。
第二,聚焦变化。同样的「不读盘」,三天前还好的是接触问题,今天突然坏的是硬件问题,摔过之后坏的是机械问题。描述「之前—之后—中间做了什么」比描述「现在坏了」信息量大 5 到 10 倍。这一条也是区分「有维修经验的人」和「没经验的人」最明显的分水岭——前者自动给出时间线,后者只会给结果。
第三,主动排除。把已经做过的检查、已经排除的可能写进提示词,避免 AI 重复建议。这是节省 30%-50% 对话轮次的关键。实测下来,一段带「已尝试动作 + 已排除项」的提示词,平均对话轮次从 8 轮降到 4-5 轮,总耗时压缩约 40%。
从推理侧看,2026 年的多模态模型在这一年内的推理速度也在快速跟上工程需求。DeepSeek 与北大联合发布的 DSpark 框架在线上把单用户生成速度提升 57%-85%,系统吞吐提升 51%-52%,意味着现场问答的响应延迟从过去的 5-8 秒压到 2-3 秒。这 2 秒的差距,决定了 AI 能不能真正进入「现场实时指导」的工作流。
提示词模板一:不拆机的家用电器
适用场景:洗衣机、空调、热水器、电饭煲等不需要开盖就能判断的家电。
角色:你是一位有 15 年经验的家电维修技师,熟悉 [设备品牌/型号] 的常见故障。
设备信息:
- 品牌型号:[如 美的 MB70V31]
- 购买年份:[如 2019 年]
- 使用环境:[如 北方城市,自来水硬度较高]
- 上次正常使用时间:[具体日期]
- 上次维护记录:[如 2 年前清洗过一次内胆]
故障现象(按时间线):
1. [日期 1] 一切正常
2. [日期 2] 出现 [具体现象,如「洗涤 10 分钟后报警 E1」]
3. [日期 3] [变化或扩展]
已尝试的排查动作(请勿重复建议):
- [动作 1]:[结果]
- [动作 2]:[结果]
约束:
- 在我授权前,不要建议拆机
- 每一步只给一个动作,并写明判断依据
- 涉及高压、高温、强电的操作,请先标注风险等级这段模板的关键是 「按时间线描述」和「已尝试的排查动作」 两条。前者给 AI 变化,后者给 AI 排除项。两者配合,AI 给出第一条建议的速度通常在 30 秒以内。
提示词模板二:拆机维修(带照片)
适用场景:CD 随身听、相机、笔记本、电源、主板等需要开盖判断的设备。照片是这条模板的核武器。
角色:你是一位熟悉 [设备类型] 的维修工程师,擅长根据照片定位故障。
设备:[品牌 + 型号 + 出厂年]
当前状态:[通电正常 / 不通电 / 报错代码]
工作环境:[如「办公室,常年 25℃」]
照片清单(按顺序发给你):
1. 整机外观:[附图]
2. 故障部位特写:[附图]
3. 内部相关区域:[附图]
4. 序列号或铭牌:[附图]
请先逐张照片分析:
- 你看到了什么关键信息
- 这张照片能排除哪些可能
- 还缺哪张照片才能继续判断
得到我确认「照片信息已理解」之后,再给出:
- 当前最可能的 3 个故障方向
- 每个方向需要的验证动作
- 推荐的验证顺序让 AI 描述照片而不是直接给结论,是这套模板的精髓。原因有三:
- • AI 对模糊、错位、错误标注的照片有 5%-15% 的误判概率,先描述再判断可以把误判显性化
- • AI 的描述会暴露它的「理解边界」,可以反向验证
- • 后续如果走保修或者发到社区求助,AI 的描述可以直接复制粘贴
实际使用中,把 4 张照片按顺序发过去,AI 给出描述平均 45 秒;第一轮把可能的故障收敛到 3 个以内,比直接跳到结论要可靠 3-5 倍。
提示词模板三:工业 / 办公设备
适用场景:工厂 PLC、服务器、打印机、网络设备、医疗仪器等有故障代码、日志、参数表的设备。
角色:你是 [设备类别] 的现场支持工程师,擅长通过日志和参数定位故障。
设备:
- 型号:[SN/PN/固件版本]
- 已运行时间:[小时数]
- 上次保养时间:[日期]
故障代码 / 日志片段(请原样粘贴,不要改写):[粘贴日志]
当前运行参数(只列偏离额定的项):
- [参数 1]:[实测] / 额定 [范围]
- [参数 2]:[实测] / 额定 [范围]
历史故障记录:
- [日期]:[现象 + 处理]
请按以下顺序回答:
1. 日志里最可疑的 3 行,标注原因
2. 需要我现场测量的 1-2 个参数(具体到万用表档位或示波器通道)
3. 在测量结果出来前,设备可以继续运行的最长时间和风险工业设备的维修不允许拍脑袋,这套模板的核心是「先看日志、再看参数、最后看人」。日志给的是设备自己说的话,参数给的是设备当前的状态,人是最后的兜底。三层信息交叉验证,AI 给出第一条建议的命中率能稳定在 70% 以上。
一个容易踩的坑:把日志贴进去之后,AI 经常会「善意总结」,把原始报错信息改写成顺口的话。这恰恰是最危险的环节——原始日志里的时序戳、寄存器值、错误码组合,是定位故障的关键证据。模板里那句「请原样粘贴,不要改写」就是用来防这个的。
提示词模板四:完全陌生设备
适用场景:第一次接触的设备、说明书丢失、二手设备、新买的国外品牌。这时候根本没有「已知背景」可填。
角色:你是一位通用的设备维修顾问,擅长在没有资料的情况下做初步判断。
这台设备:
- 看起来像:[类型描述,如「工业级咖啡机」]
- 表面文字 / 标识:[粘贴所有可见文字]
- 控制面板:[拍照描述按钮和屏幕]
我目前能做的安全动作:
- 插电 / 不插电:[是 / 否]
- 拆外壳:[是 / 否]
- 拆内部组件:[否]
请按以下顺序引导我:
1. 让我先报 3 个最关键的安全信息(电压、是否有储能元件、是否有高压标识)
2. 让我拍 5 张标准角度的照片
3. 让我描述按下每个按钮后的反馈
4. 在上述信息齐备后,列出最可能的 3 个故障方向
约束:在你确认我提供的安全信息之前,不要给任何具体操作建议。这套模板的设计哲学是 「在没有上下文的时候,先把上下文建出来」。AI 的知识广度远超任何一个人,劣势是没有这台具体设备的「第一手数据」。前三轮对话的目的不是修好它,是把这台设备「数字化」成 AI 看得懂的结构化描述。
实测下来,一台陌生的二手示波器,从「完全不懂」到「AI 给出第一个有效建议」平均需要 5-7 轮对话、约 15 分钟。比翻说明书快 3 倍,比打电话给厂家技术支持快 10 倍。
让提示词真正好用的 7 个细节
把上面四套模板用到「真能落地」的程度,有 7 个细节必须做对。
细节一:型号精确到完整字符串。同样的故障,「索尼 D-NE800」和「索尼 CD 机」是两个完全不同的检索空间。型号包含字母、数字、横杠、版本号,一个字符都不能省。
细节二:时间线用绝对日期,不用「最近」「昨天」。相对时间在多轮对话后会丢失上下文,绝对日期不会。2026-06-25、2026-06-27、2026-06-29 比「三天前」「前天」「今天」在第 10 轮对话时仍然清晰。
细节三:已尝试动作要写真实结果,不要写「试过了,没用」。把动作和结果分开写,例如「换了一对新电池 → 故障依旧」比「试过电池」信息量大 5 倍。这一条是节省 30% 沟通成本的关键。
细节四:每轮对话只让 AI 做一个动作。维修是链条式的判断,每一步的结果决定下一步的走向。让 AI 一次给三个动作,表面上效率高,实际上步骤 2 的结果会颠覆步骤 1 的假设,链条就断了。正确的节奏是:AI 问 → 现场做 → AI 解读 → AI 问 → 现场做 → AI 解读。
细节五:把风险写进提示词。任何涉及强电、高温、机械臂、储能元件的动作,都要在提示词里写明风险等级。AI 会自动在每个动作前加上「断电 5 分钟」「佩戴绝缘手套」「不要触碰 XX 区域」这类安全提示。不写风险等级,AI 会按通用场景给建议,可能漏掉这台设备的具体危险点。
细节六:多模态优先于纯文字。同样的信息量,一张照片比 200 字描述传递得更准。这是为什么 2026 年的 AI 维修效率比 2024 年高出 50%-80% 的根本原因——多模态模型(GPT-4o、Gemini 2.5、Claude 4 Sonnet)的视觉理解能力已经覆盖了工业场景。
细节七:上下文用「循环」而不是「会话」。把每次维修的提示词、照片、对话日志、最终解决方案沉淀到本地(一个文件夹、一份 Notion、一段 Markdown),下次遇到同型号设备直接复用。这正是当下 AI 开发范式从 Prompt Engineering 走向 Loop Engineering 的核心——把单次对话变成可迭代的资产。
现场交互的三条纪律
提示词写得再好,现场执行跟不上也是白搭。三条纪律记牢。
第一条:先断电,再拍照,再问。带电设备拍的照片里,故障现象会被电压、电流、温度干扰,给 AI 的判断埋雷。任何涉及电容、电机、加热元件的设备,断电后等 3-5 分钟再拍。这一条能避免 80% 的「AI 给了错建议」。一个具体动作清单:先拔电源线、等 3-5 分钟让电容放电、佩戴绝缘手套、然后再拍照——这四步加起来不到 1 分钟,但能把后续对话的准确率从 60% 拉到 85% 以上。
第二条:照片按顺序发,编号写清楚。把第几张是整机、第几张是故障部位、第几张是内部构造写进提示词模板里。多张无序的照片会让 AI 的注意力漂移,定位准确率下降 20%-40%。另一个容易踩的坑是只拍故障局部——AI 看不到整机比例,会把一颗 0805 贴片电阻误判成 0603,给出的工具型号就完全错了。至少拍一张包含「参照物」的照片(比如把螺丝刀头放旁边、把硬币放旁边),AI 能据此反推尺寸。
第三条:AI 说完一个动作,等结果再问下一个。不要在 AI 给出「测 X 点电压」之后,紧接着问「如果是 XX 怎么办」——这种「提前问」会污染上下文,让 AI 把假设当成事实。正确的做法是:动作 → 实测 → 把结果发回去 → 让 AI 重新判断。每一次结果回传,本质上是把「开环」变成「闭环」,这是维修从「猜」变成「判」的分界点。
进阶:多模态 + Loop 模式
当单次提示词模板用熟之后,可以往两个方向升级。
多模态升级:把照片升级成视频。30 秒的现场操作视频比 10 张照片传递的信息多 4-6 倍。2026 年的多模态模型对维修类视频的帧采样理解已经能稳定在 75% 准确率以上。视频的优势还在于「过程」——AI 看到你按按钮后继电器有没有吸合、风扇有没有转、屏幕有没有闪烁,这些都是静态照片里读不到的。一个折中方案是:照片用于「看清结构」,视频用于「看清动作」,两者互补。
Loop 升级:把每次维修沉淀成「提示词 + 照片 + 对话 + 结论 + 复用建议」的循环资产。下次遇到同型号设备,AI 直接读这份资产,把首轮对话的判断时间从 5 分钟压缩到 30 秒。工业场景里,一台关键设备每年可能要修 3-5 次,Loop 模式能把平均维修时间从 2 小时压到 40 分钟以内。沉淀的方法很简单:一个 Markdown 文件,按「型号—故障现象—提示词模板—AI 给出的判断—实测结果—最终方案」六段式记录,坚持 10 次以后就形成了个人或者团队的维修知识库。
这种模式背后的趋势是 AI 开发范式从「单次提示」走向「可循环的工程系统」——人类从「每次写提示词」的角色,变成「设计循环结构」的角色。这正是当下 Prompt Engineering → Context Engineering → Harness Engineering → Loop Engineering 四阶段演进的落地场景之一。判断一个团队是不是真的在用 AI,不是有没有调用 API,而是有没有把这些循环资产沉淀下来。
操作员与指挥员
AI 修设备的本质不是「让 AI 变成工程师」,而是 把工程师的判断过程变成可以复用的工程系统。
这条链路里需要两种角色:一种是善于与 AI 协作、减少交互回合的人,负责压缩判断时间;另一种是严格执行 AI 指令、把动作落到现实世界的执行者,负责把答案变成结果。前者是指挥员,后者是操作员。一台设备修得快不快、稳不稳,取决于这两类角色配合得是否流畅。
把上面四套提示词模板存到手机便签里,把每次维修的对话记录存到一个固定文件夹里,把型号、故障、解决方案建成一张表格。坚持 10 次之后,会发现自己对设备故障的判断速度比刚开始快 5 倍,对 AI 提示词的理解也深入了一个量级。
这才是 AI 现场指导维修的真正门槛——不是模型有多强,而是提示词有多结构化,现场执行有多纪律,资产沉淀有多持续。
夜雨聆风