智能硬件项目最容易失控的地方:软件以为硬件能改,硬件以为软件能兜底

硬件改一次是成本,软件兜一次是债。成本写在报表上,债藏在代码里。
01 一个改结构图就能解决的问题,拖了四个团队三周
先说结局。
一个本来在结构图上改一笔就能解决的问题,最后拖了四个团队、前后搭进去快三周。而它的起因,小到几乎没人愿意为它停下来。
我做了八九年智能硬件,从写嵌入式一路做到研发负责人,这种事见得太多了。那次是一台手持终端,扫码、4G 上报、本地缓存,功能不复杂,结构早早就冻结了。评审会上有人提了一句:扫码键位置偏高,单手握的时候大拇指够不到,得换个握姿。
硬件的反馈很轻:模具都开了,改不动,软件兼容一下——加个引导,教用户怎么拿。
当时没人觉得这是事。一句话而已。
后来这"一句话",先变成 App 的首次引导页,又变成固件里一段防误触的长按逻辑,再变成后台一个"握持模式"的可配置开关(因为不同客户现场的习惯还不一样),最后牵出一条客服话术。一个本属于结构的问题,被拆成四份,分给四个团队。每个团队都觉得自己只是"顺手补一下",没人意识到,四个"顺手"加起来,是三周。
而这三周,只是为了绕开一开始改结构图的那一天。
智能硬件项目里最贵的,从来不是改代码,是每个人都以为别人还能改。
02 你不是只在改代码
纯软件项目里,很多问题是真能靠发版修的。今天上线、明天回滚、后天灰度,错了再来,代价大多是时间。
智能硬件不行。设备一旦出厂,很多东西就"变硬"了:
结构改不了,电池容量改不了,天线位置改不了,Flash 容量改不了,接口数量改不了,客户现场那套乱七八糟的安装环境,更改不了。
这是两类系统的本质差别。纯软件是可变的;智能硬件是一堆不可逆的物理约束,外面裹一层可变的软件。项目好不好做,很大程度上就看这两层之间的边界划得清不清。
更难的是,硬件的命比软件长。一台工业终端、一把智能锁、一个充电桩,可能在现场跑五年八年,全程靠 OTA 续命。我接手过一批三年前出厂的老设备,模组停产了,固件框架是上一任留下的,想加一个新功能,发现连编译环境都凑不齐。那一刻你才明白:硬件比软件更需要长期维护,却比软件更难维护。
代码可以发版,硬件不能每天重生。
03 软件以为硬件能改,硬件以为软件能兜底
冲突的根,是两边对"改动成本"的判断,根本不在一个量级。
软件这边,把硬件想得太灵活。
他们以为硬件大多能改板。"加个传感器""换个模组""多留点 Flash",在他们眼里只是个技术选择。他们看不见背后的 BOM、模具、认证、备货、已经下单的库存——一次改板,可能是几十天的周期,和一笔签字时手会抖的钱。
硬件这边,把软件想得太万能。
他们觉得"做个兼容""加个策略""后台控制一下"都简单,一行配置的事。他们看不见软件这边的异常分支、边界条件、灰度、运维、日志和数据闭环——一个"兼容",可能让测试用例翻倍,让线上排障多绕三道弯。
两边都没说谎,两边都在用自己熟悉的世界,去估对方的工作量。
硬件改一次,是成本;软件兜一次,是债务。
成本会进报表,谁都不敢轻易签。债务不会,它藏在代码里、配置里、"反正能跑"里,利息悄悄滚着,直到某天线上炸了,你才发现欠了多少。
当然,这不是说硬件就该无脑堆料、Flash 越大越好。余量也是成本,留多少是另一门学问。这一节只想说一件事:别拿对方的弹性,当自己偷懒的理由。
04 项目失控的真正起点:每个问题都没有主人
这才是我最想说的一节。
一个智能硬件项目走向失控,几乎都是同一个征兆——问题在团队之间击鼓传花,没人接住。
产品觉得研发能实现,硬件觉得嵌入式能兼容,嵌入式觉得后端能配置,后端觉得 App 能引导,App 觉得运营能教育用户,运营觉得客服能解释,客服觉得客户能理解。
每交出一棒,交的人都松口气:"不归我了。"接的人也没当回事:"先放着,后面再看。"一圈下来,问题还在,主人没了。
我印象最深的一次,一批设备在客户现场频繁离线。拉了个群,相关方全在:
硬件说,电路没问题,上电正常。嵌入式说,本地复现不了,实验室跑一晚上都好好的。模组说,信号有,注网也正常。后端说,接口没报错,连接数对得上。App 说,用户路径没问题。
每个人都说了真话。每个环节单独看,都"正常"。可设备就是在现场用不了——后台显示在线,戳一下没反应。这就是那个最阴的状态:在线,但不可用。
后端以为模组掉了会自己重连,嵌入式以为重连归平台管,平台以为设备失联了自己会上报。三方各让一步,"设备失联后到底谁来发现、谁来恢复"这件事,就正好掉进了所有人责任边界之间的那条缝里。
最后是项目经理一遍遍拉群、对日志、排时间线,用人肉把这条缝填上的。
智能硬件最怕的不是问题多,而是每个问题都没有主人。
问题多,可以排期、可以加人。一个没主人的问题,会一直漂着,直到它变成事故。
05 失控之前,会先亮这 6 个灯
它从不是某天突然崩的。早就给过信号,只是那会儿看起来都挺顺,没人在意。
存一下这张清单,下次评审会对着看:
- 会上很多问题被"后面再看"带过。 没有结论,只有"先记着"。
- 硬件方案没给软件留异常处理的余地。 Flash、RAM、接口卡得死死的,仿佛设备永远不出错。
- 软件方案默认硬件状态永远准、网络永远在。 没有断电恢复,没有弱网重连,没有状态不一致的兜底。
- 日志、埋点、异常码,永远排在最后补。 等到要查线上问题,发现根本没数据。
- 测试只测正常路径,不测现场的脏环境。 实验室全绿,现场全红。
- 延期后只盯排期,不重审边界。 只问"啥时候能好",不问"为啥会发生"。
最反直觉的一点:早期越顺,越要警惕。顺,有时不是因为做得好,是因为还没到还债的日子。
06 怎么管:先把边界摊到桌面上
光吐槽没用。说三个被现场捶出来的动作,按重要性排。
第一,立项就拉一张软硬件边界表。 这是最该做、也最被省略的一步。
把每项关键能力的归属写死:谁采集?谁判断?谁存储?谁上报?谁重试?谁兜底?谁展示?
七个问号,逐项能力问一遍。问完你会发现,最容易出事的,恰恰是那些"我以为是你、你以为是我"的空格。边界表不解决技术问题,它解决的是"这事到底归谁"——而前面所有的失控,根子都在这。
第二,关键约束必须前置,别临到头才发现。
Flash 多大、RAM 多少、日志留多久、OTA 失败怎么办、弱网怎么重连、断电状态怎么恢复、离线期间数据怎么处理、低电量优先保护——这些立项时就该有答案。
我为这事吃过一次真金白银的亏。有个项目前期资源留得紧,都觉得功能简单够用。等到后面要加日志、加异常码、加 OTA 断点保护、加历史版本兼容,发现每个字节都得抠。日志删一点,分包小一点,异常码砍几个……到最后不是功能做不出来,是每改一处都像拆炸弹。
真正要命的是结局:等确认 Flash 实在不够,那批板子已经量产了三千多台。改板加重新认证,报价小二十万,周期一个半月,客户那边的交付直接黄了一个节点。而当初为了省下那点 Flash 删掉的日志,正是线上出事后我们最想要的东西。
那次之后我才信:前期省下的每一分余量,后期都会加倍还。
第三,测试必须照着最烂的现场来,别在实验室验收。
实验室里设备永远有电、网络永远稳、操作永远标准。现场不是——现场有弱网、有断电、有用户重复扫码、有设备半在线、有固件版本对不上,还有一堆没人说得清的历史状态。
所以测试清单里这些不能少:弱网、断电、低电、蓝牙连接失败、重复扫码、状态不同步、服务端超时、OTA 中断、用户误操作。一个智能硬件的质量下限,不在实验室,在最糟的那个客户现场。
至于复盘,我只改了一个问法:不问"谁没做好",问"这个问题,为什么没在边界设计时就暴露出来"。追"谁",只会教会大家甩锅;追"边界",才能让下个项目少踩一个坑。
说到底,技术负责人在智能硬件项目里最重要的活儿,不是催软件快一点,也不是催硬件稳一点。是在最开始,就把边界摊到桌面上:哪些硬件必须解决,哪些软件必须兜住,哪些地方绝不能等上线后再补。
07 成熟的团队,不靠互相兜底
把话收回来。
软件当然要有弹性,硬件当然要有余量,嵌入式当然要想着异常,后端当然要能兜底。这些都对,一个不能少。
但一个项目,不能建在"总有人能兜住"的幻想上。弹性是用来吸收意外的,不是用来填别人偷的懒。一旦"反正后面能改"成了默认共识,弹性就会被一点点吃干净,直到某天,再没人兜得住最后那一下。
智能硬件的本质,是一堆不可逆的约束,和一堆可变的软件之间的博弈。
好团队不是软件强,也不是硬件强,而是一开始就清楚:哪些地方可以变,哪些地方不能赌。
成熟的标志,从来不是出了事谁能补。
是在开始之前,所有人就都知道——哪些地方,绝不能靠补。
夜雨聆风