乐于分享
好东西不私藏

AI Native工程师的一天

AI Native工程师的一天

10:30

早上 10:25,我把包往工位上一扔,屁股还没坐热,飞书就弹了一条消息。

不是同事,不是老板,是我的AI助手小龙虾(OpenClaw )。

早上好,老板,现在10:30了,是时候制定一下今天的计划了。

昨天没有完成的任务有两条:

  1. 1. 问题分析 Agent XXX功能开发2.客户反馈XXX问题分析

昨天在4个群里有3条艾特你的消息,你还没有回复,列表如下:……

今天的会议安排如下:11:00 – 12:00 XXX客户需求澄清会 线上会议15:00 – 15:30 [外部]客户功能例会

我还没开始想今天干什么,它已经把昨天的烂摊子、没回的消息、今天该做的事整理好了。我只需要扫一眼,确认优先级,告诉它今天的计划。它就自动在飞书里创建好今天的 Story 和任务卡片。接下来他会每隔六个小时左右问我一下今天这些任务的进展。

以前到公司第一件事是什么?打开飞书,翻消息,翻日历,回忆昨天谁的消息忘记回了。光这个过程就要 15 到 20 分钟,而且总会漏掉点什么。现在这个环节被压缩到了 2 分钟,而且不会漏。

11:00

上午有一个客户新提的需求对齐会。是客户根据新的隐私授权法规要求提的需求变更。说实话,开会这件事本身 AI 帮不了太多——该讨论的还是得讨论,该拍板的还是得拍板,毕竟AI是不能替人背锅的。

但有一个变化是实实在在的。

开发和产品经理又吵起来了,关于这个这个功能的通信协议—— “这个信号客户说没有使用呀?”,“怎么可能,代码里明明用了?”。 ”为啥会用了,有这个需求么?我咋不记得“ 我没说话,让小龙虾搜了一下项目需求的知识库,30秒找到了需求原文,把结论发在群里,两个人都不吵了。

飞书会议结束后自动生成纪要,小龙虾定时把纪要内容提取到我的个人知识库里。把飞书整理好的会议纪要,待办项都整理在知识库和我的TODO列表中。并且把会议纪要的链接也存了下来,下次分锅的时候,随时都能翻出来。

14:00

下午两点,重头戏来了。

客户那边反馈了大约 100来个问题。我看到消息的时候深吸了一口气——一堆危险变道,领航走错路,红绿灯不起步,领航降级,异常故障退出的问题。现场工程师刚把数据传回来,视频、日志、快照数据,几十个 G 的东西堆在服务器上。

100个。每次看到这种数字,我都会想起半年前自己一个个手动翻日志的日子。

现在,可以交给AI批量完成:

第一步,我把数据丢给小龙虾做预处理。它做的事情很具体:把每个问题和对应的视频数据路径匹配起来,生成一份结构化的报告文档。10 分钟,100 个问题全部整理完毕。

这个活儿以前是助理做的,一个人干一上午。现在 AI 10 分钟搞定。

第二步,把整理好的问题单输入问题分析 Agent。这是我们团队专门做的一个智驾问题分析工具,背后接了一个庞大的智驾领域知识库——各种故障模式、根因链路、修复方案,都在里面。

Agent 的输出很结构化:根因分析、分析步骤链、每一步的推导依据、处理建议、关键日志打印和截图。如果一切顺利,一个问题从输入到输出分析报告,大概 3 到 5 分钟。100 个问题,50个AI已经可以能够自动分析了。批量输入,10分钟就出结果了。

以前呢?一个有经验的工程师,一个问题少说分析半小时。100 个问题,一个人全职干,差不多要三天。

但现阶段AI自动分析问题的质量还不能做到不需要人的监管,还是要检查一下。这里AI是干活的,人是把关的。

我逐个检查 Agent 的分析结果,发现有几个问题明显过度分析了。最典型的是一个高速领航异常降级的 case:AI 翻了一大堆看上去相关但实际无关的日志,从里面拼凑出一个听起来很有道理的结论,然后给出了一个错误的修复建议。

乍一看觉得没问题,每一步推导都有日志引用,逻辑看起来环环相扣,结论听着也合理。但我知道,它引用的那几条日志和这个问题根本没关系。

这就是 AI 幻觉。它不会告诉你”我不确定”,它会非常自信地给你一个精心编造的答案。如果你不懂这个领域,你可能真的会信。

这种问题就需要你和AI重新对话,引导它从正确的方向看日志,不要过度分析。这一批问题看完后,发现一个bug, 反馈给模块代表。确认一下修复排期。

所以我做了两件事:一是把分析不到位的问题重新和 Agent 对话,引导它从正确的方向去看日志,最终找到真正的根因;二是把确认过的分析结果整理好,反馈给开发团队,确定修复排期。

16:00

两个小时后,开发给了新软件。

我把软件刷写到测试车上,开出去跑了一个小时,这次全部正常通过。变道场景也复测了,没有复现。

这一个小时里,AI 帮不了任何忙。

我把车窗摇下来,四月底傍晚的风有点热。车在路口等红灯的时候,我看着前方的信号灯从红变绿,车平稳地起步加速。对于智能驾驶的性能而言,是一个很偏主观体验的东西,你没法让 AI 替你去感受刹车踩下去的那一脚是不是够舒适。与物理世界的交互,是 AI 当前做不了的事。也正因为如此,这一个小时是我今天最不可替代的一个小时。

20:00

晚饭后,公司安静下来了。今天吃的牛肉面不错,心情也不错。

20:00 对我来说,这是一天里创造力最旺盛的时段。我打开 Claude Code,准备修下午发现的那个问题——问题分析 Agent 的幻觉问题。

先用 Superpowers 和 AI 做了一轮头脑风暴,把反幻觉的思路理清楚。核心方案是三层防护:技能库限制(源头不查不猜)、输出依据要求(每个结论必须列出推导依据)、验证机制(用 Harness 框架让另一个模型审查输出)。

从头脑风暴到写代码到 Harness 验证通过,15 分钟。

我靠在椅背上,有点爽——下午让我心里犯嘀咕的幻觉问题,晚上十五分钟就堵上了。Claude code + OPUS 让我感觉我就是写代码的神。

22:30

快 10 点半了。

给小龙虾发了一段语音,今天干了什么。它自动总结、格式化、填好日报页面,发到飞书。

关电脑,回家。

AI Native

想想大半年前,我还是一个在驻场冲刺车型量产交付的智驾工程师,天天泡在客户现场。每天上午和客户开问题的对齐会,确认今天的修复内容。下午和内部的各个模块代表开会讨论软件问题,确认修复方案。集成出包后开始上车测试。这样的日子,我们连续干了三个月。每天早上八点出门,晚上2点回到酒店。EMO了就去酒店附近的公园里放空一下自己。当时项目上的FO,PL,还有我三个人有一个小群,叫做质子三人组

在那段时期,有一种痛苦叫做:每天都是看不完的问题,测不完的包。当时就在想,如果能够把每天做的这些找日志,看数据,分析问题,总结问题报告。这些繁琐的事情让AI来帮我们完成就好了。当时我们讨论过这个问题,也尝试自己开发过几个小工具。但是效果一般。

但是,半年后,它变成了现实。在AI工具的加持下,自己已经变成了一个AI Native的工程师,每天熟练的将各种AI工具融入到自己的工作中。从底层以 AI 为基础来设计自己的工作方式、流程和系统。

回头看今天这一整天,AI 大概帮我省了 4 到 5 个小时。

但我想说的不是省了多少时间。

人从执行者变成了决策者和审核者。那些省下来的 4 到 5 个小时,我用来做了真正需要人脑的事情:判断 AI 的分析对不对,在真实道路上验证软件表现,设计反幻觉的技术方案。

对了,说到成本。

这个月 token 烧了 1000 美元,已经耗光了,还有 6 天才到月底。

难受。


如果你也想搭自己的小龙虾,或者想聊聊 AI Native 的实战坑,欢迎来群里找我。

AI Native交流群

注:本文根据笔者本人100%真实的工作经历编写。

上一期: RAG 知识库问答机器人