我用AI大神的Auto Research框架迭代了1000次我的APP,把提示词从30分提到了90分
普通人到底怎么才能用上国外顶级 AI 研究员的最新思想,来打造自己的产品?
视频版本:
大家好,我是麒桦。
最近我一直在死磕「伟大的我」APP 的 Mac 版。因为这次真的是把它当成艺术品在打磨,所以进度稍微慢了点,但很快就能和大家见面了。
在 Mac 版里,我设计了一个很酷的 Dashboard,有点像特工电影里的那种感觉。里面有一个我非常喜欢的核心功能,叫「战术地图」。

战术地图到底是什么?
「伟大的我」是一个帮助用户设立人生目标、每天打卡、每周复盘,并且不断迭代自己的个人成长 APP。
战术地图做的事情很简单:它会从你每天的打卡、复盘、和 AI 的聊天记录里,自动提炼出你正在推进的事件、项目、产品和任务,然后把它们变成一张行动脉络图。
也就是说,你可以一眼看清:
-
你最近真正推进的主线是什么; -
哪些事情之间互相影响; -
一个项目在时间线上是怎么发展的; -
哪些节点算里程碑,哪些只是临时状态。
如果这个功能做好了,它就不是一个普通的记录页,而是一个真正能帮助你理解自己行动路径的系统。
但刚开始,它的效果我很不满意。
最大的问题:提取出来的东西又碎又散
一开始的战术地图,经常会把一些很临时、很局部的东西,当成独立事件。
比如日期、版本号、一次性的进度状态,甚至「完成 5 项」这种临时描述,都可能被它提取成一个泡泡。结果就是地图上全是东西,但你反而看不出真正的主线在哪里。
更麻烦的是,一二级事件之间的关系也不稳定。有时候一个大事件下面塞了一堆不该属于它的东西;有时候明明是同一条主线,又被拆成很多碎片。
以前我们优化这种问题,基本就是看到哪里不对,就去改提示词。结果经常变成「拆东墙补西墙」:修好了一个 bug,另一个逻辑又崩了。
这也是我一直对这个功能不够满意的原因。它有潜力,但还不够稳定。

Auto Research 给了我一个新思路
前段时间,Andrej Karpathy 提到一个很有意思的概念:Auto Research。
它的核心不是让 AI 一口气把所有东西都改完,而是把任务切得很小,建立一个稳定的评分机制,每次只改一点点,然后不断测试、评分、保留有效变化、淘汰无效变化。
这个思路我非常喜欢。
一开始我尝试把它用在文章优化上,但后来发现文章这类东西很难量化。什么叫更好?更有感染力?更有结构?这些当然可以判断,但很难稳定打分。
后来我突然意识到:AI 产品里的提示词和规则,反而是一个特别适合 Auto Research 的场景。
因为它既有很容易量化的部分,比如 JSON 格式是否稳定、输出是否合规、耗时是否可控;也有适合让大模型判断的部分,比如一级事件和二级事件之间的关系是否合理,事件命名是否清晰,主线是否突出。

我准备了两类数据
这次实验,我用了 DeepSeek V4 Flash 和 Doubao Seed 2.0 Lite 260428 作为主要提炼模型。
同时,我准备了两类数据。
第一类是真实数据。来自我自己的「伟大的我」备份 ZIP,一共有 28,599 条记录,23 个附件,50 条事件本体,298 条事件更新。这里面有 active 事件,也有 archived 事件。
第二类是合成数据。因为我自己的使用数据会比较偏独立开发者,所以我让 GPT 生成了 20 条不同职业的合成样本,再加上 6 条固定边界样本,覆盖碎片化、主线/支线、多工作线、手动标题保护、删除/静音不复活等情况。
最终,我们一共得到 845 行测试记录,其中 744 次是真实模型评分。合成样本和真实 ZIP 样本大约各占一半。

这个实验不是随便跑几次看感觉,而是把模型放到固定考卷里反复测。
评分规则:不是看文笔,而是看是否听话
这次我给战术地图设定了几条非常明确的规则。
第一,一级事件必须是主线,不是任何出现过的名词都能成为一级事件。
第二,二级事件必须服务于一级事件,不能随便挂靠。
第三,日期、版本号、数量、一次性状态,不能被当成事件标题。
第四,用户手动修改过的标题要被保护,删除或静音过的事件不能被 AI 随便复活。
第五,同一套规则要同时适配 DeepSeek 和 Doubao,不能只对某一个模型有效。
这个部分很关键。因为真正稳定的提示词,不是写得漂亮,而是可测试、可复现、可比较。


迭代过程:每次只解决一个问题
整个过程大概经历了 10 个版本。
V1 到 V2,重点解决的是格式稳定性和整体表达。让模型先别乱输出,先把基本结构站稳。
V3 到 V4,开始处理事件颗粒度。哪些东西能成为事件,哪些只是过程描述,必须区分清楚。
V5 到 V6,重点处理边界问题。比如日期、版本号、临时完成状态、泛化的大标题,不能被提取成主线。
V7 之后,真正困难的问题出现了:二级事件归属。
一级事件其实相对好做。模型只要知道哪些东西是主线,分数就能很快上来。但二级事件很难,因为它需要判断一个小事件到底属于哪个父级,还是应该独立成一个平级分支。
这里如果规则不够清楚,模型就很容易把所有东西塞进一个大框里。

最大的坑:归属感
这次实验里,我觉得最大的坑不是命名,也不是格式,而是「归属感」。
比如一个人同时在做 APP 开发、内容运营、视频脚本和用户反馈。它们当然都和这个人有关,但不代表它们都应该被塞进同一个一级事件下面。
最糟糕的情况,是 AI 生成一个听起来很正确的大标题,比如「伟大的我 APP 整体运营」,然后把所有东西都装进去。
这看起来很完整,但实际上把结构毁掉了。因为所有东西都属于一个大框,就等于你什么关系都没有讲清楚。
所以后来我加了一个更硬的边界规则:先判断同级,再判断父子;先看是否是独立工作流,再看是否需要挂靠。不能因为两个事情都和同一个产品有关,就强行放进同一个父级。
这个调整之后,二级归属的分数从 52.7 提升到了 97.8。

最终结果:从 30 分到 90 分
最后的结果很明显。
DeepSeek V4 Flash 从 36.4 分提升到了 90.7 分。
Doubao Seed 2.0 Lite 260428 从 54.0 分提升到了 96.8 分。
这不是某一次偶然跑出来的好结果,而是在固定样本、固定评分、反复测试之后得到的提升。
更重要的是,最后的提示词不是只对一个模型有效。DeepSeek 更适合做大结构重排,Doubao 更适合做日常刷新和稳定提炼。它们可以分别扮演不同角色。

这件事给我的真正启发
这次实验之后,我对提示词的理解有了一个变化。
提示词不是魔法咒语。
真正重要的不是某一句话写得多漂亮,而是它背后有没有一套稳定的框架:数据怎么准备,规则怎么拆,测试怎么跑,分数怎么打,什么时候保留,什么时候回滚。
所以我现在更愿意把它理解成一个系统工程。
提示词是入口,框架才是核心。

回到「伟大的我」
这件事最后还是要回到产品本身。
我希望「伟大的我」不是一个普通的打卡软件,也不是一个只会陪你聊天的 AI 工具。
它更像一个帮你完成人生任务的系统。
你写下目标,每天回顾自己的胜利和阻碍,每周复盘校准下一步。AI 在背后持续帮你整理行动轨迹、提炼关键事件、识别主线和支线,最后把你的人生推进过程变成一张越来越清晰的地图。
这也是我做 Mac 版 Dashboard 和战术地图的原因。
当一个人能清楚看到自己正在推进什么,过去几周发生了什么,哪些事情在互相影响,下一步应该往哪里走,他就不只是「记录了生活」,而是真的开始拥有一种掌控感。
这次用 Auto Research 优化战术地图,对我来说不只是一次提示词实验。
它让我更确定一件事:普通人当然可以用上顶级 AI 研究员的新思想。关键不是把概念停留在朋友圈里,而是把它放进自己的真实产品、真实问题、真实数据里,然后让它一轮一轮变好。
这就是我这次最想分享的东西。

夜雨聆风