乐于分享
好东西不私藏

OpenClaw手记第二季(五)被遗忘两年的Copilot,如何把我带进代理式编程

OpenClaw手记第二季(五)被遗忘两年的Copilot,如何把我带进代理式编程

我其实早在 2024 年就买了 Copilot Pro。那会儿 AI 编程助手刚起势,“美式城墙”还没筑牢,我几乎没费什么劲就付了 100 刀年费。可惜当时的我,对“氛围式编程”、“代理式编程”几乎没有概念,简单试了几次代码补全就把它抛在脑后,连自己有会员这件事都忘了。

今年年初,借着“龙虾造势”的热度,我打算正式摸一摸“暗黑三魔”。结果处处碰壁,心态一路下滑。绝望之际我又打开了 VS Code:我靠,这 Copilot 怎么像开了挂,GPT、Gemini、Opus 居然都能用。再顺藤摸瓜一看:我居然一直是 Pro。白白吃了两年会员灰。

坏消息是浪费了时间和额度;好消息是我几乎无障碍地把这些“稀罕物”重新捡了起来。寒暄、试探几轮后,我很快碰到一个现实问题:总得干点实事。做什么?正好,我手里有个拖了很久的“烂尾需求”。

一个听起来简单、做起来要命的需求

我每周基本踢一次足球,有时会带运动相机录完整场视频。如果不忙,我会把进球片段截出来发群里。

这事听着容易,做起来极其耗命。整段录像通常两小时左右。要把进球都截出来,我得几乎完整看一遍:找到事件时刻、反复拖拽确定每段起止、再进剪辑软件逐段导出。经常四小时都搞不完。

我不擅长剪辑软件,所以长期采用“土法”:

  • 看视频,记时间戳 

  • 把每段起止写进文本 

  • 用 ffmpeg命令批量截取和压缩

笨,但可控。可是我懒啊。

我把事情想得太美好

我当时对 Copilot 说得非常豪迈:“我要写一个软件,从足球录像中提取进球片段,开始吧!”

在“龙虾编程一统江湖”的叙事惯性里,我觉得这个需求应该秒解。Copilot 也确实很快:几套方案摆上来,我挑一套,它立刻开工。侧边栏里新文件狂闪,对话框里进度记录不停滚动,视觉冲击力拉满。没多久它就说:程序完成了,给个样本试试。

我马上丢了一段 10 分钟录像,像苍蝇一样搓着双手,兴奋等结果。然后,当头一棒:它不知道我要什么,我也看不懂它在干嘛。

复盘下来,失败主要有三点:

  1. 场地和机位都不标准,我的“野场视角”与它理解的“标准球场”差太远;它对“进球事件”本身也没有稳定定义。

  2. 背景杂乱。即使我提示“先识别球门”,它也会盯上背景里更显眼的柱子,而不是真球门。

  3. 足球追踪太难。球速度快、频繁被遮挡、画面里人也一直在动,算法很容易躺平。

插图:非标准场地,不规则视角,杂乱背景;黄色文字为球门四角的标注

真正的转折:不是更聪明,而是更务实

翻车之后,我终于意识到:“用 AI 写代码”和“让代码拥有 AI 能力”,是两件完全不同的事。

氛围式也好、代理式也好,它们最擅长的是按你的要求快速产出“能运行”的程序,把语法错误和低级报错压到最少。但“能跑”不等于“好用”,更不等于“有效”。真正的效果——尤其是涉及识别、判断、鲁棒性这些稍带智能属性的部分——最终还是要由人定义边界、设计验证、反复校正。

于是我把问题拆成三件可执行的事:

1)让程序先知道“足球”是什么

Copilot 说要几百个标注样本。这听着吓人,做起来却没那么难:录像素材我本来就很多。它先抽帧,再写了一个快速标注脚本;我只负责把每张图里的足球点出来。这个我一直回避的活,十几分钟就完成了。后面的 YOLOv8 训练属于标准流程,程序总算学会“找球”。

2)让程序知道球门在哪

这一步反而更简单。同一段录像里机位基本固定,球门位置几乎不变。每次运行前只截一张图,我手工标记球门四个顶点即可。标注顺序固定后,程序还能推导球门线、底线信息。

3)重写“关键时刻”的定义

我最初定义是:检测到运动中的足球穿过球门线或底线。理论很严谨,实战很糟糕——球太快、二维投影有误差、再叠加遮挡,漏检和误判都高。

最后我放宽标准:在图像平面上定义一个覆盖球门的矩形区域,只要持续运动中的足球进入该区域,就记“关键时刻”;相邻关键时刻合并成“关键事件”;前后各扩一段时间,形成最终切片。

一句话:不是更聪明,而是更务实。

结果:不完美,但非常有用

程序稳定后,数据很诚实:

  • 进球几乎不漏,TP/(TP+FN)在 95% 以上 

  • 上下半场双线程处理,约 40 分钟跑完 

  • 输出时长约为原视频的 1/3,符合经验 

  • 人工只需开跑前标一次球门,再花 20~30 分钟过片挑真进球

以前是 4 小时手工折腾。现在是 1.5 小时以内闭环,其中我真正参与不到 30 分钟。

它没有把我从流程里完全移除,但把我从最机械、最耗时、最容易走神的环节里解放了出来。

临门一脚:小项目带来的重新定位

虽然它还不是成熟软件,我还是把它打包成了一个 Mac 应用,加了图形化界面,使用体验一下顺了很多。
成本也比我想象中低:
  • 人力:两周业余时间
  • 花销:Copilot 当月额度约 40%,折合不超过 4 美元(约 30 元)
也就是这个项目,让我对这些智能工具有了全新定位:
它们绝不只是聊天小能手,它们真的能做很多事;
它们不一定能直接解决工作上的麻烦,但一定能让我们的生活变得更美好。