7年前做的App,竟然还活着!

今天无意中看到浏览器提醒我，有几个密码可能已经泄露了。

这个提示其实已经存在很久了，但因为我重要的密码基本不怎么存在浏览器里，所以一直懒得点开看。今天顺手点进去，结果看见了一个熟悉又陌生的网址。

这不是我刚工作第一年，给老东家高乐氏做的那个 Web App 吗？

我试着用浏览器里存的账号密码登录，结果竟然还能登进去。更离谱的是，这个 App 竟然还能用。

虽然它只是当时用来做演示的雏形，里面也没什么私密数据，但我还是不得不感叹：这老古董竟然还活着，而且毫无网络安全可言。

这说明当年用来部署它的云服务，可能还在老东家内部某个角落里默默跑着。七八年了，没人再碰过它，但它就是还在。

那种感觉很奇妙。像是有一种几百年后的人们从地理挖出来一台Switch，结果还能开机打游戏的惊喜。

我稍微玩了一下这个 App，很多回忆一下子涌了上来。

-------

做这个 App 应该是 2018 年。

那会儿，数据科学家还被誉为“最性感的职业”。伯克利的数据科学专业也刚刚开设，各种职业榜单里，Data Scientist 都属于炙手可热的存在。

结果现在再看，感觉已经土到地里了。

基本算是码农头顶上的草帽儿：上面被太阳暴晒，下面还得帮人吸汗。性感不再，只剩一嘴苦涩。

前两天我打开小红书，还看到一个榜单里，数据科学家竟然仍然高居前五。我心想，哟，咱还有这排面？

结果一看标题——“最容易被 AI 代替的 XX 工作”。

扯远了扯远了。(说实话，我其实也不完全同意这个看法。以后有机会可能单独做个视频聊聊。)

我毕业后的第一份工作，是在高乐氏(Clorox)做数据科学家。

高乐氏是一家卖清洁用品的公司，最出名的产品应该是它家的清洁湿巾。但它其实也有很多子品牌，比如猫砂、唇膏等等，这里就不展开说了。

我记得有一次，大老板开会时随口提到，公司当时有一个痛点：要离消费者更近一点，要更好地倾听消费者的声音。

像高乐氏这样的公司，“客户”和“消费者”其实不是同一群人。

作为制造企业，它的客户更多是沃尔玛、亚马逊这样的超市和电商平台。所以公司天然和最终使用产品的消费者之间，隔了一层。

当时高乐氏的数据科学团队也刚起步。算上我和我老板，一共就俩人。然后我老板还休产假去了，于是我这个刚毕业的小朋友，就直接开始和 +1 大老板对接工作。

大老板那句话可能真的只是随口一说，甚至都不是给我布置任务。但当时充满干劲的我，立刻觉得：这个项目很有意思。

刚毕业那会儿，我对机器学习里的自然语言处理特别感兴趣（简而言之就是用机器学习人的语言，比如机器翻译，总结之类的），同时也很喜欢自己研究做 App。

我以前甚至还在 B 站发过一个视频，介绍我给自己做的时间管理 App。只是那个视频的台词现在回头看微微炸裂，就不拿出来贻笑大方了。

总之，在那个大家平均十点半上班、三点半下班、周五还只上半天班的公司里，我开始各种加班加点，晚上八九点才回家。

我先研究了一套自然语言处理的“算法”，用来快速总结几百上千条产品评价里的“主题”。

说白了，其实就是把句子拆成 token，也就是一个个词，然后看哪些词出现得比较频繁。

当然，我当时也加了一些简单的“奇技淫巧”。

比如在统计高频词之前，先把句子里的名词和形容词标记出来，然后重点提取高频名词，以及和这个名词相关的形容词。

这样搞出来的“主题”，比单纯看高频词可读性更好一点，信息量也更大一点。

我后来还在 Medium 上发过一篇帖子介绍这个方法。有兴趣的朋友可以找我要链接去读读。如果你用 Python，甚至还可以 pip install 一下，哈哈哈。

核心算法有了，接下来就是数据从哪来。

当时公司没有现成的相关数据，公司里也没有什么程序员可以帮我，于是我就自己写了个爬虫脚本，把高乐氏在亚马逊上所有产品的用户评价定时扒下来。

亚马逊当然有反爬机制，一旦发现是机器在爬数据，就会封掉这个 IP。但我研究了一下，发现当时有个很简单的办法可以绕过：让程序时不时暂停一段随机时长，看起来更像“人”在浏览。

最后，用户界面也是纯靠自学。

一开始我用 RStudio 和 Shiny 写了一个版本，但发现 R 实在太慢了。于是又自学用 Python 做 Web App，学 HTML，反复打磨了好几个版本。

后来我还拉上了当时和我一起进公司的实习生朋友，一起研究怎么搞用户注册和密码，怎么把 UI 做得稍微好看一点。

最后，这个东西才慢慢变成了一个能演示、能登录、能点来点去的 App。

拿给老板看以后，它居然成了接下来几年我们部门的主要项目之一。

当时还有一个从亚马逊跳槽过来的数据科学家老哥，看到了这个项目以后，也自己研究出了一套他的“主题总结”算法。

他的做法和我略有不同，但反正我个人感觉效果并没有更好。

真正让我惊讶的是，这位老哥竟然说，要以公司的名义，帮他“发明”的这个算法申请专利，还撺掇我们当时的老板去找律师。

他告诉我，他以前在亚马逊就申请过专利。

但我一直很怀疑。

因为无论是我的版本，还是他的版本，这个算法都实在太简单了，而且也没有什么特别明确的落地场景。

那种感觉就像是，我给筷子发明了一个套子，套在筷子头上然后拿去申请专利，十分扯淡。

但最最扯淡的是，几年后我已经离开公司，有一天看到他的领英，发现这个专利最后竟然真的被批准了。

这是我第一次真切体会到，世界这个巨大的草台班子，到底能有多草台。

也就是从那以后，我对任何“专利”都彻底祛魅了。

------

还有一件事也挺值得一提。

当时的我虽然工作上基本不用加班，但周末经常会回伯克利的图书馆学习，学一些数据科学相关的、有的没的。

大概在 2020 年左右，我下载了 GPT-2。算是后来开启了AI时代的GPT3.5的爷爷？

这个模型很小，我当时可以直接下载到电脑本地跑。

当然，性能也是真的差。

如果说现在的 AI 偶尔会幻想，那 GPT-2 基本大部分时间都在胡思乱想。而且它还经常出 bug，比如不断重复同一个词，像网卡了一样。

但我当时觉得这个功能挺酷，于是就往那个 App 里加了一个“产品评价生成”的 Beta 功能。

大概意思是：输入一个产品的官方介绍，它就能自动生成一些“客户评价”。

虽然做演示的时候，我只是把这个功能当成调节气氛的小彩蛋介绍了一下，还特意挑了一个“胡思乱想”概率比较低的 prompt。

但有一位黑人大哥对这个功能非常感兴趣。

他最后甚至还让我专门给其他部门的同事演示一遍这个功能

直到我离开高乐氏以后，这位老哥还在 LinkedIn 上和我 catch up 了一下这个功能的最新进展，并且客气的说我是个“人才”。

我心中美滋滋，但是其实不太get他被震撼到的点在哪里。现在回头想想，这位老哥当年能被 GPT-2 震撼成这样，不知道后来看到 ChatGPT 的时候，会是什么反应？

有点讽刺的是，ChatGPT 的出现，并没有“增强”这个 App，反而直接让它变得毫无价值了。很多当年 NLP 的研究方向，在生成式 AI 崛起以后，好像都变成了我的“主题总结”算法一样的东西。

也包括那位亚马逊大哥的“专利”。

曾经看起来还挺有意思，甚至还值得被包装成项目、写进汇报、申请专利的东西，几年之后，突然就成了没什么用的古董。

不那么恰当地引用《三体》里的一句话：

“毁灭你，与你何干？”