今天无意中看到浏览器提醒我,有几个密码可能已经泄露了。
这个提示其实已经存在很久了,但因为我重要的密码基本不怎么存在浏览器里,所以一直懒得点开看。今天顺手点进去,结果看见了一个熟悉又陌生的网址。
这不是我刚工作第一年,给老东家高乐氏做的那个 Web App 吗?
我试着用浏览器里存的账号密码登录,结果竟然还能登进去。更离谱的是,这个 App 竟然还能用。

虽然它只是当时用来做演示的雏形,里面也没什么私密数据,但我还是不得不感叹:这老古董竟然还活着,而且毫无网络安全可言。
这说明当年用来部署它的云服务,可能还在老东家内部某个角落里默默跑着。七八年了,没人再碰过它,但它就是还在。
那种感觉很奇妙。像是有一种几百年后的人们从地理挖出来一台Switch,结果还能开机打游戏的惊喜。
我稍微玩了一下这个 App,很多回忆一下子涌了上来。
-------
做这个 App 应该是 2018 年。
那会儿,数据科学家还被誉为“最性感的职业”。伯克利的数据科学专业也刚刚开设,各种职业榜单里,Data Scientist 都属于炙手可热的存在。
结果现在再看,感觉已经土到地里了。
基本算是码农头顶上的草帽儿:上面被太阳暴晒,下面还得帮人吸汗。性感不再,只剩一嘴苦涩。
前两天我打开小红书,还看到一个榜单里,数据科学家竟然仍然高居前五。我心想,哟,咱还有这排面?
结果一看标题——“最容易被 AI 代替的 XX 工作”。
扯远了扯远了。(说实话,我其实也不完全同意这个看法。以后有机会可能单独做个视频聊聊。)
我毕业后的第一份工作,是在高乐氏(Clorox)做数据科学家。
高乐氏是一家卖清洁用品的公司,最出名的产品应该是它家的清洁湿巾。但它其实也有很多子品牌,比如猫砂、唇膏等等,这里就不展开说了。

我记得有一次,大老板开会时随口提到,公司当时有一个痛点:要离消费者更近一点,要更好地倾听消费者的声音。
像高乐氏这样的公司,“客户”和“消费者”其实不是同一群人。
作为制造企业,它的客户更多是沃尔玛、亚马逊这样的超市和电商平台。所以公司天然和最终使用产品的消费者之间,隔了一层。
当时高乐氏的数据科学团队也刚起步。算上我和我老板,一共就俩人。然后我老板还休产假去了,于是我这个刚毕业的小朋友,就直接开始和 +1 大老板对接工作。
大老板那句话可能真的只是随口一说,甚至都不是给我布置任务。但当时充满干劲的我,立刻觉得:这个项目很有意思。
刚毕业那会儿,我对机器学习里的自然语言处理特别感兴趣(简而言之就是用机器学习人的语言,比如机器翻译,总结之类的),同时也很喜欢自己研究做 App。
我以前甚至还在 B 站发过一个视频,介绍我给自己做的时间管理 App。只是那个视频的台词现在回头看微微炸裂,就不拿出来贻笑大方了。
总之,在那个大家平均十点半上班、三点半下班、周五还只上半天班的公司里,我开始各种加班加点,晚上八九点才回家。
我先研究了一套自然语言处理的“算法”,用来快速总结几百上千条产品评价里的“主题”。
说白了,其实就是把句子拆成 token,也就是一个个词,然后看哪些词出现得比较频繁。
当然,我当时也加了一些简单的“奇技淫巧”。
比如在统计高频词之前,先把句子里的名词和形容词标记出来,然后重点提取高频名词,以及和这个名词相关的形容词。
这样搞出来的“主题”,比单纯看高频词可读性更好一点,信息量也更大一点。
我后来还在 Medium 上发过一篇帖子介绍这个方法。有兴趣的朋友可以找我要链接去读读。如果你用 Python,甚至还可以 pip install 一下,哈哈哈。

核心算法有了,接下来就是数据从哪来。
当时公司没有现成的相关数据,公司里也没有什么程序员可以帮我,于是我就自己写了个爬虫脚本,把高乐氏在亚马逊上所有产品的用户评价定时扒下来。
亚马逊当然有反爬机制,一旦发现是机器在爬数据,就会封掉这个 IP。但我研究了一下,发现当时有个很简单的办法可以绕过:让程序时不时暂停一段随机时长,看起来更像“人”在浏览。
最后,用户界面也是纯靠自学。
一开始我用 RStudio 和 Shiny 写了一个版本,但发现 R 实在太慢了。于是又自学用 Python 做 Web App,学 HTML,反复打磨了好几个版本。
后来我还拉上了当时和我一起进公司的实习生朋友,一起研究怎么搞用户注册和密码,怎么把 UI 做得稍微好看一点。
最后,这个东西才慢慢变成了一个能演示、能登录、能点来点去的 App。
拿给老板看以后,它居然成了接下来几年我们部门的主要项目之一。
当时还有一个从亚马逊跳槽过来的数据科学家老哥,看到了这个项目以后,也自己研究出了一套他的“主题总结”算法。
他的做法和我略有不同,但反正我个人感觉效果并没有更好。
真正让我惊讶的是,这位老哥竟然说,要以公司的名义,帮他“发明”的这个算法申请专利,还撺掇我们当时的老板去找律师。
他告诉我,他以前在亚马逊就申请过专利。
但我一直很怀疑。
因为无论是我的版本,还是他的版本,这个算法都实在太简单了,而且也没有什么特别明确的落地场景。
那种感觉就像是,我给筷子发明了一个套子,套在筷子头上然后拿去申请专利,十分扯淡。
但最最扯淡的是,几年后我已经离开公司,有一天看到他的领英,发现这个专利最后竟然真的被批准了。
这是我第一次真切体会到,世界这个巨大的草台班子,到底能有多草台。
也就是从那以后,我对任何“专利”都彻底祛魅了。
------
还有一件事也挺值得一提。
当时的我虽然工作上基本不用加班,但周末经常会回伯克利的图书馆学习,学一些数据科学相关的、有的没的。
大概在 2020 年左右,我下载了 GPT-2。算是后来开启了AI时代的GPT3.5的爷爷?
这个模型很小,我当时可以直接下载到电脑本地跑。
当然,性能也是真的差。
如果说现在的 AI 偶尔会幻想,那 GPT-2 基本大部分时间都在胡思乱想。而且它还经常出 bug,比如不断重复同一个词,像网卡了一样。
但我当时觉得这个功能挺酷,于是就往那个 App 里加了一个“产品评价生成”的 Beta 功能。
大概意思是:输入一个产品的官方介绍,它就能自动生成一些“客户评价”。
虽然做演示的时候,我只是把这个功能当成调节气氛的小彩蛋介绍了一下,还特意挑了一个“胡思乱想”概率比较低的 prompt。
但有一位黑人大哥对这个功能非常感兴趣。
他最后甚至还让我专门给其他部门的同事演示一遍这个功能
直到我离开高乐氏以后,这位老哥还在 LinkedIn 上和我 catch up 了一下这个功能的最新进展,并且客气的说我是个“人才”。

我心中美滋滋,但是其实不太get他被震撼到的点在哪里。现在回头想想,这位老哥当年能被 GPT-2 震撼成这样,不知道后来看到 ChatGPT 的时候,会是什么反应?
有点讽刺的是,ChatGPT 的出现,并没有“增强”这个 App,反而直接让它变得毫无价值了。很多当年 NLP 的研究方向,在生成式 AI 崛起以后,好像都变成了我的“主题总结”算法一样的东西。
也包括那位亚马逊大哥的“专利”。
曾经看起来还挺有意思,甚至还值得被包装成项目、写进汇报、申请专利的东西,几年之后,突然就成了没什么用的古董。
不那么恰当地引用《三体》里的一句话:
“毁灭你,与你何干?”
夜雨聆风