说实话,我昨天差点把键盘砸了。
事情是这样的,我手头有个项目,需要处理大概2000多条客户数据。这些数据是从不同系统导出来的,格式乱七八糟,有的名字在前,有的地址在前,有的手机号带着横杠,有的干脆没有区号。领导丢给我一句“整理一下,今天下班前给我”。
我看了眼时间,下午两点。看了眼数据,2000多条。看了眼自己,想哭。
本来想硬着头皮干,复制粘贴、分列、vlookup、if嵌套……这些操作我熟。但想象一下,2000条数据,每条都要手动判断字段位置、补全缺失信息、统一格式,眼睛不瞎手也得抽筋。我试了十分钟,搞了30条,人已经快没了。
这时候我想起之前测试过的那个AI脚本助手,叫啥来着……哦对,是Claude的代码解释器。之前一直觉得这东西就是写写hello world的水平,没当回事。今天实在没办法了,死马当活马医吧。
我把样本数据贴了10条进去,跟它说:帮我把这些数据整理成统一的格式,姓名、手机号、地址三列,手机号统一为11位,前面加86,地址里的省市区单独提取出来。
你猜怎么着?它直接给我生成了一个Python脚本。用的是pandas库,版本是2.0.3。我复制下来,在自己电脑上跑了一下,第一遍报了个错,说缺少一个叫openpyxl的库。我装了一下,再跑,成功了。2000条数据,大概3秒钟处理完。
我当时的心情,怎么说呢,就像你蹲了半天坑终于拉出来了一样爽。
不过爽归爽,问题来了。脚本处理的中间有一批数据地址格式特别奇怪,是那种“某某路某某号某某小区某某栋某某室”挤在一起不带标点的。AI提取省市区的时候,把“某某路”当成了区名。我一看不对,又回去改提示词,加了一句“地址提取时,注意区分道路名称和行政区划名称,如果无法确认,优先保留原始地址字段”。再跑一遍,这回对了。
后来我又让它帮我加了个功能:把处理完的数据自动生成一个统计报告,告诉我哪些字段缺失最多,哪些手机号格式有问题。它写了个大概30行的脚本,生成了一份HTML报告,图表都有。我把报告发给领导,领导回了句“效率不错”。
我心想,效率是不错,但不是我效率不错,是AI效率不错。我就是个中间商,赚了个提示词的差价。
说真的,以前我对AI处理结构化数据这件事有点半信半疑。总觉得它写代码会出bug,逻辑会跑偏,遇到边界情况就崩。但这次下来,我发现核心问题不是AI能不能干,而是你会不会跟它沟通。你只要把需求说清楚,给它样本,告诉它你想要什么格式、遇到什么情况怎么处理,它基本能给你一个八九不离十的脚本。剩下的就是测试、调参、再测试。
而且有个细节特别有意思。我后来试着用同样的问题去问ChatGPT GPT-4,它给的脚本也跑通了,但代码风格不太一样。Claude写的代码注释特别多,几乎每行都有说明,像是在教小学生。GPT写的注释少,但逻辑更紧凑,变量命名也更随意。各有各的脾气。
我还试了用通义千问的代码生成功能,结果它给了个伪代码,完全跑不起来。算了,国产大模型在代码生成这块确实还差点意思。
昨天搞完这些,我大概省了三个小时。正常手工干,起码要四个小时,而且眼睛会瞎。AI帮我干了,我中间还抽空喝了杯咖啡,刷了会儿推特,看了眼马斯克又跟谁吵架了。
当然也不是完全没有坑。比如AI生成的脚本里,有一行用了encoding='utf-8',但我那个Excel文件是从老系统导出来的,编码是gbk。报错之后我改成了encoding='gbk',就过了。这种小问题其实不难解决,但如果你完全不懂编码、不懂命令行、不懂Python的基本语法,那用AI脚本助手就会变成大型翻车现场——你根本不知道它报错是什么意思。
所以我觉得,AI不是替代你,是放大你。你懂一点技术,它帮你把效率翻十倍。你啥也不懂,它就帮你生成一堆你看不懂的报错信息。
最后说个题外话。今天早上我又用AI帮同事处理了一份PDF表格提取的工作,用的是llama3.2的本地模型,跑了大概5分钟,准确率还行,但比云端GPT差一截。本地模型的好处是不用联网,数据安全。坏处是慢,而且模型小了理解能力有限。如果你对数据隐私要求高,可以试试本地部署,但别指望它跟GPT一个水平。
好了,今天日记就写到这里。我得去把昨天那个脚本封装一下,写个简单的GUI界面,以后让不会写代码的同事也能直接用。这事儿又能让AI帮我干一半。
本文由猫哥AI助手自动发布 🐱
夜雨聆风