被Excel逼疯后,我用AI当了一天牛马,结果真...

说实话，我昨天差点把键盘砸了。

事情是这样的，我手头有个项目，需要处理大概2000多条客户数据。这些数据是从不同系统导出来的，格式乱七八糟，有的名字在前，有的地址在前，有的手机号带着横杠，有的干脆没有区号。领导丢给我一句“整理一下，今天下班前给我”。

我看了眼时间，下午两点。看了眼数据，2000多条。看了眼自己，想哭。

本来想硬着头皮干，复制粘贴、分列、vlookup、if嵌套……这些操作我熟。但想象一下，2000条数据，每条都要手动判断字段位置、补全缺失信息、统一格式，眼睛不瞎手也得抽筋。我试了十分钟，搞了30条，人已经快没了。

这时候我想起之前测试过的那个AI脚本助手，叫啥来着……哦对，是Claude的代码解释器。之前一直觉得这东西就是写写hello world的水平，没当回事。今天实在没办法了，死马当活马医吧。

我把样本数据贴了10条进去，跟它说：帮我把这些数据整理成统一的格式，姓名、手机号、地址三列，手机号统一为11位，前面加86，地址里的省市区单独提取出来。

你猜怎么着？它直接给我生成了一个Python脚本。用的是pandas库，版本是2.0.3。我复制下来，在自己电脑上跑了一下，第一遍报了个错，说缺少一个叫openpyxl的库。我装了一下，再跑，成功了。2000条数据，大概3秒钟处理完。

我当时的心情，怎么说呢，就像你蹲了半天坑终于拉出来了一样爽。

不过爽归爽，问题来了。脚本处理的中间有一批数据地址格式特别奇怪，是那种“某某路某某号某某小区某某栋某某室”挤在一起不带标点的。AI提取省市区的时候，把“某某路”当成了区名。我一看不对，又回去改提示词，加了一句“地址提取时，注意区分道路名称和行政区划名称，如果无法确认，优先保留原始地址字段”。再跑一遍，这回对了。

后来我又让它帮我加了个功能：把处理完的数据自动生成一个统计报告，告诉我哪些字段缺失最多，哪些手机号格式有问题。它写了个大概30行的脚本，生成了一份HTML报告，图表都有。我把报告发给领导，领导回了句“效率不错”。

我心想，效率是不错，但不是我效率不错，是AI效率不错。我就是个中间商，赚了个提示词的差价。

说真的，以前我对AI处理结构化数据这件事有点半信半疑。总觉得它写代码会出bug，逻辑会跑偏，遇到边界情况就崩。但这次下来，我发现核心问题不是AI能不能干，而是你会不会跟它沟通。你只要把需求说清楚，给它样本，告诉它你想要什么格式、遇到什么情况怎么处理，它基本能给你一个八九不离十的脚本。剩下的就是测试、调参、再测试。

而且有个细节特别有意思。我后来试着用同样的问题去问ChatGPT GPT-4，它给的脚本也跑通了，但代码风格不太一样。Claude写的代码注释特别多，几乎每行都有说明，像是在教小学生。GPT写的注释少，但逻辑更紧凑，变量命名也更随意。各有各的脾气。

我还试了用通义千问的代码生成功能，结果它给了个伪代码，完全跑不起来。算了，国产大模型在代码生成这块确实还差点意思。

昨天搞完这些，我大概省了三个小时。正常手工干，起码要四个小时，而且眼睛会瞎。AI帮我干了，我中间还抽空喝了杯咖啡，刷了会儿推特，看了眼马斯克又跟谁吵架了。

当然也不是完全没有坑。比如AI生成的脚本里，有一行用了encoding='utf-8'，但我那个Excel文件是从老系统导出来的，编码是gbk。报错之后我改成了encoding='gbk'，就过了。这种小问题其实不难解决，但如果你完全不懂编码、不懂命令行、不懂Python的基本语法，那用AI脚本助手就会变成大型翻车现场——你根本不知道它报错是什么意思。

所以我觉得，AI不是替代你，是放大你。你懂一点技术，它帮你把效率翻十倍。你啥也不懂，它就帮你生成一堆你看不懂的报错信息。

最后说个题外话。今天早上我又用AI帮同事处理了一份PDF表格提取的工作，用的是llama3.2的本地模型，跑了大概5分钟，准确率还行，但比云端GPT差一截。本地模型的好处是不用联网，数据安全。坏处是慢，而且模型小了理解能力有限。如果你对数据隐私要求高，可以试试本地部署，但别指望它跟GPT一个水平。

好了，今天日记就写到这里。我得去把昨天那个脚本封装一下，写个简单的GUI界面，以后让不会写代码的同事也能直接用。这事儿又能让AI帮我干一半。

本文由猫哥AI助手自动发布 🐱