写在前面:这篇文章的起点是一个实际问题——我用 AI 辅助实证分析时,在大数据处理环节遭遇了真实的瓶颈。由此出发,逐渐引出了一系列关于 AI、数据系统与统计教育的思考。记录在这里的,不是结论,而是由此延伸出的一些观察与疑问。
大模型辅助数据分析,正在从一个"好用的工具",变成一个更复杂的问题。
小数据很好办。上传一个 Excel,问几个问题,让它帮忙写代码、画图、做回归、解释结果,整个过程很顺。甚至有时候,它给出的分析思路会比预期更完整。
但数据一旦变大,问题就会立刻暴露出来。几十 GB,甚至上百 GB——大模型就不再像一个"什么都能处理"的分析助手。上下文窗口无法容纳完整数据,token 成本也难以承受,本地的内存与存储同样成为制约。
这其实不是一个新问题。做数据分析的人都知道,大数据从来不是靠"打开文件"解决的。只是大模型在小数据上的体验太顺了,容易让人暂时忘掉一件事:
大模型本身不是数据库,也不是数据仓库。
更重要的是,这种容量上限是一种技术限制,而技术限制是会松动的。今天需要人工编写的查询逻辑和数据处理代码,会被越来越多地自动生成;今天还需要专业背景才能完成的分析流程,也在逐步走向更低的操作门槛。真正要追问的,不是"哪些工作暂时还安全",而是这个边界会往哪个方向移动。
这个问题,把一个更大的焦虑推到了教学现场:如果 AI 已经能写代码、能做分析、能进入 Excel 和 Google Sheets——统计课,到底还在教什么?
一、这件事不是突然发生的
把这两三年的变化连起来看,你会发现不同圈子的人在同时往一个方向走,三者之间并无直接的推动关系。
工程和开源社区,在做代码执行层面的事。Open Interpreter、TaskWeaver、Data Interpreter,名字不同,方向接近——让模型不只是"回答怎么做",而是能写代码、执行、看结果、再修正。数据分析本来就是一串连续动作,不是一次问答。如果模型只能给建议,它是助手;如果能进入这串动作,它就开始接近 Agent。
统计学界,走的是另一条路。2025 年,LAMBDA 发表在 Journal of the American Statistical Association。JASA 是统计学界最重要的期刊之一,关注的不是哪个工具是否新鲜,而是统计方法和数据分析范式本身。LAMBDA 提出的是一个双 Agent 数据分析系统:Programmer 负责写代码,Inspector 负责在代码出错时诊断和修复,还加入了知识集成和人工干预机制。这不只是"又有一篇 AI 论文发表了"——
这是大模型数据分析开始进入统计学主流共同体视野的信号。
产品和商业端,进展来得更快。OpenAI 展示的 ChatGPT agent 能调工具、运行代码、编辑电子表格;Anthropic 于 2025 年 10 月推出 Claude for Excel,OpenAI 于 2026 年 3 月推出 ChatGPT for Excel——不是把聊天框贴在表格旁边,而是读懂工作表、修改公式、把结果回写进去。
三个圈子,分头推进,却走向同一个地方:大模型正在从"给建议"走向"参与工作流"。
二、数据分析会被自动化吗?
一个比较稳妥的判断是:会,但不会全部自动化。
会被自动化的,大致是这些:
✅ 数据读取和格式识别 ✅ 缺失值、异常值检查 ✅ 描述统计和基础可视化 ✅ 常规回归和分类模型 ✅ 自动生成初版报告 ✅ 重复性报表任务
这些任务的共同点:规则相对清楚,目标相对明确,结果也比较容易验证。
但另一部分工作,就没有那么容易自动化:
❌ 这个问题本身是否值得分析? ❌ 数据是否能支持这个结论? ❌ 变量定义是否合理? ❌ 结果能不能解释为因果关系? ❌ 模型假设是否成立? ❌ 结论有没有被过度解释? ❌ 这个分析结果能不能用于真实决策?
这些问题看起来不如写代码"技术",却恰恰是数据分析最关键的地方。
数据分析最难的从来不只是"算",而是"为什么这么算"。
如果只是执行,AI 会越来越强;但如果是判断,事情就复杂得多。
三、大模型在数据分析里,到底是什么角色
我试着用几个词来描述大模型的位置,发现都不太对。
说它是工具:低估了——铲子不会反问你"有没有考虑过这个变量的内生性"。
说它是分析者:高估了——它并不真的"知道"数据在说什么,它只是极其流利地说出了一个有经验的分析者可能会说的话。
更准确的词是:调度者。
在大数据场景里,"把数据喂给 AI,直接得到结论"这条路走不通。更合理的方式是让不同层各司其职:
未来的大数据分析,不是"把数据喂给模型",而是"让模型指挥系统处理数据"。
整套分析流程越来越像这样一个分层结构:
• 数据层(Parquet、数据库、数据湖):存储和组织数据 • 计算层(DuckDB、SQL、Spark):执行查询和计算 • 智能层(LLM / Agent):规划路径、生成代码、解释结果 • 人的角色:提出问题、审查过程、判断结论边界
这也是为什么 SQL、DuckDB、Parquet 可能会重新变得重要——不是因为每个人都要变成数据工程师,而是因为不了解这个系统,就无从判断调度者的决策是否合理。
谈到数据科学,人们容易想到 Python 和 R,但真实世界里很多数据分析发生在 Excel 里——财务报表、教学数据、销售数字,往往不是从干净的数据集开始,而是从一个不太规整的工作簿开始。当大模型开始进入 Excel 和 Google Sheets,这件事可能比"AI 会写 Python 代码"更接近普通人的工作现场。只是 Excel + AI 目前还主要适合中小规模数据,真正的大数据仍然离不开背后的系统。它是入口,不是终点。
这一切,也带来了一个更麻烦的问题:
当大模型把错误的变量处理成了"正确的格式";当它用了一个假设不成立的模型,却解释得头头是道;当代码跑通了,分析逻辑却有问题——你能在结果出来之前就抓住它吗?
这个问题,课堂上几乎从来没有被认真教过。
四、统计直觉,正在悄悄消失
以前的统计教育有一条隐藏的逻辑:
学生通过大量手动操作,逐渐建立起对数据的"感"——知道一个系数估出来偏得太离谱是什么感觉,知道残差图长成某种形状意味着什么,知道样本量小的时候结论有多脆弱。
这种直觉,不是靠记知识点来的,是靠自己踩过坑来的。换一个更朴素的词,叫经验。经验里有大量不可言说、无法度量、也难以直接教授的东西——你知道这个数字看着不对劲,你知道这个结论下得太快,但你解释不清楚为什么。这不只是数据分析如此,几乎所有需要判断力的领域都是如此。而这,恰好是 AI 最难复制的那部分。
现在的学生,如果从一开始就主要用大模型辅助分析,学习路径变了——不再需要自己写第一行代码,不再需要花数小时排查报错,不再需要从一堆结果里自己判断哪个是对的。
那种统计直觉,还会自然形成吗?
也许会形成另一种直觉——对大模型输出的判断力,而不是对数据本身的判断力。但这两种判断力是不是等价的,没有人说得清楚。
五、科研训练也会被影响
这种变化不只影响教学,也会影响科研——尤其是实证研究领域。
大模型把执行成本降下来之后,"试一试"会变得更容易。探索会更快——但不加判断的模型试跑、结果筛选和过度解释,也可能变得更隐蔽。科研不是"跑出一个结果"就结束了。更重要的问题是:数据来源是否可靠?变量定义是否有理论依据?识别策略是否可信? 结论有没有超出数据能支持的范围?代码和数据处理过程是否能被审计?
所以,科研训练里可能还要加上一层:
会不会审查一条由 AI 生成的数据分析链。
这条链不只是代码,它包括问题设定、数据处理、方法选择、参数调整、结果解释,以及最终写进论文里的那几句话。当"做出来"变得更容易,"做得对不对"就会变成更核心的问题。
六、教学该怎么变
如果 AI 可以写代码,工具可以自动建模,Excel 里也能直接让 AI 生成分析——课堂上花大量时间教软件操作、代码模板和标准流程,还够吗?
统计方法、概率思想、回归分析、假设检验,这些基础不应该丢。问题在于:如果教学一直从"方法"开始,学生可能会越来越难理解这些方法为什么重要。
也许更自然的路径是:先从一个真实问题开始,给学生一份不太干净的数据,允许使用 AI,在过程中引出方法,最后要求学生解释为什么这样做、哪里可能有问题。比如面对一个学生成绩数据集,不是先讲回归公式,而是先问:成绩变化能不能归因于某个教学干预?哪些变量可能是混杂因素?AI 给出的回归结果能不能相信?这个结论可以写进教学改进报告吗?
不是不要方法,而是方法不一定总是起点。
现实的问题是:大多数统计教师没有大厂项目经验,没有企业级数据,没有分布式计算集群。一谈改革,就默认大家都有真实业务场景——这不现实。
课堂不需要复刻大厂环境。课堂要训练的,是可迁移的分析能力。
哪怕是 100 MB 的数据,也可以训练完整的分析思维:这份数据从哪里来?字段是什么意思?哪些质量问题会影响结论?AI 给出的代码是否合理?结果能不能支撑原来的问题?关键不是数据规模有多大,而是问题结构是否真实。
这也引出了另一个问题:学生到底应该学到什么程度?
看一下现在的数据分析岗位要求:不只是"会统计软件",还要 SQL、Python、数据平台,能把业务需求转成查询语句,能保证分析过程透明可复现。这些要求看起来很工程化,但又不完全是在招软件工程师——它们在招的,是能把业务问题、数据系统、统计分析和结果表达连起来的人。答案不是"每个人都要会搭数据平台",而是:有工程理解力的分析者。
具体来说,至少要:
✅ 知道 Excel 什么时候不够用 ✅ 知道大模型不能直接吞下全部数据 ✅ 知道 SQL 为什么重要,Parquet 解决什么问题 ✅ 知道数据分析不只是建模,还有存储、清洗、查询、验证和复现 ✅ 知道如何让 AI 辅助写代码,但不能盲信它的结果
这不是要学生成为程序员,而是让他们在面对真实数据时,不至于只会停在——"这个文件太大,打不开"。
七、就业危机,还是训练目标危机?
LAMBDA 发表后,滴滴前首席科学家朱宏图老师在向大家介绍这篇论文时,提出了一个深层次的问题:
如果数据分析都自动化了,未来学生的就业怎么办?
这个问题值得认真对待。提问的人是见过大规模工程系统的人,不是在表达焦虑,是在问一个他自己也没有现成答案的问题。
我的判断是:自动化的是层,不是岗。
LAMBDA 这类系统自动化的是执行层——读数据、写代码、跑模型、出图表。但数据分析的价值链不止一层。问题定义、因果识别、识别策略的可信度、结论的边界——这些判断,LAMBDA 回答不了,因为它没有对具体问题的专业背景和积累,没有对数据生成过程的理解,也无法承担错误结论的后果。
真正的危险不是"学生被替代",而是:
如果训练目标对准的是执行层,学生毕业后就直接在和 AI 竞争。
会出现一批学生:能流利使用 AI 工具完成分析任务,能输出格式漂亮的报告,面试时看起来很能干。但他们不太能抓住分析中的关键错误,不太能判断模型假设在当前问题里成不成立。这种能力的空洞,工作初期不明显——它会在某个关键时刻暴露:当他们需要对一个结论负责,当他们需要向决策者解释"我为什么信这个结果"的时候。
另一批学生,因为好奇心或者运气,把 AI 用成了放大器而不是替代品。更好的问题,更快的迭代,AI 处理繁琐的部分,但思考还是自己在做。
这两批人,现在很难从课堂表现里区分出来。
如果还按过去的方式训练学生,他们会不会毕业即过时?
这个问题,比"会不会失业"更值得认真面对。
执行越来越便宜。判断越来越稀缺。
AI 能替你跑模型,能替你写代码,甚至能替你解释结果。但它替不了你在看到一个数字时心里那个"不对劲"的感觉,替不了你判断出这个结论过于仓促、这个假设难以成立,替不了你在对决策者说"我相信这个分析"时背后的那份判断力。
回到开头那个问题——统计课还能教什么?
过去,重要的是会不会做。
以后,更重要的可能是:知不知道该做什么,为什么这样做,以及做出来之后——判断结果是否可信。
引用链接
[1] TaskWeaver: A code-first agent framework: https://www.microsoft.com/en-us/research/blog/taskweaver-a-code-first-agent-framework-for-efficient-data-analytics-and-domain-adaptation/?lang=ja[2] microsoft/TaskWeaver: https://github.com/microsoft/TaskWeaver[3] Data Interpreter: An LLM Agent For Data Science: https://huggingface.co/papers/2402.18679[4] OpenCodeInterpreter: https://github.com/OpenCodeInterpreter/OpenCodeInterpreter[5] LAMBDA: A Large Model Based Data Agent: https://doi.org/10.1080/01621459.2025.2510000[6] Introducing ChatGPT agent: https://openai.com/ms-BN/index/introducing-chatgpt-agent/[7] Claude for Excel: https://support.claude.com/en/articles/12650343-claude-for-excel[8] ChatGPT for Excel: https://openai.com/index/chatgpt-for-excel/
夜雨聆风