当大模型开始分析 Excel,统计课还能教什么?

写在前面：这篇文章的起点是一个实际问题——我用 AI 辅助实证分析时，在大数据处理环节遭遇了真实的瓶颈。由此出发，逐渐引出了一系列关于 AI、数据系统与统计教育的思考。记录在这里的，不是结论，而是由此延伸出的一些观察与疑问。

大模型辅助数据分析，正在从一个"好用的工具"，变成一个更复杂的问题。

小数据很好办。上传一个 Excel，问几个问题，让它帮忙写代码、画图、做回归、解释结果，整个过程很顺。甚至有时候，它给出的分析思路会比预期更完整。

但数据一旦变大，问题就会立刻暴露出来。几十 GB，甚至上百 GB——大模型就不再像一个"什么都能处理"的分析助手。上下文窗口无法容纳完整数据，token 成本也难以承受，本地的内存与存储同样成为制约。

这其实不是一个新问题。做数据分析的人都知道，大数据从来不是靠"打开文件"解决的。只是大模型在小数据上的体验太顺了，容易让人暂时忘掉一件事：

大模型本身不是数据库，也不是数据仓库。

更重要的是，这种容量上限是一种技术限制，而技术限制是会松动的。今天需要人工编写的查询逻辑和数据处理代码，会被越来越多地自动生成；今天还需要专业背景才能完成的分析流程，也在逐步走向更低的操作门槛。真正要追问的，不是"哪些工作暂时还安全"，而是这个边界会往哪个方向移动。

这个问题，把一个更大的焦虑推到了教学现场：如果 AI 已经能写代码、能做分析、能进入 Excel 和 Google Sheets——统计课，到底还在教什么？

一、这件事不是突然发生的

把这两三年的变化连起来看，你会发现不同圈子的人在同时往一个方向走，三者之间并无直接的推动关系。

工程和开源社区，在做代码执行层面的事。Open Interpreter、TaskWeaver、Data Interpreter，名字不同，方向接近——让模型不只是"回答怎么做"，而是能写代码、执行、看结果、再修正。数据分析本来就是一串连续动作，不是一次问答。如果模型只能给建议，它是助手；如果能进入这串动作，它就开始接近 Agent。

统计学界，走的是另一条路。2025 年，LAMBDA 发表在 Journal of the American Statistical Association。JASA 是统计学界最重要的期刊之一，关注的不是哪个工具是否新鲜，而是统计方法和数据分析范式本身。LAMBDA 提出的是一个双 Agent 数据分析系统：Programmer 负责写代码，Inspector 负责在代码出错时诊断和修复，还加入了知识集成和人工干预机制。这不只是"又有一篇 AI 论文发表了"——

这是大模型数据分析开始进入统计学主流共同体视野的信号。

产品和商业端，进展来得更快。OpenAI 展示的 ChatGPT agent 能调工具、运行代码、编辑电子表格；Anthropic 于 2025 年 10 月推出 Claude for Excel，OpenAI 于 2026 年 3 月推出 ChatGPT for Excel——不是把聊天框贴在表格旁边，而是读懂工作表、修改公式、把结果回写进去。

三个圈子，分头推进，却走向同一个地方：大模型正在从"给建议"走向"参与工作流"。

二、数据分析会被自动化吗？

一个比较稳妥的判断是：会，但不会全部自动化。

会被自动化的，大致是这些：

✅ 数据读取和格式识别
✅ 缺失值、异常值检查
✅ 描述统计和基础可视化
✅ 常规回归和分类模型
✅ 自动生成初版报告
✅ 重复性报表任务

这些任务的共同点：规则相对清楚，目标相对明确，结果也比较容易验证。

但另一部分工作，就没有那么容易自动化：

❌ 这个问题本身是否值得分析？
❌ 数据是否能支持这个结论？
❌ 变量定义是否合理？
❌ 结果能不能解释为因果关系？
❌ 模型假设是否成立？
❌ 结论有没有被过度解释？
❌ 这个分析结果能不能用于真实决策？

这些问题看起来不如写代码"技术"，却恰恰是数据分析最关键的地方。

数据分析最难的从来不只是"算"，而是"为什么这么算"。

如果只是执行，AI 会越来越强；但如果是判断，事情就复杂得多。

三、大模型在数据分析里，到底是什么角色

我试着用几个词来描述大模型的位置，发现都不太对。

说它是工具：低估了——铲子不会反问你"有没有考虑过这个变量的内生性"。

说它是分析者：高估了——它并不真的"知道"数据在说什么，它只是极其流利地说出了一个有经验的分析者可能会说的话。

更准确的词是：调度者。

在大数据场景里，"把数据喂给 AI，直接得到结论"这条路走不通。更合理的方式是让不同层各司其职：

环节	谁来做	作用
提出问题	人	判断要分析什么、为什么分析
规划路径	AI	把问题转成 SQL、Python 或分析流程
执行计算	数据系统	在数据库、DuckDB、Spark 等环境中处理数据
返回结果	数据系统	返回聚合结果、样本、图表或摘要
解释与审查	人 + AI	解释结果，检查是否可信

未来的大数据分析，不是"把数据喂给模型"，而是"让模型指挥系统处理数据"。

整套分析流程越来越像这样一个分层结构：

• 数据层（Parquet、数据库、数据湖）：存储和组织数据
• 计算层（DuckDB、SQL、Spark）：执行查询和计算
• 智能层（LLM / Agent）：规划路径、生成代码、解释结果
• 人的角色：提出问题、审查过程、判断结论边界

这也是为什么 SQL、DuckDB、Parquet 可能会重新变得重要——不是因为每个人都要变成数据工程师，而是因为不了解这个系统，就无从判断调度者的决策是否合理。

谈到数据科学，人们容易想到 Python 和 R，但真实世界里很多数据分析发生在 Excel 里——财务报表、教学数据、销售数字，往往不是从干净的数据集开始，而是从一个不太规整的工作簿开始。当大模型开始进入 Excel 和 Google Sheets，这件事可能比"AI 会写 Python 代码"更接近普通人的工作现场。只是 Excel + AI 目前还主要适合中小规模数据，真正的大数据仍然离不开背后的系统。它是入口，不是终点。

这一切，也带来了一个更麻烦的问题：

当大模型把错误的变量处理成了"正确的格式"；当它用了一个假设不成立的模型，却解释得头头是道；当代码跑通了，分析逻辑却有问题——你能在结果出来之前就抓住它吗？

这个问题，课堂上几乎从来没有被认真教过。

四、统计直觉，正在悄悄消失

以前的统计教育有一条隐藏的逻辑：

学生通过大量手动操作，逐渐建立起对数据的"感"——知道一个系数估出来偏得太离谱是什么感觉，知道残差图长成某种形状意味着什么，知道样本量小的时候结论有多脆弱。

这种直觉，不是靠记知识点来的，是靠自己踩过坑来的。换一个更朴素的词，叫经验。经验里有大量不可言说、无法度量、也难以直接教授的东西——你知道这个数字看着不对劲，你知道这个结论下得太快，但你解释不清楚为什么。这不只是数据分析如此，几乎所有需要判断力的领域都是如此。而这，恰好是 AI 最难复制的那部分。

现在的学生，如果从一开始就主要用大模型辅助分析，学习路径变了——不再需要自己写第一行代码，不再需要花数小时排查报错，不再需要从一堆结果里自己判断哪个是对的。

那种统计直觉，还会自然形成吗？

也许会形成另一种直觉——对大模型输出的判断力，而不是对数据本身的判断力。但这两种判断力是不是等价的，没有人说得清楚。

五、科研训练也会被影响

这种变化不只影响教学，也会影响科研——尤其是实证研究领域。

大模型把执行成本降下来之后，"试一试"会变得更容易。探索会更快——但不加判断的模型试跑、结果筛选和过度解释，也可能变得更隐蔽。科研不是"跑出一个结果"就结束了。更重要的问题是：数据来源是否可靠？变量定义是否有理论依据？识别策略是否可信？ 结论有没有超出数据能支持的范围？代码和数据处理过程是否能被审计？

所以，科研训练里可能还要加上一层：

会不会审查一条由 AI 生成的数据分析链。

这条链不只是代码，它包括问题设定、数据处理、方法选择、参数调整、结果解释，以及最终写进论文里的那几句话。当"做出来"变得更容易，"做得对不对"就会变成更核心的问题。

六、教学该怎么变

如果 AI 可以写代码，工具可以自动建模，Excel 里也能直接让 AI 生成分析——课堂上花大量时间教软件操作、代码模板和标准流程，还够吗？

统计方法、概率思想、回归分析、假设检验，这些基础不应该丢。问题在于：如果教学一直从"方法"开始，学生可能会越来越难理解这些方法为什么重要。

也许更自然的路径是：先从一个真实问题开始，给学生一份不太干净的数据，允许使用 AI，在过程中引出方法，最后要求学生解释为什么这样做、哪里可能有问题。比如面对一个学生成绩数据集，不是先讲回归公式，而是先问：成绩变化能不能归因于某个教学干预？哪些变量可能是混杂因素？AI 给出的回归结果能不能相信？这个结论可以写进教学改进报告吗？

不是不要方法，而是方法不一定总是起点。

现实的问题是：大多数统计教师没有大厂项目经验，没有企业级数据，没有分布式计算集群。一谈改革，就默认大家都有真实业务场景——这不现实。

课堂不需要复刻大厂环境。课堂要训练的，是可迁移的分析能力。

哪怕是 100 MB 的数据，也可以训练完整的分析思维：这份数据从哪里来？字段是什么意思？哪些质量问题会影响结论？AI 给出的代码是否合理？结果能不能支撑原来的问题？关键不是数据规模有多大，而是问题结构是否真实。

这也引出了另一个问题：学生到底应该学到什么程度？

看一下现在的数据分析岗位要求：不只是"会统计软件"，还要 SQL、Python、数据平台，能把业务需求转成查询语句，能保证分析过程透明可复现。这些要求看起来很工程化，但又不完全是在招软件工程师——它们在招的，是能把业务问题、数据系统、统计分析和结果表达连起来的人。答案不是"每个人都要会搭数据平台"，而是：有工程理解力的分析者。

具体来说，至少要：

✅ 知道 Excel 什么时候不够用
✅ 知道大模型不能直接吞下全部数据
✅ 知道 SQL 为什么重要，Parquet 解决什么问题
✅ 知道数据分析不只是建模，还有存储、清洗、查询、验证和复现
✅ 知道如何让 AI 辅助写代码，但不能盲信它的结果

这不是要学生成为程序员，而是让他们在面对真实数据时，不至于只会停在——"这个文件太大，打不开"。

七、就业危机，还是训练目标危机？

LAMBDA 发表后，滴滴前首席科学家朱宏图老师在向大家介绍这篇论文时，提出了一个深层次的问题：

如果数据分析都自动化了，未来学生的就业怎么办？

这个问题值得认真对待。提问的人是见过大规模工程系统的人，不是在表达焦虑，是在问一个他自己也没有现成答案的问题。

我的判断是：自动化的是层，不是岗。

LAMBDA 这类系统自动化的是执行层——读数据、写代码、跑模型、出图表。但数据分析的价值链不止一层。问题定义、因果识别、识别策略的可信度、结论的边界——这些判断，LAMBDA 回答不了，因为它没有对具体问题的专业背景和积累，没有对数据生成过程的理解，也无法承担错误结论的后果。

真正的危险不是"学生被替代"，而是：

如果训练目标对准的是执行层，学生毕业后就直接在和 AI 竞争。

会出现一批学生：能流利使用 AI 工具完成分析任务，能输出格式漂亮的报告，面试时看起来很能干。但他们不太能抓住分析中的关键错误，不太能判断模型假设在当前问题里成不成立。这种能力的空洞，工作初期不明显——它会在某个关键时刻暴露：当他们需要对一个结论负责，当他们需要向决策者解释"我为什么信这个结果"的时候。

另一批学生，因为好奇心或者运气，把 AI 用成了放大器而不是替代品。更好的问题，更快的迭代，AI 处理繁琐的部分，但思考还是自己在做。

这两批人，现在很难从课堂表现里区分出来。

如果还按过去的方式训练学生，他们会不会毕业即过时？

这个问题，比"会不会失业"更值得认真面对。

执行越来越便宜。判断越来越稀缺。

AI 能替你跑模型，能替你写代码，甚至能替你解释结果。但它替不了你在看到一个数字时心里那个"不对劲"的感觉，替不了你判断出这个结论过于仓促、这个假设难以成立，替不了你在对决策者说"我相信这个分析"时背后的那份判断力。

回到开头那个问题——统计课还能教什么？

过去，重要的是会不会做。

以后，更重要的可能是：知不知道该做什么，为什么这样做，以及做出来之后——判断结果是否可信。

引用链接

[1] TaskWeaver: A code-first agent framework: https://www.microsoft.com/en-us/research/blog/taskweaver-a-code-first-agent-framework-for-efficient-data-analytics-and-domain-adaptation/?lang=ja[2] microsoft/TaskWeaver: https://github.com/microsoft/TaskWeaver[3] Data Interpreter: An LLM Agent For Data Science: https://huggingface.co/papers/2402.18679[4] OpenCodeInterpreter: https://github.com/OpenCodeInterpreter/OpenCodeInterpreter[5] LAMBDA: A Large Model Based Data Agent: https://doi.org/10.1080/01621459.2025.2510000[6] Introducing ChatGPT agent: https://openai.com/ms-BN/index/introducing-chatgpt-agent/[7] Claude for Excel: https://support.claude.com/en/articles/12650343-claude-for-excel[8] ChatGPT for Excel: https://openai.com/index/chatgpt-for-excel/