AI时代初学者如何学数据分析

过去gpt刚出来的时代，其实就可以写这篇文章，因为通过ai学习新知识的大体思路不变。

只不过在2026年的今天，agent补全了执行这个拼图，所以在这片文章里，如何学习数据分析并且通过ai去实践和展示，也会是重点章节。

先说结论：学习会从先学再干，变成先干再学。从总体出发学系统细节的模式，到从结果出发学上下游知识脉络并提炼细节的模式。

前面那段大家很好理解，现阶段的agent在你什么都不懂的情况下能先干起来，不管是给你做一次ab测试，还是做异动分析，还是直接写报告，归纳总结业务经验，都比你从头学和问人要快。

但后一种什么意思，我拆成三个点：

从结果解构知识脉络，从一个项目分析报告中解构出所有相关的名词和知识点
从知识点出发，让ai摸清上下游知识，有不懂的地方，可以寻求专业建议
所有的知识都有细节，过去很多细节是执行细节，比如如何用powerbi制作一个条形图，要点击什么按钮等。现在需要提炼出执行细节和重复经验，落skill，好腾出你的大脑内存。不要记ai可以直接复现的东西。

从这三个方向出发，我们来谈一谈如何重走数据分析学习的道路。

我以两篇文章为基础：

https://articles.zsxq.com/id_wj5w00em8wxt.html（初学者扫盲，里面有学习路线）；

https://articles.zsxq.com/id_v1u98wwv2os2.html（一份相对完整的学习项目报告）；

将文章直接导入ai（对话式也是可以的，其他文章也是可以的），他可以帮你做一次详解，告诉你可能的问题在哪里，充当老师的角色。

这是我说的第一件事，解构。

解构这个事情，有ai就可以做，没必要非要用agent，这也是过去两年大家的主要学习方式。

在有agent的情况下，我们可以继续做下面几件事情：

建立自己的skill，帮助自己标准化的产出学习内容、寻找网上的上下游知识、对知识做出对错的判断和直接复现。
建立自己的本地知识库，把ai真正培养成一个数据分析师的角色，一个老师，来帮你更快的拆解知识甚至完成项目。
去直接体验更多的产品，收集更多的数据，做到之前个人无法做到的，更丰满的分析维度，提高作品的质量和学习的深度。
在这个过程中，了解更多的agent知识，做出更好的skill或者agent项目，用来在面试中脱颖而出

我们依然拿数据分析报告这件事情来举例。

如何建立自己的skill：需求优先，比如你需要ai帮你想明白上下游知识，你需要ai帮你解释清楚一个知识点，你需要ai去帮你获得更多产品信息。这些都是需求。

过去的学习方式是反过来的，我不知道我要什么，我只知道有没有东西可以帮我成为一个数据分析师，我就要他。

现在仍然有人那么去问ai：我如何做到一个数据分析师。这个就算是用旧思路套新方法，仍然不得要领，并且由于ai一定会给你东西，他执行的很好，但ai可不负责真的把你培养成一个数据分析。

所以我们需要自己明确目标，明确你要什么，需求是什么，以及判断需求好不好。

现在你需要ai帮你想明白上下游知识，这是需求的第一步。第二步有些人会直接去搭建一个skill，这也是错的，第二步应该是先找到已经有的开源项目，或者是其他能够满足你用起来的方法（或代码，或skill）

和写论文一样，今天怎么写一个论文，答案是先看别人的博士硕士论文。

在这样的skill搭建逻辑下，ai会帮你一点点的产出上下游知识，或者你让他去找各个知识星球里的内容，他的内容量就会更丰富。

你是一个“需求优先”的知识图谱探索助手。

我会给你一个学习或工作需求。你不要一上来就教我完整课程，也不要直接帮我搭建 skill。请先帮我做三件事：

帮我把这个需求说清楚：我到底想解决什么问题？这个需求是否具体、可执行、值得做？

帮我拆出上下游知识图谱：上游需要先懂什么？当前核心概念是什么？下游能连接到哪些应用、工具、项目或能力？

在搭建任何 skill 之前，先帮我找已有方法：有没有开源项目、现成代码、已有案例、别人写过的教程、论文、产品功能或知识库内容可以先复用？

输出请用小白能看懂的方式，分成：

我的真实需求
需要先懂的上游知识
当前核心知识点
可以延伸的下游能力
可复用的现成方法
是否值得做成 skill
下一步最小行动

记住：目标不是让我“学一堆东西”，而是帮我判断我真正需要什么，并找到最短可用路径。

这个时候就可以开始建立自己的知识库。因为所有获取来的知识，ai生成的知识，你都可以理解为是茫茫海洋里面的一个个节点，他不是全貌，你需要不断的根据上下游整理自己的知识体系（ai也可以辅助梳理）。

例如ab测试的概念是什么，怎么做一个ab测试，如果出现错误怎么办，有什么类型的错误，不同类型的错误需要怎么去解决。这些解决方案的原理是什么，怎么理解原理然后更灵活的判断策略。

上面的思考流程是你需要的，剩下的细节由ai填充罢了。

这样你才会开始梳理出自己的知识库，然后下一步，大部分的复杂问题解决靠的是复合知识，也就是解决一个产品上线效果好不好的问题，并不是一个ab测试说了算的，还要根据功能改动的特性做分析，要基于公司自己的数据结果做判断，考虑这个产品近期的其他变化影响等等。

从知识点到系统知识库，从系统知识库简化出来去解决复杂问题，很多过程都可以靠ai辅助。

以费米问题为例，你先别管他答的东西你是否能答出来，通过不断关注外部经验让他看起来是一个很丰满的答案，再解构他的细节让他去根据细节填补更多的细节，直到总结成一个知识体系，这个时候你也就慢慢的会了。

所以我这里要表达的核心理解是，不要ai吐一句就理解一句，而是用ai把房子搭起来，在自己住进去感受一下。

市场规模估算/
├── 01_人群规模/
│   ├── 地理范围：全国、城市、商圈、平台、社群
│   ├── 人口口径：常住人口、流动人口、注册用户、活跃用户
│   ├── 人群分层：年龄、职业、收入、城市线级
│   ├── 可触达人群：理论人群 vs 实际能触达的人群
│   └── 数据来源：统计局、行业报告、平台数据、公司内部数据
│
├── 02_目标用户比例/
│   ├── 需求人群：谁真的有这个需求
│   ├── 渗透率：有多少人已经使用或可能使用
│   ├── 用户画像：典型用户长什么样
│   ├── 排除人群：哪些人虽然在人群里，但不会购买
│   └── 替代方案：用户现在用什么方式解决问题
│
├── 03_消费频率/
│   ├── 高频/中频/低频：每天、每周、每月、偶尔
│   ├── 使用周期：一次性、周期性、长期复购
│   ├── 时间差异：工作日、周末、节假日、淡旺季
│   ├── 生命周期：新用户、老用户、流失用户
│   └── 行为触发：什么情况下用户会产生购买
│
├── 04_客单行为/
│   ├── 客单价：每次平均花多少钱
│   ├── 购买数量：一次买一件还是多件
│   ├── 价格带：低价、中价、高价用户分别占多少
│   ├── 复购行为：是否会重复购买
│   └── 支付转化：有需求的人里，多少人真的会付钱
│
├── 05_渠道结构/
│   ├── 线上渠道：电商平台、外卖、本地生活、官网、小程序
│   ├── 线下渠道：门店、商超、经销商、地推
│   ├── 渠道占比：不同渠道贡献多少销量
│   ├── 渠道重叠：同一个用户是否在多个渠道购买
│   └── 渠道成本：获客成本、平台抽成、履约成本
│
├── 06_场景差异/
│   ├── 城市差异：一线、新一线、低线城市
│   ├── 人群差异：学生、白领、宝妈、企业用户
│   ├── 使用场景：自用、送礼、办公、应急、社交
│   ├── 品类差异：刚需、可选消费、冲动消费、耐用品
│   └── 竞争环境：竞品、替代品、价格战、品牌心智
│
├── 07_假设范围/
│   ├── 核心假设：哪些变量决定最终结果
│   ├── 保守估算：最低可能是多少
│   ├── 中性估算：最可能是多少
│   ├── 乐观估算：上限可能是多少
│   ├── 证据等级：事实、数据、经验、猜测分别是什么
│   └── 敏感变量：哪个假设一变，结果变化最大
│
└── 08_误差校准/
    ├── 误差来源：人口错、比例错、频率错、客单价错
    ├── 交叉验证：用不同方法估一遍，看结果是否接近
    ├── 反推校验：用已知市场数据倒推假设是否合理
    ├── 极值检查：结果是否大到离谱或小到不合理
    ├── 对标案例：参考相似城市、相似产品、相似公司
    └── 迭代更新：拿到真实数据后修正模型

第三步是滚大这个过程。

以数据分析报告为例，用一个简单的数据集也可以做一个长报告，用一个复杂的数据集也可以做一个长报告，两者在形式上可能看不出区别，但在细节和实现难度里就是天壤之别了。

假设你以小红书产品为例，一开始可以收集一些内容帖子作为你的分析模板，可能是有十几个指标；后来就要加入商业化广告，加入电商的商品信息。分析维度可能就从找潜力活跃用户，变成找潜力商业用户，从对用户的rfm划分，到体系的人货场的构建，这就一点点往深入走了。

最后，也是大家最有可能忽略的一步，对ai的深度使用。

面试官可能会问你，今天你做的这些通过描述需求就能提出来，那么你的核心竞争力在哪里？

对大部分人来说，比拼的重点一般都在逻辑能力、设计能力和解决问题的能力。

例如今天ai跑长报告如何解决注意力漂移的问题，如何解决做图简单的问题，如何解决结论简单的问题，如何保证数据不出错的问题。

你和别人都交付一个数据分析报告，都说他是项目，但你的东西是用ai做的，且做的精美，且知道如何设计一个agent让他变的精美，稳定。

此时你和面试官沟通的就不止是那上面的内容，是你解决这个问题的思路。其实过往的考核点也是类似，只不过不是ai，是你做这个分析报告背后的思路，思考和与别人有差异的地方。

这并非是个新鲜事，过去没有ai的时候，其实很多人和别人拉开差距也是这一点。你看到其他人因为有一个所谓项目能获得offer，但从面试官的视角，他成功的部分不止于纸面上的这点东西，功夫在纸外。

和过往学习方案的差异

过去是系统学，现在是先构造系统以后在学会。其实两者的优势是互补的，但劣势是一样的。

换句话说，两者的学习方式是相反的，但是两条路线的失败者，失败的原因一样。

不管是系统学还是ai学，大部分人都逃不掉掉书袋的命运。

系统学习数据分析方法，面试的时候开始套公式，从rfm到人货场，从ab测试到算法营销定价，都是背概念；

用ai学，更避免不这个问题。ai给出了很多超越你过往学习体系的知识，甚至有些是不对的。更多人以为学到了真知识，于是开始疯狂掉书袋。

从skill到agent，从harness到loop，总会用新概念覆盖旧概念，但本质上还是在讲概念。

今天你用skill去包装rfm方法，有什么区别嘛？本质上没有。

所以面试官要想看出差异来很容易，你要是讲rfm，就跟你聊为什么要选这几个指标，未来如何优化；如果你聊ai做rfm，就聊如何让他自动判断阈值，如果出错了人如何审核？背后都是解决掉书袋的问题。

我需要你的判断，尤其是有了ai后，人的价值就是最后一道审查和判断的价值。

但如果说优势，两个学习方式是互补的。

过去你拿一本系统的书，至少对比别人可以获得相对系统的知识，从而战胜其他候选者。

但是ai打破了这个平衡，再声称【系统】的书也未必全面，因为人很难有ai那么广阔的知识，以及很难整合广阔的知识去提高单人产出。（但人有更多秘密知识、企业有秘密数据，这些都是ai无法获得的，所以你仍然需要从专家身上学到进一步的东西）

所以问题就变成了，如何更多的寻找过去的系统，然后用填补进ai做进一步的延展，是两个互补的学习方案。

就以学习ai这件事来说，你大概率知道提示词工程，但进一步构建agent，记忆模式与搜索，工作流编排方式，如果缺少关键词的提点，人很难想到，就会困于skill这件事无法跳出来。

所以从别的系统内容里用ai解构，解构出来的知识点再重新搭建起更全面的知识体系。这个时候人无法消化那么多细节，就让ai随着这个体系搭建好一个个skill和agent，帮助你完成思考和执行的提炼，从而完成学习。

到数据分析这件事也是这样，学习sql，社区和自媒体有海量的学习资料。

过去的学习方式是看到一个方法学习一个方法，或者看必知必会。

现在的方式是ai梳理好，ai来撰写，ai来纠错，ai来生成错题集让你学习。你把错误的校准方式做成skill，他来生成多个代码你来纠错。这才是ai时代的学习方式，你知道你要锻炼的是什么（审查、判断和决策力），而ai擅长什么（执行、理解和整合）。

错误的学习方式就是舍本逐末，去学如何操作软件（执行），如何复原模型（理解），以及如何把别人的知识不加修改的传递给别人（整合）。

AI学习的坑和要注意的点

学习的终点其实没变。

数据分析作为一个业务运转必须要做的润滑剂，可以不分岗位，但不会没有这个工作，反而会越做越复杂，给人的挑战性越高。

如何通过分析真正高效产出结论，找出好的策略和方法，落实并且监控到位，能够快速复盘和沟通，这些难点始终没变。ai会颠覆做到这些的过程，但最终你还是要做到这个结果，老板也只要结果。

ai会让重新聚焦成了难点，简化变成了最大的挑战。

过去我们都在把数据分析尽可能变复杂，让分析变深入，这是因为工具的使用天然困难，有阻力，有学习成本，深入能让人看到看不见的东西。人做的再复杂又能复杂到哪去？

现在最大的问题是人从人眼变成了苍蝇的复眼，你看到的太多，判断对错变的困难；你的分析越来越复杂，但业务的结果始终没有明显提升。未来如何筛选信息变成了新的难题，业务自己要重走一遍数据分析师走过的路，知道如何提高数据敏感度，如何简化报告，如何做好数据管理。

取代并不是一朝一夕的事情，真的产业升级、人才升级要比直接裁员慢的多得多。

所以在ai学习的过程里，一定注意不要被知识裹挟了你的注意力。

你很努力的做了很多vibe coding的项目，但模型升级、别人的skill升级，开源项目的更新，很容易冲烂你过去的努力。

类似在面试的时候，面试官总会提问：你做了很多，但是这些现在都被解决了，你做这些有什么价值？

分辨哪些是容易解决的，哪些是真的核心竞争力，很重要。如何使用ai，使用什么ai，今天是用hermess还是openclaw，是接飞书还是接微信，哪个好用哪个便宜，哪里充值折扣最低，这些其实都不重要。