过去gpt刚出来的时代,其实就可以写这篇文章,因为通过ai学习新知识的大体思路不变。
只不过在2026年的今天,agent补全了执行这个拼图,所以在这片文章里,如何学习数据分析并且通过ai去实践和展示,也会是重点章节。
先说结论:学习会从先学再干,变成先干再学。从总体出发学系统细节的模式,到从结果出发学上下游知识脉络并提炼细节的模式。
前面那段大家很好理解,现阶段的agent在你什么都不懂的情况下能先干起来,不管是给你做一次ab测试,还是做异动分析,还是直接写报告,归纳总结业务经验,都比你从头学和问人要快。
但后一种什么意思,我拆成三个点:
从结果解构知识脉络,从一个项目分析报告中解构出所有相关的名词和知识点
从知识点出发,让ai摸清上下游知识,有不懂的地方,可以寻求专业建议
所有的知识都有细节,过去很多细节是执行细节,比如如何用powerbi制作一个条形图,要点击什么按钮等。现在需要提炼出执行细节和重复经验,落skill,好腾出你的大脑内存。不要记ai可以直接复现的东西。
从这三个方向出发,我们来谈一谈如何重走数据分析学习的道路。
我以两篇文章为基础:
https://articles.zsxq.com/id_wj5w00em8wxt.html(初学者扫盲,里面有学习路线);
https://articles.zsxq.com/id_v1u98wwv2os2.html(一份相对完整的学习项目报告);
将文章直接导入ai(对话式也是可以的,其他文章也是可以的),他可以帮你做一次详解,告诉你可能的问题在哪里,充当老师的角色。

这是我说的第一件事,解构。
解构这个事情,有ai就可以做,没必要非要用agent,这也是过去两年大家的主要学习方式。
在有agent的情况下,我们可以继续做下面几件事情:
建立自己的skill,帮助自己标准化的产出学习内容、寻找网上的上下游知识、对知识做出对错的判断和直接复现。
建立自己的本地知识库,把ai真正培养成一个数据分析师的角色,一个老师,来帮你更快的拆解知识甚至完成项目。
去直接体验更多的产品,收集更多的数据,做到之前个人无法做到的,更丰满的分析维度,提高作品的质量和学习的深度。
在这个过程中,了解更多的agent知识,做出更好的skill或者agent项目,用来在面试中脱颖而出
我们依然拿数据分析报告这件事情来举例。
如何建立自己的skill:需求优先,比如你需要ai帮你想明白上下游知识,你需要ai帮你解释清楚一个知识点,你需要ai去帮你获得更多产品信息。这些都是需求。
过去的学习方式是反过来的,我不知道我要什么,我只知道有没有东西可以帮我成为一个数据分析师,我就要他。
现在仍然有人那么去问ai:我如何做到一个数据分析师。这个就算是用旧思路套新方法,仍然不得要领,并且由于ai一定会给你东西,他执行的很好,但ai可不负责真的把你培养成一个数据分析。
所以我们需要自己明确目标,明确你要什么,需求是什么,以及判断需求好不好。
现在你需要ai帮你想明白上下游知识,这是需求的第一步。第二步有些人会直接去搭建一个skill,这也是错的,第二步应该是先找到已经有的开源项目,或者是其他能够满足你用起来的方法(或代码,或skill)
和写论文一样,今天怎么写一个论文,答案是先看别人的博士硕士论文。
在这样的skill搭建逻辑下,ai会帮你一点点的产出上下游知识,或者你让他去找各个知识星球里的内容,他的内容量就会更丰富。
你是一个“需求优先”的知识图谱探索助手。
我会给你一个学习或工作需求。你不要一上来就教我完整课程,也不要直接帮我搭建 skill。请先帮我做三件事:
帮我把这个需求说清楚:我到底想解决什么问题?这个需求是否具体、可执行、值得做?
帮我拆出上下游知识图谱:上游需要先懂什么?当前核心概念是什么?下游能连接到哪些应用、工具、项目或能力?
在搭建任何 skill 之前,先帮我找已有方法:有没有开源项目、现成代码、已有案例、别人写过的教程、论文、产品功能或知识库内容可以先复用?
输出请用小白能看懂的方式,分成:
我的真实需求
需要先懂的上游知识
当前核心知识点
可以延伸的下游能力
可复用的现成方法
是否值得做成 skill
下一步最小行动
记住:目标不是让我“学一堆东西”,而是帮我判断我真正需要什么,并找到最短可用路径。这个时候就可以开始建立自己的知识库。因为所有获取来的知识,ai生成的知识,你都可以理解为是茫茫海洋里面的一个个节点,他不是全貌,你需要不断的根据上下游整理自己的知识体系(ai也可以辅助梳理)。
例如ab测试的概念是什么,怎么做一个ab测试,如果出现错误怎么办,有什么类型的错误,不同类型的错误需要怎么去解决。这些解决方案的原理是什么,怎么理解原理然后更灵活的判断策略。
上面的思考流程是你需要的,剩下的细节由ai填充罢了。
这样你才会开始梳理出自己的知识库,然后下一步,大部分的复杂问题解决靠的是复合知识,也就是解决一个产品上线效果好不好的问题,并不是一个ab测试说了算的,还要根据功能改动的特性做分析,要基于公司自己的数据结果做判断,考虑这个产品近期的其他变化影响等等。
从知识点到系统知识库,从系统知识库简化出来去解决复杂问题,很多过程都可以靠ai辅助。
以费米问题为例,你先别管他答的东西你是否能答出来,通过不断关注外部经验让他看起来是一个很丰满的答案,再解构他的细节让他去根据细节填补更多的细节,直到总结成一个知识体系,这个时候你也就慢慢的会了。
所以我这里要表达的核心理解是,不要ai吐一句就理解一句,而是用ai把房子搭起来,在自己住进去感受一下。
市场规模估算/
├── 01_人群规模/
│ ├── 地理范围:全国、城市、商圈、平台、社群
│ ├── 人口口径:常住人口、流动人口、注册用户、活跃用户
│ ├── 人群分层:年龄、职业、收入、城市线级
│ ├── 可触达人群:理论人群 vs 实际能触达的人群
│ └── 数据来源:统计局、行业报告、平台数据、公司内部数据
│
├── 02_目标用户比例/
│ ├── 需求人群:谁真的有这个需求
│ ├── 渗透率:有多少人已经使用或可能使用
│ ├── 用户画像:典型用户长什么样
│ ├── 排除人群:哪些人虽然在人群里,但不会购买
│ └── 替代方案:用户现在用什么方式解决问题
│
├── 03_消费频率/
│ ├── 高频/中频/低频:每天、每周、每月、偶尔
│ ├── 使用周期:一次性、周期性、长期复购
│ ├── 时间差异:工作日、周末、节假日、淡旺季
│ ├── 生命周期:新用户、老用户、流失用户
│ └── 行为触发:什么情况下用户会产生购买
│
├── 04_客单行为/
│ ├── 客单价:每次平均花多少钱
│ ├── 购买数量:一次买一件还是多件
│ ├── 价格带:低价、中价、高价用户分别占多少
│ ├── 复购行为:是否会重复购买
│ └── 支付转化:有需求的人里,多少人真的会付钱
│
├── 05_渠道结构/
│ ├── 线上渠道:电商平台、外卖、本地生活、官网、小程序
│ ├── 线下渠道:门店、商超、经销商、地推
│ ├── 渠道占比:不同渠道贡献多少销量
│ ├── 渠道重叠:同一个用户是否在多个渠道购买
│ └── 渠道成本:获客成本、平台抽成、履约成本
│
├── 06_场景差异/
│ ├── 城市差异:一线、新一线、低线城市
│ ├── 人群差异:学生、白领、宝妈、企业用户
│ ├── 使用场景:自用、送礼、办公、应急、社交
│ ├── 品类差异:刚需、可选消费、冲动消费、耐用品
│ └── 竞争环境:竞品、替代品、价格战、品牌心智
│
├── 07_假设范围/
│ ├── 核心假设:哪些变量决定最终结果
│ ├── 保守估算:最低可能是多少
│ ├── 中性估算:最可能是多少
│ ├── 乐观估算:上限可能是多少
│ ├── 证据等级:事实、数据、经验、猜测分别是什么
│ └── 敏感变量:哪个假设一变,结果变化最大
│
└── 08_误差校准/
├── 误差来源:人口错、比例错、频率错、客单价错
├── 交叉验证:用不同方法估一遍,看结果是否接近
├── 反推校验:用已知市场数据倒推假设是否合理
├── 极值检查:结果是否大到离谱或小到不合理
├── 对标案例:参考相似城市、相似产品、相似公司
└── 迭代更新:拿到真实数据后修正模型第三步是滚大这个过程。
以数据分析报告为例,用一个简单的数据集也可以做一个长报告,用一个复杂的数据集也可以做一个长报告,两者在形式上可能看不出区别,但在细节和实现难度里就是天壤之别了。
假设你以小红书产品为例,一开始可以收集一些内容帖子作为你的分析模板,可能是有十几个指标;后来就要加入商业化广告,加入电商的商品信息。分析维度可能就从找潜力活跃用户,变成找潜力商业用户,从对用户的rfm划分,到体系的人货场的构建,这就一点点往深入走了。
最后,也是大家最有可能忽略的一步,对ai的深度使用。
面试官可能会问你,今天你做的这些通过描述需求就能提出来,那么你的核心竞争力在哪里?
对大部分人来说,比拼的重点一般都在逻辑能力、设计能力和解决问题的能力。
例如今天ai跑长报告如何解决注意力漂移的问题,如何解决做图简单的问题,如何解决结论简单的问题,如何保证数据不出错的问题。
你和别人都交付一个数据分析报告,都说他是项目,但你的东西是用ai做的,且做的精美,且知道如何设计一个agent让他变的精美,稳定。
此时你和面试官沟通的就不止是那上面的内容,是你解决这个问题的思路。其实过往的考核点也是类似,只不过不是ai,是你做这个分析报告背后的思路,思考和与别人有差异的地方。
这并非是个新鲜事,过去没有ai的时候,其实很多人和别人拉开差距也是这一点。你看到其他人因为有一个所谓项目能获得offer,但从面试官的视角,他成功的部分不止于纸面上的这点东西,功夫在纸外。
和过往学习方案的差异
过去是系统学,现在是先构造系统以后在学会。其实两者的优势是互补的,但劣势是一样的。
换句话说,两者的学习方式是相反的,但是两条路线的失败者,失败的原因一样。
不管是系统学还是ai学,大部分人都逃不掉掉书袋的命运。
系统学习数据分析方法,面试的时候开始套公式,从rfm到人货场,从ab测试到算法营销定价,都是背概念;
用ai学,更避免不这个问题。ai给出了很多超越你过往学习体系的知识,甚至有些是不对的。更多人以为学到了真知识,于是开始疯狂掉书袋。
从skill到agent,从harness到loop,总会用新概念覆盖旧概念,但本质上还是在讲概念。
今天你用skill去包装rfm方法,有什么区别嘛?本质上没有。
所以面试官要想看出差异来很容易,你要是讲rfm,就跟你聊为什么要选这几个指标,未来如何优化;如果你聊ai做rfm,就聊如何让他自动判断阈值,如果出错了人如何审核?背后都是解决掉书袋的问题。
我需要你的判断,尤其是有了ai后,人的价值就是最后一道审查和判断的价值。
但如果说优势,两个学习方式是互补的。
过去你拿一本系统的书,至少对比别人可以获得相对系统的知识,从而战胜其他候选者。
但是ai打破了这个平衡,再声称【系统】的书也未必全面,因为人很难有ai那么广阔的知识,以及很难整合广阔的知识去提高单人产出。(但人有更多秘密知识、企业有秘密数据,这些都是ai无法获得的,所以你仍然需要从专家身上学到进一步的东西)
所以问题就变成了,如何更多的寻找过去的系统,然后用填补进ai做进一步的延展,是两个互补的学习方案。
就以学习ai这件事来说,你大概率知道提示词工程,但进一步构建agent,记忆模式与搜索,工作流编排方式,如果缺少关键词的提点,人很难想到,就会困于skill这件事无法跳出来。
所以从别的系统内容里用ai解构,解构出来的知识点再重新搭建起更全面的知识体系。这个时候人无法消化那么多细节,就让ai随着这个体系搭建好一个个skill和agent,帮助你完成思考和执行的提炼,从而完成学习。
到数据分析这件事也是这样,学习sql,社区和自媒体有海量的学习资料。
过去的学习方式是看到一个方法学习一个方法,或者看必知必会。
现在的方式是ai梳理好,ai来撰写,ai来纠错,ai来生成错题集让你学习。你把错误的校准方式做成skill,他来生成多个代码你来纠错。这才是ai时代的学习方式,你知道你要锻炼的是什么(审查、判断和决策力),而ai擅长什么(执行、理解和整合)。
错误的学习方式就是舍本逐末,去学如何操作软件(执行),如何复原模型(理解),以及如何把别人的知识不加修改的传递给别人(整合)。
AI学习的坑和要注意的点
学习的终点其实没变。
数据分析作为一个业务运转必须要做的润滑剂,可以不分岗位,但不会没有这个工作,反而会越做越复杂,给人的挑战性越高。
如何通过分析真正高效产出结论,找出好的策略和方法,落实并且监控到位,能够快速复盘和沟通,这些难点始终没变。ai会颠覆做到这些的过程,但最终你还是要做到这个结果,老板也只要结果。
ai会让重新聚焦成了难点,简化变成了最大的挑战。
过去我们都在把数据分析尽可能变复杂,让分析变深入,这是因为工具的使用天然困难,有阻力,有学习成本,深入能让人看到看不见的东西。人做的再复杂又能复杂到哪去?
现在最大的问题是人从人眼变成了苍蝇的复眼,你看到的太多,判断对错变的困难;你的分析越来越复杂,但业务的结果始终没有明显提升。未来如何筛选信息变成了新的难题,业务自己要重走一遍数据分析师走过的路,知道如何提高数据敏感度,如何简化报告,如何做好数据管理。
取代并不是一朝一夕的事情,真的产业升级、人才升级要比直接裁员慢的多得多。
所以在ai学习的过程里,一定注意不要被知识裹挟了你的注意力。
你很努力的做了很多vibe coding的项目,但模型升级、别人的skill升级,开源项目的更新,很容易冲烂你过去的努力。
类似在面试的时候,面试官总会提问:你做了很多,但是这些现在都被解决了,你做这些有什么价值?
分辨哪些是容易解决的,哪些是真的核心竞争力,很重要。如何使用ai,使用什么ai,今天是用hermess还是openclaw,是接飞书还是接微信,哪个好用哪个便宜,哪里充值折扣最低,这些其实都不重要。
夜雨聆风