AI Agent面试全攻略——多知识点保姆级讲解

有个在大厂做技术面试官的朋友，半年内面了50多个AI Agent相关岗位的候选人。

他告诉我一个反直觉的数据：简历上写"精通Coze/Dify"的通过率不到15%，而能把"业务逻辑拆解"讲清楚的，通过率超过60%。

更扎心的是，大部分人栽倒的根本不是什么高深技术，而是最基础的概念理解和项目思维。

这篇文章整理了多个核心知识点，从Agent基础原理到面试高频考点，从AI编程工具选型到真实项目复盘，帮你建立一个完整的知识体系。

一、Agent基础：这4个概念面试必问

1.1 Agent的本质公式

Agent = LLM + 工具 + 记忆 + 规划循环

这是面试第一道送分题，但能答完整的不到一半。

单轮LLM调用是"问一答一"，Agent是能自主决定调用什么工具、读取什么数据、何时结束。最经典的ReAct范式（Reason + Act）工作流是这样的：

Thought: 我要回答这个问题，需要查股票实时价格Action: call get_stock_price("AAPL")Observation: 188.34Thought: 已经拿到价格，可以回答了Final Answer: 苹果当前股价188.34美元

面试陷阱：很多人会混淆Function Calling和Agent。Function Calling只是Agent的一项能力——让LLM输出结构化的工具调用。Agent是更上层的概念，包含"判断是否需要调用→调用后是否继续→何时结束"的整个循环。

1.2 Agent的三大核心能力

能力	说明	面试常考点
Reasoning	决定下一步做什么	ReAct模式的具体流程
Tool Use	调用外部API/函数/数据库	如何设计工具描述让LLM正确调用
Memory	短期（对话历史）+ 长期（向量库/知识库）	RAG的实现原理和召回策略

1.3 有状态和 vs 无状态

类型	代表	适用场景
无状态（Stateless）	Workflow	数据处理、批量任务、定时任务
有状态（Stateful）	Chatflow	客服、问答助手、多轮Agent对话

"Workflow每天定时跑早报推送到飞书，Chatflow是用户在chat框输入'我要7天减肥食谱'后多轮对话收集需求。"

二、Coze vs Dify：选型不是技术问题，是场景问题

2.1 平台核心差异

维度	Coze	Dify
开源	闭源SaaS	Apache 2.0开源
部署	云端	私有化/Docker一键部署
数据安全	数据上字节云	数据完全自有
模型	豆包/通义/DeepSeek	全开放，支持OpenAI/Anthropic/Ollama
适合	个人/小团队/快速demo	企业级/数据合规敏感场景

面试常问：你们公司选型Coze还是Dify？

标准答法：

"数据敏感/要私有化 → Dify"
"快速做个抖音Bot → Coze"
"预算充足买HiAgent（Coze企业版，3年200万+）→ 选Coze"

2.2 Dify私有化部署

# 标准流程git clone https://github.com/langgenius/dify.gitcd dify/dockercp .env.example .envdocker compose up -d# http://localhost 访问控制台

面试加分点：知道默认向量库是Weaviate，生产环境可切换成：

Milvus：超大规模（亿级向量）、HNSW索引
Qdrant：性能优秀、Rust实现、API简洁
PGVector：已经用PostgreSQL的最简单

2.3 Coze知识库工作原理

RAG流程四步走：

文档解析：PDF/Word/Markdown/Excel自动提取文本和表格
分块（Chunking）：

默认自动分块：800 token，重叠100（10%）
为什么要重叠？防止边界信息丢失
表格/代码要单独分块，否则会被截断

向量化：默认豆包Embedding，存到内置向量库
检索：用户提问→Query Embedding→向量相似度Top-K→可选Rerank→拼进prompt

三、AI编程工具：你用过多少个？能讲清楚区别吗

3.1 工具定位对比

工具	定位	付费情况	亮点
Cursor	VS Code Fork	$20+/月	模型最丰富，Composer多文件编辑
Claude Code	Anthropic官方CLI	付费/自定义模型	SWE-bench 80.8%行业第一
Codex	OpenAI官方CLI	付费	与ChatGPT生态整合
GitHub Copilot	GitHub插件	$10/月	全球用户最广，企业合规首选
Trae	字节出品	国内版免费	中文深度适配，SOLO自主开发
Lingma(通义灵码)	阿里出品	个人版免费	基于通义大模型，生成单测好用

面试常见问题：你们团队用什么AI编程工具？

记住一个原则：外企/微软生态 → Copilot；追求最强能力 → Claude Code/Cursor；国内/免费 → Trae/Lingma。

3.2 Cursor四种模式

模式	用途	什么时候用
Agent	完整自主智能体	日常开发主力
Plan	先规划后执行	大型重构、高风险修改
Debug	专治疗难杂症	解决报错、runtime异常
Ask	纯咨询不伤代码	解释代码、学习技术、讨论架构

面试加分点：Plan模式真的好用。AI先输出plan.md，你审阅确认后再执行，避免"看着看着新闻就被带走"的问题。

3.3 Cursor Rules

.cursor/rules/*.mdc文件是项目级别的规范约束，长这样：

---description:Python编码规范globs: ["**/*.py"]alwaysApply:true----所有函数必须有typehint和docstring（Google风格）-优先用pathlib而不是os.path-数据处理优先用polars而不是pandas

关键：全局Rules和项目Rules冲突时，项目Rules优先。

Harness本质就是给AI写代码的约束条件，面试时说出"我用Rules做了Harness来约束AI的代码风格"，已经超过80%的候选人。

四、SDD + TDD：AI时代的方法论升级

4.1 SDD（Specification-Driven Development）

规范驱动开发的流程：

需求 → 写规范文档(Spec) → AI基于Spec生成代码 → 验证代码符合Spec

Spec必须包含：

接口定义：函数签名、输入输出、字段类型
业务规则：什么情况返回什么
错误处理：出错怎么办
示例：样本输入 + 期望输出

为什么AI时代SDD更重要？因为AI写代码快，但理解需求容易偏。清晰的Spec=给AI的靶子。

4.2 TDD（Test-Driven Development）

经典红-绿-重构循环：

Red（红）：写一个新测试，运行→失败（因为实现还没写）
Green（绿）：写最少够用的代码让测试通过
Refactor（重构）：保持测试绿色，重构代码（重命名、抽函数、消除重复）

AI时代的TDD升级版：

让AI根据Spec先写测试（Red）
让AI写实现让测试通过（Green）
让AI重构+人审（Refactor）

五、Text-to-SQL与ChatBI：数据智能的核心战场

5.1 Text-to-SQL的难点

LLM之前为什么做不好？

Schema理解差：不知道"销售额"映射到amount还是revenue
复杂JOIN搞不定：多表关联无法稳定生成
泛化差：新数据库基本无效
没有反馈循环：写错了不能自我纠错

LLM出现后准确率从60%跃升到90%+，但仍有难点：

Schema太大塞不进Context：企业数据库几百张表上千字段
业务术语 ≠ 字段名：GMV vs gross_merchandise_value
歧义问题："最近一周"是自然周还是7天？销售额含税吗？
复杂JOIN/嵌套：5表JOIN+子查询+窗口函数容易出错

5.2 RAG做Schema Linking

核心解决方案：

离线建索引：

对每张表生成自然语言描述（表名+字段名+注释+示例+业务含义）
用Embedding模型向量化
存到向量库

在线检索：

用户问题 → Query Embedding → 向量库Top-10~20
Reranker精排到Top-5
召回的schema拼到prompt里

效果对比：

全Schema塞prompt：30+K token，准确率70%
RAG召回Top-5表：3K token，准确率88%
token成本下降90%，准确率反而提升

面试加分点：还可以做业务词典补强，把"GMV/DAU/留存率"的指标定义也放进RAG，召回时一起返回。

5.3 Few-shot对准确率的影响

策略	准确率
0-shot（无示例）	65%
静态5-shot（固定示例）	78%
动态Few-shot（按问题相似度检索）	89%

动态Few-shot怎么做？维护历史【问题+SQL】标注集，做Embedding存向量库，新问题进来检索Top-5相似历史问题。

5.4 ChatBI vs 传统BI

维度	传统BI	ChatBI
交互	拖拽/SQL	自然语言
用户	数据分析师	业务人员（不懂SQL）
主动性	被动（用户搭看板）	主动（系统总结洞察）
成本	重型（Tableau/FineBI）	轻量（聊天界面+LLM）

价值：业务人员自助分析不再排队等数据团队；数据团队从做报表解放，转向做指标/数据洞察。

面试常问的坑：

LLM自己算数容易错 → 所有数值用Polars/Pandas算好再喂给LLM
SQL注入风险 → 参数化查询+白名单+只允许SELECT
Matplotlib中文乱码 → 必须设置font.sans-serif=["SimHei", "Microsoft YaHei"]

六、AI Agent岗面试：三页纸只说重点

6.1 单Agent vs 多Agent

这是最高频的面试题，90%的人答错。

常见错误回答："多Agent更复杂，能处理更复杂的任务。"

正确理解：

单Agent+SubAgent：复杂任务做Plan→拆解→派活→汇总，有主控能决策
多Agent协作：没有主控方，容易发散

实际项目中，企业级主流选择是单Agent+最多2-3个SubAgent，AutoGen/CrewAI的多Agent更多是POC概念验证。

面试金句："单个Agent像项目经理，有主控、能决策。多Agent像开会讨论，容易发散。"

6.2 简历策略

HR筛简历平均6秒一张。三页纸？她只看第一页的右上角。

正确做法：

先写三页完整版（所有项目、技术细节、业务场景）
让AI压缩到一页
保留两类关键词：

技术关键词：LangChain、RAG、Text-to-SQL、Dify、Coze...
场景关键词：金融、客服、舆情分析、ChatBI...

面试准备：准备扩展版口述内容。简历上写"舆情监测Agent"，要能讲清楚多工作流嵌套、变量复用、批量处理。

七、三个项目简历详解（可直接参考）

7.1 项目一：市场舆情监测Agent

项目描述：金融行业市场舆情自动化分析Agent，每日由用户输入日期触发，自动采集新闻→情感分析→生成PDF日报。原人工汇编4小时缩短到分钟级。

技术栈：多工作流嵌套、批量处理、新浪财经/AppStore数据采集、词云分析、情感分析

核心亮点：

多工作流分层架构：Securities → AppStoreEstimate → GenerateDailyReports三层协作
P化处理：让AI并行处理舆情数据，效率高
变量复用：工作流间数据通过全局变量传递
可视化资产：财经热点词云、好评/差评词云

面试能说的点：领导问你"P处理是什么"，答"批量处理，一次任务对一批数据逐项调用LLM Agent，比如1000份简历批量打分"

7.2 项目二：私有化智能客服ChatFlow

项目描述：基于Dify私有化部署的多轮智能客服，对接企业知识库自动回答售前售后问题，支持多轮对话上下文记忆、答案引用归属。

技术栈：Docker Compose部署、ChatFlow对话编排、RAG知识库、Reranker精排

核心亮点：

私有化部署架构：dify-api/worker/web/postgres/redis/向量库/nginx全套
模型层对接vLLM推理服务：数据不出域
ChatFlow五段式编排：用户提问→意图识别→知识库检索→LLM回答→引用归属/兜底转人工
幻觉控制：System prompt强制约束"回答必须基于检索片段，标注[1][2]引用编号，找不到答案时明确说不知道"

面试能说的点：知道Workflow和Chatflow区别——Workflow无状态适合批量任务，Chatflow有状态适合客服对话。

7.3 项目三：ChatBI金融数据智能问答助手

项目描述：面向证券行业的ChatBI助手，覆盖 A 股主流上市企业。业务用户用自然语言提问，系统自动完成数据采集→SQL查询→指标计算→自然语言点评→图表可视化。

技术栈：Tushare、Pandas/Polars、LangChain、自定义ExcSQLTool、DashScope/Claude、Matplotlib、Gradio

核心亮点：

意图路由（Intent Router）：按问题类型分发到不同处理链路
LangChain ExcSQLTool：封装"自然语言→SQL→数据→可视化"为单个Agent工具
对比分析能力：多标的并行采集，归一化后绘制累计涨跌幅曲线
数值正确性：所有计算一律Polars/Pandas完成，再喂给LLM总结
合规要求：输出强制附带"以上为数据分析，非投资建议"+数据来源+时间戳

面试能说的点：Schema Linking解决几百张表塞不进Context的问题，RAG召回Top-5表比全塞进去token降90%准确率还更高。

八、AI提效数据（面试时可引用）

生产力提升：

Cursor/AI编程工具接入后，人均生产力提升30-55%
前端/数据/脚本类工作收益 > 后端业务
Bug密度无显著下降（写得快但也容易写错），所以强测试+AI Review必不可少

技术数据：

Few-shot提升Text-to-SQL准确率：65% → 89%
Schema Linking后：token成本降90%，准确率88%
BGE-Reranker能让hit@1提升15%+
SWE-bench：Claude Code 80.8%行业第一

九、知识点总结

以下是AI Agent 相关的核心知识点索引，建议通读全文后带着这个清单自查：

Agent基础

能复述ReAct范式的完整流程
能区分Function Calling和Agent的本质区别
知道Agent三大能力是什么

Coze平台

知道7大核心组件（Bot/插件/知识库/工作流/Card/数据库/触发器）
能解释知识库分块为什么要有10%重叠
知道表格和代码要单独分块不能截断
知道开启Rerank能提升hit@1达15%+

Dify技术细节

知道Workflow和Chatflow的5个区别维度
知道默认向量库是Weaviate
能说出Milvus/Qdrant/PGVector各自适用场景
知道MCP协议的3个核心价值（统一接口/解耦/生态）

多Agent协作

能列举4种协作模式（Pipeline/Manager-Worker/Debate/Group Chat）
能说出AutoGen/CrewAI/LangGraph三个框架
知道批量处理Agent的4个应用场景

AI编程工具

能区分Cursor/Claude Code/Copilot/Trae/Lingma的定位差异
知道Cursor四种模式分别什么时候用
能解释为什么Rules本质上是Harness

SDD/TDD

知道Spec应该包含的4个部分内容
能复述红-绿-重构的完整流程
知道AI时代TDD的三步升级

Text-to-SQL

知道LLM之前做不好的4个原因
知道LLM出现后仍有的5个难点
能解释Schema Linking如何解决Context过大的问题
知道动态Few-shot比静态准确率更高（89% vs 78%）

ChatBI

能和传统BI列出5个维度对比
知道ChatBI的4个常见坑（算数错误/SQL注入/数据时效/实体识别）
知道MATLAB为什么要设置中文字体

部署相关

知道vLLM/SGLang/TensorRT-LLM/Ollama各自的适用场景
知道RTX 4090有多少个CUDA核心（16384个）
知道每1张GPU应该配多少CPU和DRAM（16-32核+512GB-1TB）

CI/CD与AI

知道AI能在PR自动Review/测试失败诊断/Flaky Test隔离/Release Notes生成/Security Scan等环节做什么
知道AI在CI/CD里的最大风险（过度信任/token成本/隐私）

遗留代码重构

知道Strangler Fig模式是什么
知道characterization tests（行为快照测试）有什么用
知道怎么用AI做AI代码重构（文档化→补测试→搭新模块→分函数）

十、写在最后

聊了这么多，核心其实就一句话：

AI Agent岗的面试，不再是考你代码写得有多快，而是考你能不能把技术和业务串起来。

你懂RAG，但你知道Schema太大塞不进Context怎么办吗？（RAG做Schema Linking，token成本降90%）

你懂Text-to-SQL，但你知道GMV和gross_merchandise_value怎么映射吗？（维护业务词典做指标对齐）

你能让AI一天写1000行代码，但你能review出哪50行是错的吗？

代码可以AI写，业务得你自己懂。需求可以AI理解，方向得你自己把。

这才是面试官真正想考察的东西。