AI 求职面试实战(三):机器学习面试题精讲

AI 求职面试实战（三）：机器学习面试题精讲

系列导读：本文是「AI 求职面试实战」系列第3期。前两期我们讲了 AI 岗位全景和算法题，本期正式进入 ML 核心: : 面试官最常问的机器学习理论题。

本期内容：LR/SVM/树模型/XGBoost 高频考点 + 手推公式 + 面试官追问拆解 + 场景回答模板。

一、机器学习面试的"三道门槛"

AI 岗机器学习面试，通常有三道门槛：

第一道：基础概念（70% 的人能过）

过拟合与欠拟合、偏差方差权衡、正则化、交叉验证: : 这些必须张口就来。

第二道：模型推导（40% 的人能过）

手推 LR 的梯度更新、SVM 的对偶问题、XGBoost 的目标函数泰勒展开: : 这是分水岭。

第三道：场景决策（20% 的人能过）

面试官给一个具体业务场景，你需要快速选择模型、设计特征、评估方案: : 这是决定 offer 级别的关键。

二、基础概念篇（必考）

2.1 过拟合与欠拟合

面试官问：什么是过拟合？如何解决？

✅ 标准回答：

定义：过拟合指模型在训练集上表现很好，但在测试集上表现差，即泛化能力差。本质是模型学到了训练数据中的噪声而非真实规律。

原因： - 模型过于复杂（层数太多、参数太多） - 训练数据不足 - 数据中存在噪声

解决方法（按常用程度排序）： 1. 增加数据量（Data Augmentation）：最根本的解法 2. 正则化（L1/L2 Regularization）：限制参数大小 3. Dropout：随机丢弃神经元，相当于集成学习 4. 早停（Early Stopping）：在验证集不再提升时停止训练 5. 简化模型：减少层数、减少特征 6. 交叉验证：更稳健的评估方式

追问变体：

Q：欠拟合怎么解决？ A：方向相反: : 增加模型复杂度、增加特征、减少正则化、训练更久。

AI 岗延伸：

Q：LLM 会不会过拟合？ A：会。大模型通常在预训练阶段不会过拟合（海量数据），但在 SFT 阶段如果指令数据量少且重复训练多轮，会出现记忆化（memorization）现象: : 模型记住了特定指令的特定回复，失去了泛化能力。

2.2 偏差与方差权衡

面试官问：解释 Bias-Variance Tradeoff。

✅ 标准回答（配上手绘图更好）：

偏差（Bias）：模型预测值与真实值之间的差异。高偏差 → 欠拟合。 方差（Variance）：模型对不同训练集的敏感程度。高方差 → 过拟合。

权衡关系：总误差 = Bias² + Variance + Irreducible Error

随着模型复杂度增加： - Bias 下降（模型更灵活） - Variance 上升（对数据更敏感）

最佳模型复杂度在总误差最小的点。

追问：

Q：Bagging 和 Boosting 分别影响偏差还是方差？ A： - Bagging（如 Random Forest）：主要降低方差。通过 Bootstrap 采样训练多个模型取平均，方差降低到原来的 1/n（弱相关时）。 - Boosting（如 XGBoost）：主要降低偏差。逐步拟合残差，减少整体偏差。但 Boosting 也可能通过控制学习率间接降低方差。

2.3 生成模型 vs 判别模型

面试官问：解释生成模型和判别模型的区别，各举几个例子。

✅ 标准回答：

判别模型（Discriminative Model）： - 直接学习条件概率 P(Y|X)，即给定输入 X 预测标签 Y - 关心的是决策边界 - 代表：LR、SVM、CRF、神经网络 - 优点：分类边界更清晰，准确率通常更高

生成模型（Generative Model）： - 学习联合概率 P(X, Y)，即同时建模数据分布和标签 - 可以生成新的数据样本 - 代表：Naive Bayes、HMM、GMM、VAE、扩散模型 - 优点：能处理缺失数据、可以生成新样本、对小样本更鲁棒

追问：

Q：为什么生成模型在小样本情况下往往比判别模型好？ A：生成模型对数据分布有更强的先验假设（如 Naive Bayes 假设特征独立），在小样本下这些先验起到了正则化的作用。判别模型在小样本下容易过拟合，因为它在没有足够数据时无法准确学习决策边界。

2.4 损失函数与评价指标

面试官问：分类问题最常用的损失函数是什么？为什么用它？

✅ 回答：

交叉熵损失（Cross-Entropy Loss）：

> L = -[y log(ŷ) + (1-y) log(1-ŷ)]
>

为什么要用交叉熵而不是 MSE？

梯度性质：交叉熵 + Sigmoid 的梯度是 ŷ - y，与 Sigmoid 的梯度无关，即使 Sigmoid 饱和也不会梯度消失。而 MSE + Sigmoid 会出现梯度饱和问题。
概率解释：交叉熵对应极大似然估计，有明确的概率意义。
凸性：对 LR 来说，交叉熵损失是凸函数，容易优化到全局最优。MSE 对 LR 是非凸的。

追问：

Q：在不平衡分类问题中，用什么评价指标更好？ A：不用 accuracy，用： - Precision/Recall/F1：关注少数类 - AUC-ROC：不受阈值影响，综合评估排序能力 - PR Curve：正负样本极不平衡时，PR 曲线比 ROC 更敏感 - Log Loss：关注预测概率的校准程度

2.5 正则化

面试官问：L1 和 L2 正则化的区别？为什么 L1 产生稀疏解？

✅ 回答：

L1 正则化（Lasso）：损失 + λ|w| → 产生稀疏解（特征选择） L2 正则化（Ridge）：损失 + λw² → 参数趋近于 0 但不会为 0

几何解释： - L1 的约束边界是菱形，与误差等高线相交于顶点（坐标轴），所以产生稀疏解 - L2 的约束边界是圆形，相交于某个点，各维度都不为零

贝叶斯角度的解释（加分项）： - L1 正则化等价于参数 w 服从 Laplace 先验 - L2 正则化等价于参数 w 服从 Gaussian 先验 - Laplace 分布在 0 处的概率密度更大

追问：

Q：什么时候用 L1，什么时候用 L2？ A： - 特征维度高（>样本数）、需要特征选择 → L1 - 特征相关性高、不需要特征选择 → L2 - 通常先用 L2（效果好），如果发现特征冗余再换 Elastic Net（L1+L2）

三、经典模型篇（推导必考）

3.1 逻辑回归（Logistic Regression）

这是 ML 面试最高频的手推题，没有之一。

面试官问：手推逻辑回归。

✅ 完整推导过程：

Step 1：模型定义

逻辑回归假设：

P(y=1|x) = σ(wᵀx + b) = 1 / (1 + e^-(wᵀx + b))

其中 σ(z) 是 Sigmoid 函数。

Step 2：似然函数

对于 N 个样本，似然函数：

L(w) = ∏ P(yᵢ|xᵢ) = ∏ σ(wᵀx)ᵞⁱ · (1 - σ(wᵀx))¹⁻◌ʸⁱ

取对数得到对数似然（等价于最小化交叉熵）：

ℓ(w) = Σ [yᵢ log(σ) + (1-Yᵢ) log(1 - σ)]

Step 3：梯度推导

对单个样本求梯度（链式法则）：

∂ℓ/∂wⱼ = (y - σ) · xⱼ

简洁形式：

∇ℓ = Σ (yᵢ - σ(wᵀxᵢ)) · xᵢ

Step 4：参数更新（梯度上升）

w := w + α · ∇ℓ

注：如果是最小化负对数似然，就是梯度下降：

> w := w - α · (-∇ℓ)
>

追问1：

Q：为什么 LR 不用 MSE 作为损失函数？ A：MSE 对 Sigmoid 是非凸函数，有多个局部最优。交叉熵损失是凸函数（对 LR 而言），梯度下降可以收敛到全局最优。

追问2：

Q：LR 的特征为什么要做归一化？ A：因为梯度 ∂ℓ/∂wⱼ = (y - σ) · xⱼ，梯度大小和特征值 xⱼ 成正比。如果某个特征数值很大（如年龄 0-100 vs 收入 0-1000000），梯度更新会不稳定，需要更小的学习率。

追问3：

Q：LR 能否处理非线性问题？ A： - 原始 LR 是线性分类器（决策边界 wᵀx + b = 0 是超平面） - 通过特征交叉（如 x₁·x₂）、多项式特征（如 x₁²）、核技巧可以处理非线性 - 但特征交叉需要人工设计，这是 DNN 的优势

3.2 SVM

面试官问：解释 SVM 的核心思想。

✅ 回答：

核心思想：在特征空间中找到一个超平面，使得两类样本之间的间隔（margin）最大化。

硬间隔 SVM（线性可分）：

> min ½||w||²
> s.t. yᵢ(wᵀxᵢ + b) ≥ 1, ∀i
>

最大化间隔等价于最小化 ||w||²。

面试官问：手推 SVM 的对偶形式。

✅ 完整推导：

Step 1：构造拉格朗日函数

L(w, b, α) = ½||w||² - Σ αᵢ[yᵢ(wᵀxᵢ + b) - 1]

其中 αᵢ ≥ 0 是拉格朗日乘子。

Step 2：对 w 和 b 求偏导

∂L/∂w = w - Σ αᵢyᵢxᵢ = 0 → w = Σ αᵢyᵢxᵢ
∂L/∂b = - Σ αᵢyᵢ = 0 → Σ αᵢyᵢ = 0

Step 3：代入得到对偶问题

max Σ αᵢ - ½ Σ Σ αᵢαⱼyᵢyⱼxᵢᵀxⱼ
s.t. αᵢ ≥ 0, Σ αᵢyᵢ = 0

Step 4：KKT 条件与支持向量

αᵢ[yᵢ(wᵀxᵢ + b) - 1] = 0

当 αᵢ > 0 时，yᵢ(wᵀxᵢ + b) = 1，即 xᵢ 在间隔边界上: : 这些就是支持向量
其他样本 αᵢ = 0，对模型没有贡献

追问1：

Q：软间隔 SVM 怎么处理线性不可分？ A：引入松弛变量 ξᵢ 和惩罚参数 C：

> min ½||w||² + C Σ ξᵢ
> s.t. yᵢ(wᵀxᵢ + b) ≥ 1 - ξᵢ, ξᵢ ≥ 0
>

C 控制对分类错误的容忍程度：C 越大 → 惩罚越重 → 对噪声更敏感。

追问2：

Q：SVM 的核函数有哪些？怎么选择？ A： - 线性核：K(x, z) = xᵀz → 线性可分时用，效率高 - 多项式核：K(x, z) = (xᵀz + c)ᵈ → 少用 - RBF 核（高斯核）：K(x, z) = exp(-γ||x - z||²) → 最常用，只有一个参数 γ - Sigmoid 核：K(x, z) = tanh(axᵀz + c) → 等价于单层神经网络

经验：线性分类先试线性核，非线性直接上 RBF。γ 控制高斯核的影响范围，γ 太大 → 过拟合，γ 太小 → 欠拟合。

3.3 决策树与集成学习

面试官问：决策树的分裂指标有哪些？各自的特点？

✅ 回答：

信息增益（ID3 算法）：

Gain(D, A) = H(D) - H(D|A)

倾向于选择取值多的特征（如 ID 列）

信息增益率（C4.5 算法）：

GainRatio(D, A) = Gain(D, A) / H_A(D)

对 ID 列做惩罚，克服信息增益的偏向

基尼指数（CART 算法）：

Gini(D) = 1 - Σ pₖ²

二分类时：Gini = 2p(1-p)
CART 默认用基尼指数，计算量比信息增益小（没有 log 运算）

追问1：

Q：决策树如何进行剪枝？ A： - 预剪枝：在分裂前判断是否该停止（限制深度、最小样本数、最小增益阈值） - 后剪枝：先生长完全，再从叶子开始回溯剪掉不提升泛化性能的分支 - 预剪枝效率高但可能欠拟合，后剪枝效果好但计算量大

追问2：

Q：Random Forest 和 GBDT 的区别？ A：

	Random Forest	GBDT
训练方式	并行（Bagging）	串行（Boosting）
样本使用	Bootstrap 采样	全部数据，逐轮加权
降低什么	方差	偏差
树的关系	独立	依赖前一棵树
对异常值	鲁棒	敏感
调参	相对简单	复杂（学习率、树数、采样率）

追问3：

Q：为什么要用"随机"的 Random Forest？ A：双重随机性保证树之间的相关性低： 1. 样本随机：Bootstrap 采样 2. 特征随机：每次分裂只考虑随机子集的特征

树之间相关度越低，集成后的方差降低效果越好。

3.4 XGBoost 深度剖析

这是中高级岗位面试的高频题。面试官期待你至少能说出 XGBoost 相对于 GBDT 的三个改进。

面试官问：XGBoost 相比 GBDT 有哪些改进？

✅ 回答（列举出至少 5 点）：

1. 二阶泰勒展开 - GBDT 只用了一阶梯度 - XGBoost 用了二阶梯度（泰勒展开到二阶），收敛更快，精度更高

2. 正则化项 - 目标函数中加入树的复杂度惩罚 γT + ½λ||w||² - T 是叶子节点数，w 是叶子权重 - 有效防止过拟合

3. 列采样（Column Subsampling） - 类似 Random Forest 的特征随机采样 - 进一步降低过拟合风险

4. 缺失值处理 - 自动学习缺失值的最佳分裂方向 - 不需要单独填充缺失值

5. 加权分位数 Sketch - 高效找到候选分裂点 - 适用于大规模数据

6. 缓存感知访问 - 优化内存访问模式，充分利用 CPU 缓存 - 加速训练 2-5 倍

进阶追问：

Q：XGBoost 的目标函数推导过程。 A：

第 t 轮的目标函数：

> Obj(t) = Σ ℓ(yᵢ, ŷᵢ(t-1) + fₜ(xᵢ)) + Ω(fₜ) + const
>

对 ℓ 做二阶泰勒展开：

> Obj(t) ≈ Σ [gᵢ fₜ(xᵢ) + ½ hᵢ fₜ²(xᵢ)] + Ω(fₜ)
>

其中 gᵢ = ∂ℓ/∂ŷ(t-1)（一阶梯度），hᵢ = ∂²ℓ/∂ŷ(t-1)²（二阶梯度）

展开正则项 Ω(fₜ) = γT + ½λ Σ wⱼ²，化简后得到每个叶子节点的最优权重：

> wⱼ* = -Gⱼ / (Hⱼ + λ)
>

对应的最优目标值：

> Obj* = -½ Σ Gⱼ²/(Hⱼ + λ) + γT
>

追问：

Q：LightGBM 相比 XGBoost 又改进了什么？ A： 1. GOSS（梯度单边采样）：保留大梯度样本，随机采样小梯度样本 2. EFB（互斥特征捆绑）：将互斥特征（很少同时非零）捆绑，降低维度 3. 基于直方图的决策树：将连续特征离散化为 k 个桶，加速分裂点搜索 4. 叶子节点优先生长：XGBoost 是层次生长（level-wise），LightGBM 是叶子节点优先（leaf-wise），收敛更快但容易过拟合

3.5 K-Means 与聚类

面试官问：K-Means 的缺点和改进方法？

✅ 回答：

缺点： 1. 需要指定 K 值：肘部法则（Elbow Method）+ 轮廓系数（Silhouette Score）辅助选择 2. 对初始点敏感：K-Means++ 改进初始化（让初始点尽量分散） 3. 只能发现球形簇：DBSCAN 解决（基于密度） 4. 对异常值敏感：K-Medoids 使用真正的中位数点而不是均值 5. 距离度量固定为欧氏距离：可以用余弦相似度等其他度量

3.6 降维算法

面试官问：PCA 推导过程。

✅ 高难度推导：

核心思想：找到方差最大的投影方向。

Step 1：数据中心化

> X' = X - μ
>

Step 2：计算协方差矩阵

> Σ = 1/n · X'ᵀX'
>

Step 3：特征值分解

> Σv = λv
>

Step 4：选择前 k 个最大特征值对应的特征向量

> 方差解释率 = Σλ₁..ₖ / Σλ₁..ₚ
>

追问：

Q：PCA 和 t-SNE / UMAP 的区别？ A： - PCA：线性方法，保留全局方差结构，计算快，适合预处理 - t-SNE：非线性，保留局部邻域结构，计算慢，适合可视化 - UMAP：非线性，保留局部+全局结构，比 t-SNE 快，适合可视化

选择：数据预处理用 PCA，可视化用 UMAP（大数据）或 t-SNE（小数据）。

四、特征工程与数据预处理

4.1 特征工程三板斧

面试官问：你一般怎么做特征工程？

✅ 回答：

第一板斧：特征构建 - 统计特征：均值、方差、最大最小、分位数、偏度峰度 - 交叉特征：x₁·x₂、x₁/x₂、x₁⊕x₂（类别型） - 时间特征：星期几、是否是节假日、时间窗口统计 - 序列特征：行为序列的 N-gram、马尔可夫转移概率

第二板斧：特征编码 - 类别型：One-Hot（基数小）、Label Encoding（有序）、Target Encoding（用目标均值编码） - 文本型：TF-IDF、Word2Vec、BERT Embedding - 数值型：分桶（等宽/等频/对数变换）

第三板斧：特征选择 - 过滤法：方差阈值、相关系数、卡方检验、互信息 - 包装法：RFE（递归特征消除）、前向/后向搜索 - 嵌入法：L1 正则化（自动特征选择）、树模型特征重要性

4.2 处理缺失数据

面试官问：你是怎么处理缺失值的？

✅ 回答：

删除：缺失比例 > 70% 的列直接删除；MCAR（完全随机缺失）时删除少量行

填充： - 数值型：均值/中位数/众数填充（简单），KNN 填充（效果好） - 类别型：众数填充，或新增一个"缺失"类别 - 时间序列：前向填充（ffill）、插值（线性/样条）

模型预测：用其他特征预测缺失值（MICE 多重插补）

高级方法：LightGBM/XGBoost 原生支持缺失值: : 有时不填充效果反而更好

4.3 数据不平衡处理

面试官问：正负样本比例 1:100，你怎么做？

✅ 回答：

数据层面： - 过采样：SMOTE（生成合成样本，而不是简单复制） - 欠采样：随机欠采样（丢失信息太多）、NearMiss、Tomek Links - 混合：SMOTE + Tomek Links

算法层面： - 调整类别权重：class_weight='balanced'（scikit-learn） - 使用 AUC/PR 评估：不用 accuracy - 集成方法：EasyEnsemble（多次欠采样训练多个模型取平均）

损失函数层面： - Focal Loss：降低易分类样本的权重 - 加权的交叉熵损失

追问：

Q：SMOTE 的原理是什么？有什么缺陷？ A：原理：对少数类样本，在 k 个最近邻之间插值生成新样本。

> x_new = x + λ · (x_neighbor - x)
>

缺陷： - 在特征边界处可能生成重叠样本 - 对高维数据效果差（维度灾难） - 不能处理样本在特征空间中聚团的情况

五、模型评估与选择

5.1 交叉验证

面试官问：什么时候用 K-Fold，什么时候用 Leave-One-Out？

✅ 回答：

方法	适用场景	优缺点
K-Fold (K=5/10)	大多数情况	方差-偏差平衡好
Stratified K-Fold	分类问题	保持每折类别比例
Leave-One-Out	小数据集 (<100)	计算量大，偏差低但方差高
Time Series Split	时间序列	按时间顺序，防止数据泄露
Group K-Fold	同组样本（同一用户）	保证同组不跨折

5.2 AUC 的深度理解

面试官问：AUC 是什么？有什么特点？

✅ 回答：

AUC = Area Under the ROC Curve，即 ROC 曲线下的面积。

统计意义：随机选一个正样本和随机选一个负样本，正样本排在负样本前面的概率。

特点： 1. 阈值无关：不依赖具体分类阈值 2. 对不平衡不敏感：正负比例变化不影响 AUC 3. 值域 [0.5, 1]：0.5 是随机猜测，1 是完美分类

局限： - 极不平衡时（如 1:10000），AUC 可能虚高（因为负样本太多，容易排序好） - 此时建议看 PR 曲线的 AP（Average Precision）

追问：

Q：AUC = 0.7 意味着什么？ A：随机选择一个正样本和一个负样本，正样本的预测分数高于负样本的概率是 70%。等价于 Wilcoxon-Mann-Whitney 检验的统计量。

5.3 AB 测试

面试官问：线上 ML 模型上线前要做 AB 测试，你怎么设计？

✅ 回答：

1. 流量分配 - 50% 控制组（Base Model），50% 实验组（New Model） - 或 99% vs 1%（风险很小时） - 按用户 ID hash 分桶，保证用户一致性

2. 核心指标 - 主指标：CTR、CVR、GMV、留存率 - 辅助指标：延迟、覆盖率、多样性 - 护栏指标：没有负面影响（如用户体验评分）

3. 统计显著性 - T 检验 / Z 检验：p-value < 0.05 - 最小样本量计算：根据预期提升和基线指标方差 - 运行时间：至少 1-2 周（覆盖工作日和周末）

4. 常见陷阱 - Novelty Effect：用户对新模型的新鲜感导致的短期提升 - 网络效应：社交产品的实验组和对照组互相影响 - 多重比较：同时看多个指标导致假阳性

六、梯度下降全家桶

面试官问：解释不同梯度下降算法的区别。

✅ 回答：

算法	更新方式	特点	适用场景
BGD	全部样本做一次更新	准确但慢，每次迭代 O(n)	小数据集
SGD	每个样本做一次更新	快但震荡，收敛不稳定	大数据集
Mini-Batch	每个 batch 做一次更新	折中方案，最常用	绝大多数情况
Momentum	考虑历史梯度方向	加速收敛，减轻震荡	高曲率区域
Adam	自适应学习率 + Momentum	最常用的优化器	NLP/CV 默认选择

追问：

Q：Adam 相比 SGD 有什么优缺点？ A：优点： - 自适应学习率，不需要精细调参 - 对稀疏梯度效果好 - 收敛快

缺点： - 可能收敛到尖锐极小值（Sharp Minima），泛化性不如 SGD - 有些论文发现 SGD + 好的学习率策略最终精度更高

经验：Transformer 训练用 Adam，CNN 用 SGD+Momentum，大模型微调用 AdamW。

七、场景题实战（面试常见）

场景1：电商 CTR 预估

问：你负责电商推荐系统的 CTR 预估模型，怎么做？

答： 问题定义：二分类，预估用户点击商品的概率。

特征设计： - 用户特征：性别、年龄、历史点击类目、近 7 天购买品牌 - 商品特征：价格、类目、标题 Embedding、近 7 天 CTR - 交叉特征：用户类目偏好 × 商品类目、价格区间匹配 - 上下文特征：时间（工作日/周末）、设备、位置

模型选型： - Baseline：LR（简单可解释） - 进阶：DeepFM / DIN / DIEN（适合大规模推荐） - 最新：MMOE（多目标优化）

在线优化： - 实时特征 + 近实时更新模型 - 多级级联：召回 → 粗排 → 精排 → 重排

场景2：欺诈检测

问：信用卡欺诈检测，正负比 1:10000，怎么做？

答： 问题难点：极度不平衡 + 需要低延迟 + 错误分类成本高。

方案： 1. 采样：SMOTE + 欠采样（混合采样） 2. 模型：XGBoost + Isolation Forest（异常检测） 3. 评估：Precision@K 和 Recall@K，关注 Top 1% 的召回 4. 成本敏感：自定义损失函数，FN 的成本是 FP 的 100 倍 5. 实时推理：模型 ONNX 量化，<10ms 推理

场景3：用户流失预测

问：预测哪些用户即将流失，你怎么设计？

答： 特征工程： - 行为衰减：近 7 天登录次数 / 近 30 天登录次数（比值下降说明流失风险高） - 沉默天数：距离上次登录的天数 - 交互趋势：发帖/评论/点赞量是否持续下降

模型： - 时序模型：LSTM/Transformer + 用户行为序列 - 生存分析：Cox 比例风险模型

行动策略： - 流失概率 > 0.7：发优惠券 + 个性化推荐 - 流失概率 0.4-0.7：Push 通知 - 流失概率 < 0.4：不打扰

八、面试官追问技巧

8.1 "不知道答案"怎么办

❌ "不知道。"

✅ "这个问题我确实不太确定。不过如果是我的话，我会从两个角度来思考：第一...（从原理推导）；第二...（类比已知的类似问题）。我比较熟悉的场景是 XXX，和这个问题的区别在于..."

8.2 "被问到了知识盲区"怎么应对

✅ "您提的这个方向很有趣，我之前没有深入关注过。以我目前的理解，它可能和 XXX 有相通之处，因为 XXX。面试结束后我会好好研究一下。另外，我熟悉的是 XXX，您希望我展开讲讲这块吗？"

关键：把"我不会"转化为"我不会这个但我会那个"，展示学习能力和思维框架。

8.3 如何展示深度

面试官问完模型 A 的原理后，你可以主动延伸：

"刚才说的是标准做法，在实际业务中我们还遇到了一个问题: : XXX。我们的解决方法是 XXX，效果提升了 XX%。这个过程中我学到的一点是 XXX。"

效果：面试官会认为你有实战经验，不仅是背理论。

九、本期小结与下期预告

核心要点

基础概念必考：过拟合、偏差方差、生成判别、损失函数、正则化: : 这 5 个问题几乎每面必问
手推必考：LR (100%) > SVM (70%) > XGBoost (40%)，研究岗全部要会
特征工程：三板斧框架（构建 → 编码 → 选择）是面试官认可的体系化回答
AB 测试设计：大厂高频场景题，重点考察工程落地能力
场景题套路：问题定义 → 特征设计 → 模型选型 → 评估指标 → 上线策略

下期预告

第4期：深度学习 & LLM 面试题 : Transformer 架构手推、BERT/GPT 对比、RLHF、LoRA、RAG 原理，大模型面试最全考点。

📌 本系列其他文章 - 第1期：AI 岗位全景与简历突围 ✅ - 第2期：Python/数据结构算法高频题 ✅ - 第3期：机器学习面试题精讲 ✅ （本文） - 第4期：深度学习 & LLM 面试题（即将发布） - 第5期：系统设计面试（推荐/搜索/NLP） - 第6期：AI 工程面试：模型部署与优化 - 第7期：ML 算法场景题 & 业务分析 - 第8期：面试全流程实战 & 面经汇总