AI 求职面试实战(三):机器学习面试题精讲
系列导读:本文是「AI 求职面试实战」系列第3期。前两期我们讲了 AI 岗位全景和算法题,本期正式进入 ML 核心: : 面试官最常问的机器学习理论题。
本期内容:LR/SVM/树模型/XGBoost 高频考点 + 手推公式 + 面试官追问拆解 + 场景回答模板。
一、机器学习面试的"三道门槛"
AI 岗机器学习面试,通常有三道门槛:
第一道:基础概念(70% 的人能过)
过拟合与欠拟合、偏差方差权衡、正则化、交叉验证: : 这些必须张口就来。
第二道:模型推导(40% 的人能过)
手推 LR 的梯度更新、SVM 的对偶问题、XGBoost 的目标函数泰勒展开: : 这是分水岭。
第三道:场景决策(20% 的人能过)
面试官给一个具体业务场景,你需要快速选择模型、设计特征、评估方案: : 这是决定 offer 级别的关键。
二、基础概念篇(必考)
2.1 过拟合与欠拟合
面试官问:什么是过拟合?如何解决?
✅ 标准回答:
定义:过拟合指模型在训练集上表现很好,但在测试集上表现差,即泛化能力差。本质是模型学到了训练数据中的噪声而非真实规律。
原因: - 模型过于复杂(层数太多、参数太多) - 训练数据不足 - 数据中存在噪声
解决方法(按常用程度排序): 1. 增加数据量(Data Augmentation):最根本的解法 2. 正则化(L1/L2 Regularization):限制参数大小 3. Dropout:随机丢弃神经元,相当于集成学习 4. 早停(Early Stopping):在验证集不再提升时停止训练 5. 简化模型:减少层数、减少特征 6. 交叉验证:更稳健的评估方式
追问变体:
Q:欠拟合怎么解决? A:方向相反: : 增加模型复杂度、增加特征、减少正则化、训练更久。
AI 岗延伸:
Q:LLM 会不会过拟合? A:会。大模型通常在预训练阶段不会过拟合(海量数据),但在 SFT 阶段如果指令数据量少且重复训练多轮,会出现记忆化(memorization)现象: : 模型记住了特定指令的特定回复,失去了泛化能力。
2.2 偏差与方差权衡
面试官问:解释 Bias-Variance Tradeoff。
✅ 标准回答(配上手绘图更好):
偏差(Bias):模型预测值与真实值之间的差异。高偏差 → 欠拟合。 方差(Variance):模型对不同训练集的敏感程度。高方差 → 过拟合。
权衡关系:总误差 = Bias² + Variance + Irreducible Error
随着模型复杂度增加: - Bias 下降(模型更灵活) - Variance 上升(对数据更敏感)
最佳模型复杂度在总误差最小的点。
追问:
Q:Bagging 和 Boosting 分别影响偏差还是方差? A: - Bagging(如 Random Forest):主要降低方差。通过 Bootstrap 采样训练多个模型取平均,方差降低到原来的 1/n(弱相关时)。 - Boosting(如 XGBoost):主要降低偏差。逐步拟合残差,减少整体偏差。但 Boosting 也可能通过控制学习率间接降低方差。
2.3 生成模型 vs 判别模型
面试官问:解释生成模型和判别模型的区别,各举几个例子。
✅ 标准回答:
判别模型(Discriminative Model): - 直接学习条件概率 P(Y|X),即给定输入 X 预测标签 Y - 关心的是决策边界 - 代表:LR、SVM、CRF、神经网络 - 优点:分类边界更清晰,准确率通常更高
生成模型(Generative Model): - 学习联合概率 P(X, Y),即同时建模数据分布和标签 - 可以生成新的数据样本 - 代表:Naive Bayes、HMM、GMM、VAE、扩散模型 - 优点:能处理缺失数据、可以生成新样本、对小样本更鲁棒
追问:
Q:为什么生成模型在小样本情况下往往比判别模型好? A:生成模型对数据分布有更强的先验假设(如 Naive Bayes 假设特征独立),在小样本下这些先验起到了正则化的作用。判别模型在小样本下容易过拟合,因为它在没有足够数据时无法准确学习决策边界。
2.4 损失函数与评价指标
面试官问:分类问题最常用的损失函数是什么?为什么用它?
✅ 回答:
交叉熵损失(Cross-Entropy Loss):
> L = -[y log(ŷ) + (1-y) log(1-ŷ)]
> 为什么要用交叉熵而不是 MSE?
- 梯度性质:交叉熵 + Sigmoid 的梯度是 ŷ - y,与 Sigmoid 的梯度无关,即使 Sigmoid 饱和也不会梯度消失。而 MSE + Sigmoid 会出现梯度饱和问题。
- 概率解释:交叉熵对应极大似然估计,有明确的概率意义。
- 凸性:对 LR 来说,交叉熵损失是凸函数,容易优化到全局最优。MSE 对 LR 是非凸的。
追问:
Q:在不平衡分类问题中,用什么评价指标更好? A:不用 accuracy,用: - Precision/Recall/F1:关注少数类 - AUC-ROC:不受阈值影响,综合评估排序能力 - PR Curve:正负样本极不平衡时,PR 曲线比 ROC 更敏感 - Log Loss:关注预测概率的校准程度
2.5 正则化
面试官问:L1 和 L2 正则化的区别?为什么 L1 产生稀疏解?
✅ 回答:
L1 正则化(Lasso):损失 + λ|w| → 产生稀疏解(特征选择) L2 正则化(Ridge):损失 + λw² → 参数趋近于 0 但不会为 0
几何解释: - L1 的约束边界是菱形,与误差等高线相交于顶点(坐标轴),所以产生稀疏解 - L2 的约束边界是圆形,相交于某个点,各维度都不为零
贝叶斯角度的解释(加分项): - L1 正则化等价于参数 w 服从 Laplace 先验 - L2 正则化等价于参数 w 服从 Gaussian 先验 - Laplace 分布在 0 处的概率密度更大
追问:
Q:什么时候用 L1,什么时候用 L2? A: - 特征维度高(>样本数)、需要特征选择 → L1 - 特征相关性高、不需要特征选择 → L2 - 通常先用 L2(效果好),如果发现特征冗余再换 Elastic Net(L1+L2)
三、经典模型篇(推导必考)
3.1 逻辑回归(Logistic Regression)
这是 ML 面试最高频的手推题,没有之一。
面试官问:手推逻辑回归。
✅ 完整推导过程:
Step 1:模型定义
逻辑回归假设:
P(y=1|x) = σ(wᵀx + b) = 1 / (1 + e^-(wᵀx + b))其中 σ(z) 是 Sigmoid 函数。
Step 2:似然函数
对于 N 个样本,似然函数:
L(w) = ∏ P(yᵢ|xᵢ) = ∏ σ(wᵀx)ᵞⁱ · (1 - σ(wᵀx))¹⁻◌ʸⁱ取对数得到对数似然(等价于最小化交叉熵):
ℓ(w) = Σ [yᵢ log(σ) + (1-Yᵢ) log(1 - σ)]Step 3:梯度推导
对单个样本求梯度(链式法则):
∂ℓ/∂wⱼ = (y - σ) · xⱼ简洁形式:
∇ℓ = Σ (yᵢ - σ(wᵀxᵢ)) · xᵢStep 4:参数更新(梯度上升)
w := w + α · ∇ℓ注:如果是最小化负对数似然,就是梯度下降:
> w := w - α · (-∇ℓ)
> 追问1:
Q:为什么 LR 不用 MSE 作为损失函数? A:MSE 对 Sigmoid 是非凸函数,有多个局部最优。交叉熵损失是凸函数(对 LR 而言),梯度下降可以收敛到全局最优。
追问2:
Q:LR 的特征为什么要做归一化? A:因为梯度 ∂ℓ/∂wⱼ = (y - σ) · xⱼ,梯度大小和特征值 xⱼ 成正比。如果某个特征数值很大(如年龄 0-100 vs 收入 0-1000000),梯度更新会不稳定,需要更小的学习率。
追问3:
Q:LR 能否处理非线性问题? A: - 原始 LR 是线性分类器(决策边界 wᵀx + b = 0 是超平面) - 通过特征交叉(如 x₁·x₂)、多项式特征(如 x₁²)、核技巧可以处理非线性 - 但特征交叉需要人工设计,这是 DNN 的优势
3.2 SVM
面试官问:解释 SVM 的核心思想。
✅ 回答:
核心思想:在特征空间中找到一个超平面,使得两类样本之间的间隔(margin)最大化。
硬间隔 SVM(线性可分):
> min ½||w||²
> s.t. yᵢ(wᵀxᵢ + b) ≥ 1, ∀i
> 最大化间隔等价于最小化 ||w||²。
面试官问:手推 SVM 的对偶形式。
✅ 完整推导:
Step 1:构造拉格朗日函数
L(w, b, α) = ½||w||² - Σ αᵢ[yᵢ(wᵀxᵢ + b) - 1]其中 αᵢ ≥ 0 是拉格朗日乘子。
Step 2:对 w 和 b 求偏导
∂L/∂w = w - Σ αᵢyᵢxᵢ = 0 → w = Σ αᵢyᵢxᵢ
∂L/∂b = - Σ αᵢyᵢ = 0 → Σ αᵢyᵢ = 0Step 3:代入得到对偶问题
max Σ αᵢ - ½ Σ Σ αᵢαⱼyᵢyⱼxᵢᵀxⱼ
s.t. αᵢ ≥ 0, Σ αᵢyᵢ = 0Step 4:KKT 条件与支持向量
αᵢ[yᵢ(wᵀxᵢ + b) - 1] = 0- 当 αᵢ > 0 时,yᵢ(wᵀxᵢ + b) = 1,即 xᵢ 在间隔边界上: : 这些就是支持向量
- 其他样本 αᵢ = 0,对模型没有贡献
追问1:
Q:软间隔 SVM 怎么处理线性不可分? A:引入松弛变量 ξᵢ 和惩罚参数 C:
> min ½||w||² + C Σ ξᵢ
> s.t. yᵢ(wᵀxᵢ + b) ≥ 1 - ξᵢ, ξᵢ ≥ 0
> C 控制对分类错误的容忍程度:C 越大 → 惩罚越重 → 对噪声更敏感。
追问2:
Q:SVM 的核函数有哪些?怎么选择? A: - 线性核:K(x, z) = xᵀz → 线性可分时用,效率高 - 多项式核:K(x, z) = (xᵀz + c)ᵈ → 少用 - RBF 核(高斯核):K(x, z) = exp(-γ||x - z||²) → 最常用,只有一个参数 γ - Sigmoid 核:K(x, z) = tanh(axᵀz + c) → 等价于单层神经网络
经验:线性分类先试线性核,非线性直接上 RBF。γ 控制高斯核的影响范围,γ 太大 → 过拟合,γ 太小 → 欠拟合。
3.3 决策树与集成学习
面试官问:决策树的分裂指标有哪些?各自的特点?
✅ 回答:
信息增益(ID3 算法):
Gain(D, A) = H(D) - H(D|A)- 倾向于选择取值多的特征(如 ID 列)
信息增益率(C4.5 算法):
GainRatio(D, A) = Gain(D, A) / H_A(D)- 对 ID 列做惩罚,克服信息增益的偏向
基尼指数(CART 算法):
Gini(D) = 1 - Σ pₖ²- 二分类时:Gini = 2p(1-p)
- CART 默认用基尼指数,计算量比信息增益小(没有 log 运算)
追问1:
Q:决策树如何进行剪枝? A: - 预剪枝:在分裂前判断是否该停止(限制深度、最小样本数、最小增益阈值) - 后剪枝:先生长完全,再从叶子开始回溯剪掉不提升泛化性能的分支 - 预剪枝效率高但可能欠拟合,后剪枝效果好但计算量大
追问2:
Q:Random Forest 和 GBDT 的区别? A:
| Random Forest | GBDT | |
|---|---|---|
| 训练方式 | 并行(Bagging) | 串行(Boosting) |
| 样本使用 | Bootstrap 采样 | 全部数据,逐轮加权 |
| 降低什么 | 方差 | 偏差 |
| 树的关系 | 独立 | 依赖前一棵树 |
| 对异常值 | 鲁棒 | 敏感 |
| 调参 | 相对简单 | 复杂(学习率、树数、采样率) |
追问3:
Q:为什么要用"随机"的 Random Forest? A:双重随机性保证树之间的相关性低: 1. 样本随机:Bootstrap 采样 2. 特征随机:每次分裂只考虑随机子集的特征
树之间相关度越低,集成后的方差降低效果越好。
3.4 XGBoost 深度剖析
这是中高级岗位面试的高频题。面试官期待你至少能说出 XGBoost 相对于 GBDT 的三个改进。
面试官问:XGBoost 相比 GBDT 有哪些改进?
✅ 回答(列举出至少 5 点):
1. 二阶泰勒展开 - GBDT 只用了一阶梯度 - XGBoost 用了二阶梯度(泰勒展开到二阶),收敛更快,精度更高
2. 正则化项 - 目标函数中加入树的复杂度惩罚 γT + ½λ||w||² - T 是叶子节点数,w 是叶子权重 - 有效防止过拟合
3. 列采样(Column Subsampling) - 类似 Random Forest 的特征随机采样 - 进一步降低过拟合风险
4. 缺失值处理 - 自动学习缺失值的最佳分裂方向 - 不需要单独填充缺失值
5. 加权分位数 Sketch - 高效找到候选分裂点 - 适用于大规模数据
6. 缓存感知访问 - 优化内存访问模式,充分利用 CPU 缓存 - 加速训练 2-5 倍
进阶追问:
Q:XGBoost 的目标函数推导过程。 A:
第 t 轮的目标函数:
> Obj(t) = Σ ℓ(yᵢ, ŷᵢ(t-1) + fₜ(xᵢ)) + Ω(fₜ) + const
> 对 ℓ 做二阶泰勒展开:
> Obj(t) ≈ Σ [gᵢ fₜ(xᵢ) + ½ hᵢ fₜ²(xᵢ)] + Ω(fₜ)
> 其中 gᵢ = ∂ℓ/∂ŷ(t-1)(一阶梯度),hᵢ = ∂²ℓ/∂ŷ(t-1)²(二阶梯度)
展开正则项 Ω(fₜ) = γT + ½λ Σ wⱼ²,化简后得到每个叶子节点的最优权重:
> wⱼ* = -Gⱼ / (Hⱼ + λ)
> 对应的最优目标值:
> Obj* = -½ Σ Gⱼ²/(Hⱼ + λ) + γT
> 追问:
Q:LightGBM 相比 XGBoost 又改进了什么? A: 1. GOSS(梯度单边采样):保留大梯度样本,随机采样小梯度样本 2. EFB(互斥特征捆绑):将互斥特征(很少同时非零)捆绑,降低维度 3. 基于直方图的决策树:将连续特征离散化为 k 个桶,加速分裂点搜索 4. 叶子节点优先生长:XGBoost 是层次生长(level-wise),LightGBM 是叶子节点优先(leaf-wise),收敛更快但容易过拟合
3.5 K-Means 与聚类
面试官问:K-Means 的缺点和改进方法?
✅ 回答:
缺点: 1. 需要指定 K 值:肘部法则(Elbow Method)+ 轮廓系数(Silhouette Score)辅助选择 2. 对初始点敏感:K-Means++ 改进初始化(让初始点尽量分散) 3. 只能发现球形簇:DBSCAN 解决(基于密度) 4. 对异常值敏感:K-Medoids 使用真正的中位数点而不是均值 5. 距离度量固定为欧氏距离:可以用余弦相似度等其他度量
3.6 降维算法
面试官问:PCA 推导过程。
✅ 高难度推导:
核心思想:找到方差最大的投影方向。
Step 1:数据中心化
> X' = X - μ
> Step 2:计算协方差矩阵
> Σ = 1/n · X'ᵀX'
> Step 3:特征值分解
> Σv = λv
> Step 4:选择前 k 个最大特征值对应的特征向量
> 方差解释率 = Σλ₁..ₖ / Σλ₁..ₚ
> 追问:
Q:PCA 和 t-SNE / UMAP 的区别? A: - PCA:线性方法,保留全局方差结构,计算快,适合预处理 - t-SNE:非线性,保留局部邻域结构,计算慢,适合可视化 - UMAP:非线性,保留局部+全局结构,比 t-SNE 快,适合可视化
选择:数据预处理用 PCA,可视化用 UMAP(大数据)或 t-SNE(小数据)。
四、特征工程与数据预处理
4.1 特征工程三板斧
面试官问:你一般怎么做特征工程?
✅ 回答:
第一板斧:特征构建 - 统计特征:均值、方差、最大最小、分位数、偏度峰度 - 交叉特征:x₁·x₂、x₁/x₂、x₁⊕x₂(类别型) - 时间特征:星期几、是否是节假日、时间窗口统计 - 序列特征:行为序列的 N-gram、马尔可夫转移概率
第二板斧:特征编码 - 类别型:One-Hot(基数小)、Label Encoding(有序)、Target Encoding(用目标均值编码) - 文本型:TF-IDF、Word2Vec、BERT Embedding - 数值型:分桶(等宽/等频/对数变换)
第三板斧:特征选择 - 过滤法:方差阈值、相关系数、卡方检验、互信息 - 包装法:RFE(递归特征消除)、前向/后向搜索 - 嵌入法:L1 正则化(自动特征选择)、树模型特征重要性
4.2 处理缺失数据
面试官问:你是怎么处理缺失值的?
✅ 回答:
删除:缺失比例 > 70% 的列直接删除;MCAR(完全随机缺失)时删除少量行
填充: - 数值型:均值/中位数/众数填充(简单),KNN 填充(效果好) - 类别型:众数填充,或新增一个"缺失"类别 - 时间序列:前向填充(ffill)、插值(线性/样条)
模型预测:用其他特征预测缺失值(MICE 多重插补)
高级方法:LightGBM/XGBoost 原生支持缺失值: : 有时不填充效果反而更好
4.3 数据不平衡处理
面试官问:正负样本比例 1:100,你怎么做?
✅ 回答:
数据层面: - 过采样:SMOTE(生成合成样本,而不是简单复制) - 欠采样:随机欠采样(丢失信息太多)、NearMiss、Tomek Links - 混合:SMOTE + Tomek Links
算法层面: - 调整类别权重:class_weight='balanced'(scikit-learn) - 使用 AUC/PR 评估:不用 accuracy - 集成方法:EasyEnsemble(多次欠采样训练多个模型取平均)
损失函数层面: - Focal Loss:降低易分类样本的权重 - 加权的交叉熵损失
追问:
Q:SMOTE 的原理是什么?有什么缺陷? A: 原理:对少数类样本,在 k 个最近邻之间插值生成新样本。
> x_new = x + λ · (x_neighbor - x)
> 缺陷: - 在特征边界处可能生成重叠样本 - 对高维数据效果差(维度灾难) - 不能处理样本在特征空间中聚团的情况
五、模型评估与选择
5.1 交叉验证
面试官问:什么时候用 K-Fold,什么时候用 Leave-One-Out?
✅ 回答:
| 方法 | 适用场景 | 优缺点 |
|---|---|---|
| K-Fold (K=5/10) | 大多数情况 | 方差-偏差平衡好 |
| Stratified K-Fold | 分类问题 | 保持每折类别比例 |
| Leave-One-Out | 小数据集 (<100) | 计算量大,偏差低但方差高 |
| Time Series Split | 时间序列 | 按时间顺序,防止数据泄露 |
| Group K-Fold | 同组样本(同一用户) | 保证同组不跨折 |
5.2 AUC 的深度理解
面试官问:AUC 是什么?有什么特点?
✅ 回答:
AUC = Area Under the ROC Curve,即 ROC 曲线下的面积。
统计意义:随机选一个正样本和随机选一个负样本,正样本排在负样本前面的概率。
特点: 1. 阈值无关:不依赖具体分类阈值 2. 对不平衡不敏感:正负比例变化不影响 AUC 3. 值域 [0.5, 1]:0.5 是随机猜测,1 是完美分类
局限: - 极不平衡时(如 1:10000),AUC 可能虚高(因为负样本太多,容易排序好) - 此时建议看 PR 曲线的 AP(Average Precision)
追问:
Q:AUC = 0.7 意味着什么? A:随机选择一个正样本和一个负样本,正样本的预测分数高于负样本的概率是 70%。等价于 Wilcoxon-Mann-Whitney 检验的统计量。
5.3 AB 测试
面试官问:线上 ML 模型上线前要做 AB 测试,你怎么设计?
✅ 回答:
1. 流量分配 - 50% 控制组(Base Model),50% 实验组(New Model) - 或 99% vs 1%(风险很小时) - 按用户 ID hash 分桶,保证用户一致性
2. 核心指标 - 主指标:CTR、CVR、GMV、留存率 - 辅助指标:延迟、覆盖率、多样性 - 护栏指标:没有负面影响(如用户体验评分)
3. 统计显著性 - T 检验 / Z 检验:p-value < 0.05 - 最小样本量计算:根据预期提升和基线指标方差 - 运行时间:至少 1-2 周(覆盖工作日和周末)
4. 常见陷阱 - Novelty Effect:用户对新模型的新鲜感导致的短期提升 - 网络效应:社交产品的实验组和对照组互相影响 - 多重比较:同时看多个指标导致假阳性
六、梯度下降全家桶
面试官问:解释不同梯度下降算法的区别。
✅ 回答:
| 算法 | 更新方式 | 特点 | 适用场景 |
|---|---|---|---|
| BGD | 全部样本做一次更新 | 准确但慢,每次迭代 O(n) | 小数据集 |
| SGD | 每个样本做一次更新 | 快但震荡,收敛不稳定 | 大数据集 |
| Mini-Batch | 每个 batch 做一次更新 | 折中方案,最常用 | 绝大多数情况 |
| Momentum | 考虑历史梯度方向 | 加速收敛,减轻震荡 | 高曲率区域 |
| Adam | 自适应学习率 + Momentum | 最常用的优化器 | NLP/CV 默认选择 |
追问:
Q:Adam 相比 SGD 有什么优缺点? A: 优点: - 自适应学习率,不需要精细调参 - 对稀疏梯度效果好 - 收敛快
缺点: - 可能收敛到尖锐极小值(Sharp Minima),泛化性不如 SGD - 有些论文发现 SGD + 好的学习率策略最终精度更高
经验:Transformer 训练用 Adam,CNN 用 SGD+Momentum,大模型微调用 AdamW。
七、场景题实战(面试常见)
场景1:电商 CTR 预估
问:你负责电商推荐系统的 CTR 预估模型,怎么做?
答: 问题定义:二分类,预估用户点击商品的概率。
特征设计: - 用户特征:性别、年龄、历史点击类目、近 7 天购买品牌 - 商品特征:价格、类目、标题 Embedding、近 7 天 CTR - 交叉特征:用户类目偏好 × 商品类目、价格区间匹配 - 上下文特征:时间(工作日/周末)、设备、位置
模型选型: - Baseline:LR(简单可解释) - 进阶:DeepFM / DIN / DIEN(适合大规模推荐) - 最新:MMOE(多目标优化)
在线优化: - 实时特征 + 近实时更新模型 - 多级级联:召回 → 粗排 → 精排 → 重排
场景2:欺诈检测
问:信用卡欺诈检测,正负比 1:10000,怎么做?
答: 问题难点:极度不平衡 + 需要低延迟 + 错误分类成本高。
方案: 1. 采样:SMOTE + 欠采样(混合采样) 2. 模型:XGBoost + Isolation Forest(异常检测) 3. 评估:Precision@K 和 Recall@K,关注 Top 1% 的召回 4. 成本敏感:自定义损失函数,FN 的成本是 FP 的 100 倍 5. 实时推理:模型 ONNX 量化,<10ms 推理
场景3:用户流失预测
问:预测哪些用户即将流失,你怎么设计?
答: 特征工程: - 行为衰减:近 7 天登录次数 / 近 30 天登录次数(比值下降说明流失风险高) - 沉默天数:距离上次登录的天数 - 交互趋势:发帖/评论/点赞量是否持续下降
模型: - 时序模型:LSTM/Transformer + 用户行为序列 - 生存分析:Cox 比例风险模型
行动策略: - 流失概率 > 0.7:发优惠券 + 个性化推荐 - 流失概率 0.4-0.7:Push 通知 - 流失概率 < 0.4:不打扰
八、面试官追问技巧
8.1 "不知道答案"怎么办
❌ "不知道。"
✅ "这个问题我确实不太确定。不过如果是我的话,我会从两个角度来思考:第一...(从原理推导);第二...(类比已知的类似问题)。我比较熟悉的场景是 XXX,和这个问题的区别在于..."
8.2 "被问到了知识盲区"怎么应对
✅ "您提的这个方向很有趣,我之前没有深入关注过。以我目前的理解,它可能和 XXX 有相通之处,因为 XXX。面试结束后我会好好研究一下。另外,我熟悉的是 XXX,您希望我展开讲讲这块吗?"
关键:把"我不会"转化为"我不会这个但我会那个",展示学习能力和思维框架。
8.3 如何展示深度
面试官问完模型 A 的原理后,你可以主动延伸:
"刚才说的是标准做法,在实际业务中我们还遇到了一个问题: : XXX。我们的解决方法是 XXX,效果提升了 XX%。这个过程中我学到的一点是 XXX。"
效果:面试官会认为你有实战经验,不仅是背理论。
九、本期小结与下期预告
核心要点
- 基础概念必考:过拟合、偏差方差、生成判别、损失函数、正则化: : 这 5 个问题几乎每面必问
- 手推必考:LR (100%) > SVM (70%) > XGBoost (40%),研究岗全部要会
- 特征工程:三板斧框架(构建 → 编码 → 选择)是面试官认可的体系化回答
- AB 测试设计:大厂高频场景题,重点考察工程落地能力
- 场景题套路:问题定义 → 特征设计 → 模型选型 → 评估指标 → 上线策略
下期预告
第4期:深度学习 & LLM 面试题 : Transformer 架构手推、BERT/GPT 对比、RLHF、LoRA、RAG 原理,大模型面试最全考点。
📌 本系列其他文章 - 第1期:AI 岗位全景与简历突围 ✅ - 第2期:Python/数据结构算法高频题 ✅ - 第3期:机器学习面试题精讲 ✅ (本文) - 第4期:深度学习 & LLM 面试题(即将发布) - 第5期:系统设计面试(推荐/搜索/NLP) - 第6期:AI 工程面试:模型部署与优化 - 第7期:ML 算法场景题 & 业务分析 - 第8期:面试全流程实战 & 面经汇总
如果你觉得本文有帮助,欢迎点赞和分享,让更多备战 AI 面试的同学看到 🙌
夜雨聆风