快手AI Agent应用开发面经(附答案)-夜雨聆风

快手AI Agent应用开发面经(附答案)

Q1:测试时扩展（test-time scaling）是什么？怎么实现？

测试时扩展（Test-Time Scaling，简称TTS）是提升大型语言模型（LLM）推理性能的一种方法，其核心思想是在模型推理阶段动态分配更多计算资源，以获取更优的答案。

✨常见的实现方法包括：

1.多次采样（外部扩展）：对同一输入进行多次推理，取平均或投票结果。

2.自我验证（内部扩展）：推理过程中，模型自身进行验证，并选择最佳推理结果。

3.CoT（内部扩展）：模型在推理过程中，通过生成推理步骤，并使用这些步骤来生成推理结果。

4.延长思考步骤（内部扩展）：在 CoT 中加入特殊指令（如”Wait”）强制模型延长思考时间，纠正错误思路。

例如：模型尝试提前输出答案时，追加”Wait”标记使其继续推理，直至达到计算预算上限。

Q2:基于 Transformer 架构的大模型在推理时显存主要消耗在哪些方面？

推理时显存主要消耗在如下三个方面。

1.模型参数：占用 2x 模型参数量 GB 的显存。

2.激活值：Transformer 模型在推理时存储每一层的激活值，通常占用 2 x 批大小 x 序列长度 x 层数 x 隐层维度 GB 的显存。

3.KV-Cache:{k;}t-1,{ui}1=1，因为基于Transformer 架构的模型在串行推理时每个时间步的输出O =9t*∑-1k2*0，在计算o 时需要用到{k:1w1-1因此可以在每一步把k;和v;缓存起来，方便下一步使用。

Q3:Deepseek-R1 训练的四个阶段？

DeepSeek-R1 的训练流程分为四个核心阶段，通过两轮有监督微调（SFT）和两轮强化学习（RL）的交替优化，逐步提升模型的推理能力、通用性及安全性。

第一阶段：冷启动监督微调（Cold Start SFT）

方法：使用 数千条人工标注的高质量思维链（CoT）数据，包含多语言对齐的规范格式对基础模型（DeepSeek-V3-Base）进行轻量微调。

作用：激发模型遵循人类偏好输出逻辑连贯的推理过程为后续RL提供稳定起点，显著缩短收敛时间并提升可读性。

第二阶段：面向推理的强化学习（Reasoning-Oriented RL）

方法：混合奖励函数，包括 规则奖励：答案正确性（如代码测试通过）、格式规范性，语言一致性奖励：惩罚中英文混杂，提升目标语言占比。

采用 GRPO 算法，训练至模型在推理任务上收敛（如 AIME 2024 准确率从 15.6% 提升到 71.0%）。

作用：专攻数学、编程、科学等复杂推理任务，优化多步逻辑严谨性。

第三阶段：拒绝采样与监督微调（Rejection Sampling & SFT）

方法：

推理数据：采用拒绝采样方法，从 RL 模型中生成响应，筛选高质量答案（约 60 万条推理数据）。
通用数据：复用 DeepSeek-V3 的 SFT 数据集（约 20 万条），覆盖写作、问答、角色扮演等任务。
两轮监督微调：第一轮仅使用 60 万条拒绝采样数据微调模型，第二轮用全部的 80 万条数据微调模型，平衡推理与非推理能力。

作用：扩展多领域能力，解决 RL 过拟合问题。

第四阶段：全场景强化学习（RL for All Scenarios）

方法：

多样化奖励机制：

推理任务：沿用规则奖励（如数学答案验证）。
通用任务（如对话、写作）：使用神经奖励模型评估”无害性”和”实用性”。

多提示分布训练：融合用户查询、长文本理解等场景，确保模型适应复杂需求。

目标：对齐人类偏好，提升安全性与开放域泛化能力，最终输出兼具推理严谨性与自然交互能力的 DeepSeek-R1 模型。

Q4:你认为好的大模型提示词应该是什么样的？

好提示词的黄金公式 = 清晰角色 + 结构化任务 + 强约束 + 可验证。

🔘角色：明确模型身份（如”编程助手”）

🔘结构：使用 TAG(Task + Action + Goal) / COS(Context + Objective + Steps) 框架分步拆解

🔘约束：指定格式、长度、安全红线

🔘验证：通过人工评审及指标量化效果

Q5:大模型的灾难性遗忘问题是什么？怎么解決？

大模型的灾难性遗忘（Catastrophic Forgetting）是指模型在适应新任务或新数据时，对先前学到的知识大面积遗忘。

解决方案:

🔘 重放（ Replay )：在微调数据中混入一部分预训练数据，让模型在学习新知识的同时”复习”旧知识。

🔘参数高效微调( PEFT )：如 LORA 、 QLORA 。只微调模型的一小部分参数（适配器），冻结大部分原始参数，从而最大程度保留预训练知识。

🔘正则化方法：如 EWC （弹性权重巩固），对预训练阶段重要的参数增加一个正则项，限制其在微调时发生剧烈变化。

Q6:对比 Deepspeed 和 Megatron 的区别？

Deepspeed 和 Megatron 的差异主要体现在并行策略优化、硬件适配性和功能定位等方面。

1.并行策略优化：

Deepspeed：更擅长数据并行，通过ZeRO技术在不同设备间分片数据，减少显存冗余，适合大规模数据并行场景。
Megatron：更擅长模型并行，尤其在处理超大模型（如百亿参数以上）时，通过张量并行和流水线并行有效解决单卡显存不足问题。

2.硬件适配性：

Deepspeed：支持多种硬件平台（如 CPU 和 GPU），并且可以将优化器状态卸载到 CPU 上，适合资源受限的环境。
Megatron：深度优化 NVIDIA GPU，特别是 Tensor Core 加速，依赖 NCCL 通信库，主要在高性能计算集群（如 DGX/A100）上表现优异。

3.适用场景：

Deepspeed：适合需要大规模数据并行训练、显存优化需求高的场景，如训练中等规模模型或需要快速迭代的实验。
Megatron：适合训练超大规模模型（如千亿参数以上），尤其在NVIDIA硬件集群上，能充分发挥硬件性能优势。

Q7:Decoder-only 架构的注意力矩阵为什么是满秩的？满秩注意力矩阵有什么优势？

Decoder-only架构采用因果注意力机制，通过因果掩码确保每个位置只能关注当前及之前的 token，其注意力矩阵是严格的下三角矩阵，因为三角矩阵的行列式 = 对角线元素之积，又 Softmax 保证了注意力矩阵中所有元素均为正，因此对角线元素也均为正 -> 行列式恒为正 -> 矩阵满秩。

满秩注意力矩阵的优势包括：

更强的表达能力：满秩矩阵意味着矩阵的列（或行）向量线性无关，能够更充分地捕捉输入序列中的信息关系和模式，避免因矩阵秩不足导致的信息丢失或表达能力受限。
更大的模型容量：注意力矩阵中没有冗余参数（因为行/列向量线性无关，彼此无法线性表示），能够更好地利用参数空间，提升模型的表达能力。
工程实践优势：相比与 Encoder-Decoder 模型，Decoder-only 的泛化能力更强（GPT 的 Zero-shot 能力强于 T5），微调时收敛更快。

Q8:代码：23.合并 K 个升序链表

📚如果需要项目提升或面试辅导

📳欢迎添加微信： Mr_Lin-07-21

后续会进行更多算法面经和技术干货分享