乐于分享
好东西不私藏

快手AI Agent应用开发面经(附答案)

快手AI Agent应用开发面经(附答案)

Q1:测试时扩展(test-time scaling)是什么?怎么实现?

测试时扩展(Test-Time Scaling,简称TTS)是提升大型语言模型(LLM)推理性能的一种方法,其核心思想是在模型推理阶段动态分配更多计算资源,以获取更优的答案。

✨常见的实现方法包括:

1.多次采样(外部扩展):对同一输入进行多次推理,取平均或投票结果。

2.自我验证(内部扩展):推理过程中,模型自身进行验证,并选择最佳推理结果。

3.CoT(内部扩展):模型在推理过程中,通过生成推理步骤,并使用这些步骤来生成推理结果。

4.延长思考步骤(内部扩展):在 CoT 中加入特殊指令(如”Wait”)强制模型延长思考时间,纠正错误思路。

例如:模型尝试提前输出答案时,追加”Wait”标记使其继续推理,直至达到计算预算上限。

Q2:基于 Transformer 架构的大模型在推理时显存主要消耗在哪些方面?

推理时显存主要消耗在如下三个方面。

1.模型参数:占用 2x 模型参数量 GB 的显存。

2.激活值:Transformer 模型在推理时存储每一层的激活值,通常占用 2 x 批大小 x 序列长度 x 层数 x 隐层维度 GB 的显存。

3.KV-Cache:{k;}t-1,{ui}1=1,因为基于Transformer 架构的模型在串行推理时每个时间步的输出O =9t*∑-1k2*0,在计算o 时需要用到{k:1w1-1因此可以在每一步把k;和v;缓存起来,方便下一步使用。

Q3:Deepseek-R1 训练的四个阶段?

DeepSeek-R1 的训练流程分为四个核心阶段,通过两轮有监督微调(SFT)两轮强化学习(RL)的交替优化,逐步提升模型的推理能力、通用性及安全性。

第一阶段:冷启动监督微调(Cold Start SFT)

方法:使用 数千条人工标注的高质量思维链(CoT)数据,包含多语言对齐的规范格式对基础模型(DeepSeek-V3-Base)进行轻量微调。
作用:激发模型遵循人类偏好输出逻辑连贯的推理过程为后续RL提供稳定起点,显著缩短收敛时间并提升可读性。
第二阶段:面向推理的强化学习(Reasoning-Oriented RL)
方法:混合奖励函数,包括 规则奖励:答案正确性(如代码测试通过)、格式规范性,语言一致性奖励:惩罚中英文混杂,提升目标语言占比。
采用 GRPO 算法,训练至模型在推理任务上收敛(如 AIME 2024 准确率从 15.6% 提升到 71.0%)。
作用专攻数学、编程、科学等复杂推理任务,优化多步逻辑严谨性。
第三阶段:拒绝采样与监督微调(Rejection Sampling & SFT)
方法:
  • 推理数据:采用拒绝采样方法,从 RL 模型中生成响应,筛选高质量答案(约 60 万条推理数据)。
  • 通用数据:复用 DeepSeek-V3 的 SFT 数据集(约 20 万条),覆盖写作、问答、角色扮演等任务。
  • 两轮监督微调:第一轮仅使用 60 万条拒绝采样数据微调模型,第二轮用全部的 80 万条数据微调模型,平衡推理与非推理能力。
作用:扩展多领域能力,解决 RL 过拟合问题。
第四阶段:全场景强化学习(RL for All Scenarios)
方法:
多样化奖励机制:
  • 推理任务:沿用规则奖励(如数学答案验证)。
  • 通用任务(如对话、写作):使用神经奖励模型评估”无害性”和”实用性”。
多提示分布训练:融合用户查询、长文本理解等场景,确保模型适应复杂需求。
目标:对齐人类偏好,提升安全性与开放域泛化能力,最终输出兼具推理严谨性与自然交互能力的 DeepSeek-R1 模型。

Q4:你认为好的大模型提示词应该是什么样的?

好提示词的黄金公式 = 清晰角色 + 结构化任务 + 强约束 + 可验证。

🔘角色:明确模型身份(如”编程助手”)

🔘结构:使用 TAG(Task + Action + Goal) / COS(Context + Objective + Steps) 框架分步拆解

🔘约束:指定格式、长度、安全红线

🔘验证:通过人工评审及指标量化效果

Q5:大模型的灾难性遗忘问题是什么?怎么解決?

大模型的灾难性遗忘(Catastrophic Forgetting)是指模型在适应新任务或新数据时,对先前学到的知识大面积遗忘。

解决方案:

🔘 重放( Replay ):在微调数据中混入一部分预训练数据,让模型在学习新知识的同时”复习”旧知识。

🔘参数高效微调( PEFT ):如 LORA 、 QLORA 。只微调模型的一小部分参数(适配器),冻结大部分原始参数,从而最大程度保留预训练知识。

🔘正则化方法:如 EWC (弹性权重巩固),对预训练阶段重要的参数增加一个正则项,限制其在微调时发生剧烈变化。

Q6:对比 Deepspeed 和 Megatron 的区别?

Deepspeed 和 Megatron 的差异主要体现在并行策略优化、硬件适配性和功能定位等方面。

1.并行策略优化

  • Deepspeed:更擅长数据并行,通过ZeRO技术在不同设备间分片数据,减少显存冗余,适合大规模数据并行场景
  • Megatron:更擅长模型并行,尤其在处理超大模型(如百亿参数以上)时,通过张量并行和流水线并行有效解决单卡显存不足问题

2.硬件适配性

  • Deepspeed:支持多种硬件平台(如 CPU 和 GPU),并且可以将优化器状态卸载到 CPU 上,适合资源受限的环境。
  • Megatron:深度优化 NVIDIA GPU,特别是 Tensor Core 加速,依赖 NCCL 通信库,主要在高性能计算集群(如 DGX/A100)上表现优异。

3.适用场景

  • Deepspeed适合需要大规模数据并行训练、显存优化需求高的场景,如训练中等规模模型或需要快速迭代的实验。
  • Megatron适合训练超大规模模型(如千亿参数以上),尤其在NVIDIA硬件集群上,能充分发挥硬件性能优势。

Q7:Decoder-only 架构的注意力矩阵为什么是满秩的?满秩注意力矩阵有什么优势?

Decoder-only架构采用因果注意力机制,通过因果掩码确保每个位置只能关注当前及之前的 token,其注意力矩阵是严格的下三角矩阵,因为三角矩阵的行列式 = 对角线元素之积,又 Softmax 保证了注意力矩阵中所有元素均为正,因此对角线元素也均为正 -> 行列式恒为正 -> 矩阵满秩。

满秩注意力矩阵的优势包括

  • 更强的表达能力:满秩矩阵意味着矩阵的列(或行)向量线性无关,能够更充分地捕捉输入序列中的信息关系和模式,避免因矩阵秩不足导致的信息丢失或表达能力受限。

  • 更大的模型容量:注意力矩阵中没有冗余参数(因为行/列向量线性无关,彼此无法线性表示),能够更好地利用参数空间,提升模型的表达能力。
  • 工程实践优势:相比与 Encoder-Decoder 模型,Decoder-only 的泛化能力更强(GPT 的 Zero-shot 能力强于 T5),微调时收敛更快。

Q8:代码:23.合并 K 个升序链表

📚如果需要项目提升或面试辅导

 📳欢迎添加微信: Mr_Lin-07-21

后续会进行更多算法面经和技术干货分享