Agent_Training 面试专题手册

💡 本章节共收录 4439 道面试真题，建议每天复习 10-20 题。

Q1: 讲讲QLoRA的核心思想

【核心解析】 QLoRA通过将预训练模型量化为4-bit NormalFloat，并引入双重量化减少内存占用，再结合LoRA进行低秩适配，实现在单张消费级GPU上微调大模型；核心在于分页优化器处理梯度检查点时的内存峰值，以及保持16位精度的LoRA适配器更新

Q2: 如果你微调的是逻辑推理任务，相比于对话任务，你认为秩应该大还是小

【核心解析】 逻辑推理任务通常需要更强的表征能力，因此秩应设置较大以保留更多可调参数；对话任务相对简单，较小秩即可；需权衡计算资源与性能，秩越大越接近全参微调效果

Q3: 在推理阶段，为了消除LoRA带来的额外延迟，你会进行权重Merge吗

【核心解析】 可以将LoRA适配器权重与预训练权重合并，消除推理时的额外计算；合并后模型变为标准结构，无额外延迟；但需注意合并后无法再单独调整适配器，且可能影响模型泛化

Q4: 在垂域指令微调时，如果模型原本的通用能力下降，你有哪些方法解决

【核心解析】 混合通用数据与垂域数据进行微调；使用弹性权重巩固（EWC）等正则化方法限制重要参数变化；采用适配器或前缀调优等参数高效微调方法；逐步解冻或差分学习率；回放通用数据

Q5: DPO在训练时，为什么不需要像PPO那样在线采样生成回答

【核心解析】 DPO直接基于离线偏好对优化策略，将奖励函数隐式表示为策略比率，无需显式奖励模型和在线采样；PPO需要当前策略采样生成回答以估计优势函数，而DPO通过闭式解直接优化，避免在线交互

Q6: DPO数据格式是什么样的

【核心解析】 DPO数据通常为三元组（prompt, chosen, rejected），包含输入提示、人类偏好的回答和拒绝的回答；有时还包含参考策略的对数概率；数据需成对偏好标注，无需奖励分数

Q7: 了解LoRA微调吗？

【核心解析】 LoRA通过低秩分解矩阵来近似权重更新，减少可训练参数；在Transformer的注意力层添加旁路矩阵A和B，A用高斯初始化，B用零初始化；训练时仅更新A和B，保持原模型权重冻结；可显著降低显存占用和训练成本；支持多任务切换，只需加载不同的LoRA权重

Q8: 在训练LoRA时，两个参数矩阵分别是如何初始化的？

【核心解析】 矩阵A使用高斯分布初始化，以提供初始的随机扰动；矩阵B初始化为零矩阵，使得初始时ΔW = BA = 0，不改变原模型输出；这种初始化确保训练开始时模型行为与原模型一致；训练过程中A和B逐渐学习到任务相关的低秩更新；零初始化有助于稳定训练，避免初始梯度方向偏差

Q9: Few-shot在Agent中有没有用？

【核心解析】 Few-shot可引导模型输出格式和推理模式；在工具调用场景中提供示例能提高准确率；但过多示例会增加推理成本；需结合微调或提示工程优化效果；对复杂任务可能需要动态选择示例

Q10: 在 Agent 开发中，few-shot 的具体考量有哪些？

【核心解析】 示例选择：覆盖典型场景和边界情况；格式一致性：输入输出结构需与任务匹配；数量平衡：避免过多导致上下文过长或过少导致泛化不足；动态示例：根据当前输入检索最相关示例。

Q11: 在样本量极少的情况下，如何解决 LoRA 微调容易出现的过拟合或欠拟合问题？

【核心解析】 过拟合缓解：降低LoRA秩（r）、增加dropout、使用正则化（权重衰减）、早停（Early Stopping）、数据增强（同义词替换、回译等）；欠拟合缓解：增加LoRA秩、调整学习率、增加训练轮次、解冻更多层（如增加LoRA作用模块）；小样本策略：利用预训练模型知识、少样本学习（Few-shot Learning）、提示工程（Prompt Engineering）辅助；评估与验证：交叉验证、保留验证集监控损失；其他技巧：混合RAG与微调、课程学习（Curriculum Learning）

Q12: 单用SFT不行吗

【核心解析】 SFT（监督微调）在Agent训练中的局限性；SFT对高质量标注数据的依赖；SFT可能导致模型缺乏探索能力或过拟合；在复杂决策任务中需要强化学习等方法的补充

Q13: 损失函数知道吗

【核心解析】 Agent训练中常用的损失函数（交叉熵、策略梯度损失等）；SFT与RLHF中损失函数的差异；损失函数如何影响模型行为（如重复生成、多样性）；针对特定问题（如复读机）的损失函数设计

Q14: DPO真的有解决你遇到的问题吗

【核心解析】 DPO（直接偏好优化）在Agent训练中的实际效果；DPO相比RLHF的优势与不足；DPO在缓解特定问题（如复读机、安全性）上的表现；结合项目经验评估DPO的适用性

Q15: 还是那你认为DPO能否解决复读机问题呢

【核心解析】 复读机问题的成因（如模型退化、训练偏差）；DPO的偏好学习机制能否抑制重复生成；DPO与对比学习、正则化等方法在解决复读机问题上的比较；实际训练中DPO的调参与效果

Q16: 你怎么看SFT和DPO

【核心解析】 SFT与DPO在训练范式上的区别（监督学习 vs 偏好优化）；两者在Agent训练中的角色与结合方式；SFT作为基础对齐，DPO用于偏好微调的优劣；实际项目中如何选择与平衡

Q17: 请讲解PPO和GRPO算法，并比较它们在token级别奖励上的异同。

【核心解析】 PPO（Proximal Policy Optimization）通过裁剪重要性权重稳定策略更新，常用于RLHF；GRPO（Group Relative Policy Optimization）是PPO的变体，可能引入组内相对优势估计；在token级别奖励上，PPO通常对每个token使用相同的奖励信号（如句子级奖励广播），而GRPO可能对序列内不同token分配不同权重或相对奖励；具体差异取决于实现，需结合KL散度约束和奖励稀疏性讨论。

Q18: 你的项目数据量有多少？数据来源是什么？小数据集是否容易过拟合？如何应对？

【核心解析】 数据规模与来源说明；小数据集过拟合风险分析；数据增强策略；正则化方法；模型复杂度控制。

Q19: SFT 和 GRPO 在优化目标上有什么区别？GRPO 相比 PPO 有哪些改进？

【核心解析】 SFT 是监督微调，优化目标是最大化给定正确输出的概率；GRPO 是强化学习算法，优化目标是最大化期望奖励，通过组内相对比较更新策略；GRPO 相比 PPO 去除了价值网络，减少了计算开销；GRPO 使用组内奖励归一化计算优势，避免全好或全坏时更新无效；PPO 使用广义优势估计（GAE）计算优势，需要价值网络

Q20: GRPO 中的 Advantages 是如何计算的？组大小超参数如何影响训练？

【核心解析】 GRPO 对每个 prompt 采样一组响应，计算组内奖励的均值和标准差，优势为归一化后的奖励；组大小影响优势估计的方差和训练效率；全好或全坏时组内标准差为零，优势为零，该步对模型训练不起作用；组越大估计越稳定，但计算成本越高；需要平衡估计准确性和资源消耗

Q21: 在模型训练中，什么时候选择SFT、蒸馏或GRPO？它们各自适用什么场景？

【核心解析】 SFT适用于有高质量标注数据的监督微调；蒸馏适用于将大模型知识迁移到小模型，需要教师模型；GRPO适用于基于奖励信号的策略优化，无需显式标注数据

Q22: GRPO训练过程中需要观察哪些关键指标？

【核心解析】 奖励信号的变化趋势；策略损失和值函数损失的收敛情况；KL散度以控制策略更新幅度；样本效率与训练稳定性

Q23: 请详细解释GRPO的损失函数构成及其设计思想。

【核心解析】 策略损失基于优势加权；值函数损失用于拟合回报；可能包含熵正则项以鼓励探索；整体目标平衡策略改进与稳定性

Q24: GRPO中的Advantages是如何计算的？在整个训练中起什么作用？为什么需要Advantages，直接用奖励不行吗？

【核心解析】 Advantages计算通常为回报减去基线（如值函数估计）；作用是通过相对优势减少方差，指导策略更新方向；直接用奖励会引入高方差，且无法区分动作好坏

Q25: 重要性采样在策略梯度方法中为什么需要？如果新旧策略差别很大，重要性采样还有效吗？

【核心解析】 重要性采样用于修正旧策略采样数据在新策略下的期望；当策略差异大时，重要性权重方差剧增，可能导致训练不稳定；通常结合KL散度约束或裁剪机制

Q26: GRPO的KL散度与PPO的KL散度是否完全相同？

【核心解析】 两者都用于约束策略更新幅度；PPO中KL散度可作为惩罚项或自适应系数；GRPO可能采用类似但实现细节有差异；核心思想都是防止策略突变

Q27: PPO和GRPO是On-policy还是Off-policy算法？PPO中的Advantages是如何得到的？

【核心解析】 PPO和GRPO通常属于on-policy算法，但可利用重要性采样复用旧数据；PPO中Advantages常用GAE（广义优势估计）计算；GAE平衡偏差与方差，利用多步回报和值函数

Q28: 在GRPO中，如果采样结果是序列级别的，且最终奖励高，如何将信用分配到序列中的每个token？

【核心解析】 信用分配问题：需将序列级奖励分解为每个动作的贡献；常用方法如基于值函数的差分奖励、注意力权重或逐token的奖励模型；GRPO可能通过优势函数隐式分配

Q29: 是否自己部署过推理服务？有没有做过算子融合或IO瓶颈优化？

【核心解析】 推理服务的部署方式（如Triton、vLLM）；算子融合的原理与实现（如减少kernel launch开销）；IO瓶颈的识别与优化（如模型加载、数据传输）；推理性能调优的实践经验。

Q30: 在构建Agent训练数据时，如何筛选和处理历史工单及知识库数据？

【核心解析】 数据来源包括历史工单、知识库问答和线上badcase回流；需进行脱敏、去重、规则版本对齐和人工抽检；过滤过期结论、个人信息和临时workaround；确保输入、证据、答案和规则版本一致

Q31: 在Agent系统中，如何根据任务类型选择模型架构和尺寸？

【核心解析】 分类和字段抽取任务使用encoder模型如DeBERTa-v3-base、RoBERTa-wwm-ext，注重判别边界和低延迟；生成任务使用7B级别模型进行LoRA微调，学习企业问答风格和拒答策略；模型选择需平衡效果、部署成本和延迟

Q32: 在Agent的生成模型微调中，如何使用LoRA/QLoRA进行高效微调？

【核心解析】 LoRA配置包括r=16、lora_alpha=32、target_modules为q_proj/k_proj/v_proj/o_proj；分类模型可全参微调或微调上层；选择依据包括验证集F1、P95延迟和线上资源成本

Q33: 在大模型训练和蒸馏中，KL散度有哪些典型应用场景？

【核心解析】 RLHF/DPO/GRPO中使用KL控制模型偏离reference model；蒸馏中使用teacher/student的soft label进行KL，保留类别间相似性；KL比仅学习hard label更能保留分布信息

Q34: 如何构造指令微调样本并利用线上badcase进行数据闭环优化？

【核心解析】 高质量问答、证据片段和标准处理建议的样本构造方法；badcase回流到评测集和训练集的流程；数据闭环避免仅修改prompt的局限性；通过检索增强、证据约束提升模型效果。

Q35: Hermes 的自进化机制是基于 memory/skills 还是模型自进化？

【核心解析】 Hermes 可能结合了外部记忆（memory）和技能库（skills）的积累与检索；自进化通常指通过交互数据微调模型本身；需要区分是动态知识更新还是模型参数更新；memory/skills 方式更轻量，可解释性强；模型自进化涉及持续训练，成本高但可能泛化更好。

Q36: GRPO 和 DPO 两种训练方法有什么区别？

【核心解析】 GRPO（Group Relative Policy Optimization）是 PPO 的变体，使用组内相对奖励，无需价值网络；DPO（Direct Preference Optimization）直接基于偏好对优化策略，无需显式奖励模型；GRPO 更稳定，适合大规模训练；DPO 更简单，计算成本低；两者都用于对齐人类偏好。

Q37: DPO训练中常见的翻车原因有哪些？如何评估DPO训练效果？

【核心解析】 模型过度追求偏好差异，偏离SFT分布，导致格式不稳、长度漂移和泛化下降；beta、数据质量和参考模型配置不当是常见翻车原因；评估不仅看训练loss，还需关注win rate、拒答准确率、长度分布和业务验证集表现

Q38: 请解释GRPO的公式，并说明实际使用时如何处理π_theta和π_old？

【核心解析】 GRPO基于组内相对优势，对同一问题采样多个回答，用组内均值和方差归一化reward得到advantage，再更新策略；公式包含重要性比率，实际中π_old为采样时的旧策略，一轮rollout后旧策略比例近似为1；优化时主要用advantage和KL约束控制模型偏移，工程实现常结合优势分数和KL散度做稳定优化

Q39: GRPO和DPO的区别是什么？分别适用于什么场景？

【核心解析】 DPO依赖成对偏好数据，优化chosen相对rejected的概率差，工程轻量，适合已有偏好对场景；GRPO依赖同一prompt下多候选的reward，通过组内相对优势更新策略，适合数学、代码、推理等可打分任务；DPO关键在pair质量，GRPO关键在reward设计和采样质量；两者适用阶段不同，SFT后可先DPO稳偏好，再用GRPO针对可验证任务提升

Q40: 为什么GRPO中经常要做组内归一化advantage？

【核心解析】 消除不同prompt之间reward标尺不一致问题，避免reward绝对值影响更新；让模型关注同一问题下候选答案的相对优劣；训练更稳定，适合多候选采样场景

Q41: Agentic Training 的训练流程是怎样的？如何构造训练数据并优化轨迹质量？

【核心解析】 训练模型进行规划、调用工具、观察结果、修正策略并输出最终答案；流程包括收集任务指令、构造工具集合和 schema、生成 action、执行工具得到 observation、基于 observation 继续决策；训练数据格式为 instruction -> thought/action -> observation -> next action -> final；需区分可见动作、内部推理和工具返回，重点学习何时调用工具、选择工具、填参和失败恢复；难点在于保证轨迹质量，避免无效调用、重复调用或错误观察。

Q42: 实际训练 Agent 时，工具返回的内容是否需要 mask？为什么？

【核心解析】 工具返回通常应 mask，因为它是环境反馈而非模型需学习生成的内容；mask 可避免模型背诵工具返回，而是学习基于结果做决策；常见做法是用户输入和工具返回参与 attention 但不参与 loss，assistant 的 action、参数和 final answer 参与 loss；这样模型能观察 observation 但不会直接模仿。

Q43: 为什么要用DPO，你的DPO数据从哪里来？

【核心解析】 DPO用于偏好对齐，让模型在候选答案中选择符合业务偏好的回答；SFT解决“会不会做”，DPO解决“更喜欢哪种做法”；数据构造方法：用上一版checkpoint对同一prompt做多候选采样，经规则、模型评审和人工复核构造chosen/rejected对；避免使用商业API蒸馏样本，防止偏好边界偏移到外部模型风格

Q44: DPO为什么常配合rejection sampling，而不是直接拿随机负样本训练？

【核心解析】 随机负样本太弱，模型容易区分，学不到细粒度偏好边界；Rejection sampling从当前模型或上一版模型的候选输出中筛掉不合格样本，保留质量差异接近但偏好明确的样本；这样chosen/rejected更接近模型真实会犯的错误，对DPO更有价值；避免样本分布与当前模型差异过大导致训练变成风格迁移

Q45: 为什么说DPO数据最好来自上一版checkpoint的采样分布？

【核心解析】 DPO优化假设模型需要在自身可能生成的候选空间里调整偏好；如果rejected来自另一个强模型或风格体系，可能不是当前模型真实会生成的坏答案，优化信号变弱；上一版checkpoint采样更贴近当前模型的错误模式，DPO能真正修正偏好；实际训练需控制采样温度、候选数量和过滤规则

Q46: DPO的核心公式是什么，里面的πθ和πref分别代表什么？

【核心解析】 DPO损失函数：L_DPO = -E[log σ(β * (log(πθ(yw|x)/πref(yw|x)) - log(πθ(yl|x)/πref(yl|x))))]；πθ是当前要训练的模型，πref是SFT后冻结的参考模型；β控制偏好优化强度；核心是让当前模型相对参考模型，在chosen/rejected的概率差上产生更符合偏好的变化

Q47: DPO中beta参数过大或过小会发生什么？

【核心解析】 beta是偏好约束强度；太小时，chosen和rejected的差异信号被压得很弱，训练变慢，偏好提升不明显；太大时，模型可能过度偏向chosen，导致过拟合或偏离参考模型太远，影响泛化能力

Q48: 如何判断模型是否收敛？训练时遇到梯度消失或爆炸如何解决？

【核心解析】 监控loss曲线和验证指标；梯度消失可调整激活函数、使用BatchNorm/LayerNorm、残差连接、调整学习率；梯度爆炸可梯度裁剪、权重正则化、调整学习率、检查权重初始化。

Q49: LoRA 微调的原理是什么？

【核心解析】 低秩适应，冻结预训练权重，注入可训练的低秩分解矩阵；通过A和B矩阵近似权重更新；减少可训练参数量，降低显存和计算开销。

Q50: Adam 和 AdamW 的原理及改进是什么？

【核心解析】 Adam结合动量和自适应学习率；AdamW将权重衰减与梯度更新解耦，改善正则化效果；AdamW通常泛化性能更好。

Q51: 有哪些常见的知识蒸馏方法？

【核心解析】 软标签蒸馏；特征蒸馏；关系蒸馏；在线蒸馏；自蒸馏；适用于模型压缩和加速。

Q52: 大模型LoRA训练时需要设置哪些参数？如何判断过拟合和欠拟合？

【核心解析】 LoRA秩r和缩放因子alpha的选择；目标模块（如q_proj, v_proj）的指定；学习率、训练轮数、批次大小等常规超参数；过拟合表现为训练损失低但验证损失高，欠拟合表现为两者均高；可通过监控损失曲线和下游任务指标判断

Q53: Flash Attention和Page Attention的原理是什么？

【核心解析】 Flash Attention通过分块计算和重计算减少显存访问，加速注意力计算；Page Attention将KV缓存分页管理，支持动态内存分配，提升吞吐量；两者均优化了长序列处理时的内存效率；Flash Attention利用GPU的SRAM进行分块矩阵乘法；Page Attention借鉴操作系统分页思想，减少碎片

Q54: 强化学习有自己训练过吗？

【核心解析】 强化学习的基本概念：智能体、环境、状态、动作、奖励；常用算法如DQN、PPO的原理；训练流程：交互采样、经验回放、策略更新；探索与利用的平衡；实际应用中的挑战：奖励设计、样本效率、稳定性

Q55: 为什么在模型对齐中使用强化学习而不是仅使用SFT？SFT为什么不能实现对齐？

【核心解析】 SFT只能模仿训练数据中的行为，无法处理分布外情况；强化学习通过奖励信号直接优化目标，能探索更优策略；SFT缺乏对生成结果长期影响的建模；强化学习可以结合人类反馈进行在线学习；对齐需要模型理解复杂的人类价值观，强化学习更适合多目标优化。

Q56: 能否直接使用强化学习进行训练，而不经过SFT阶段？

【核心解析】 直接从随机策略开始强化学习效率低，难以收敛；SFT提供良好的初始策略，加速强化学习过程；SFT可以稳定训练，避免早期探索中的高风险行为；结合SFT和强化学习的两阶段训练是常见做法；直接强化学习可能面临稀疏奖励和巨大探索空间的问题。

Q57: 在金融项目中，使用LoRA微调大模型时需要设置哪些关键参数？

【核心解析】 秩r的大小，影响低秩矩阵的表达能力和参数量；alpha缩放参数，控制低秩更新的幅度；目标模块的选择，如注意力层的q、v矩阵；dropout率，用于正则化防止过拟合；学习率和训练轮次等标准训练超参数。

Q58: 训练大模型时如何判断过拟合和欠拟合？

【核心解析】 过拟合：训练损失持续下降但验证损失上升；欠拟合：训练损失和验证损失都较高且下降缓慢；观察训练和验证曲线之间的差距；使用早停法监控验证集性能；通过调整模型复杂度、正则化或数据量来缓解。

Q59: 你有自己训练过强化学习模型吗？请介绍相关经验。

【核心解析】 描述具体的强化学习项目或实验；使用的算法如PPO、DQN等；环境设置和奖励设计；遇到的挑战如稀疏奖励、稳定性问题；调参和优化过程。

Q60: 为什么使用SFT（监督微调）而不是强化学习？

【核心解析】 数据效率：SFT直接利用标注数据模仿人类行为，训练稳定；实现复杂度：SFT相对简单，强化学习需要设计奖励函数和环境交互；任务适用性：对于明确输入输出的任务，SFT能快速收敛到较好效果；安全性：SFT更容易控制模型行为，避免强化学习探索过程中的意外输出；资源消耗：强化学习通常需要更多计算资源和调参工作。

Q61: 解决模型过拟合的方式有哪些？

【核心解析】 正则化技术（L1/L2、Dropout）；数据增强；早停法；模型简化；集成学习

Q62: 模型推理优化除了传统算子，还会用什么样的架构或加速手段？

【核心解析】 模型量化（INT8/FP16）；算子融合；内存优化（KV Cache）；模型剪枝；知识蒸馏；使用专用推理引擎（如TensorRT）

Q63: 多任务学习中损失函数怎么融合？

【核心解析】 加权求和；不确定性加权；动态权重调整（如GradNorm）；帕累托最优；多目标优化

Q64: Block Causal Mask如何优化线上推理？

【核心解析】 减少注意力计算量；利用KV Cache；分块计算；避免未来信息泄露；适配自回归生成

Q65: 序列item和candidate item是单独还是共享Embedding？

【核心解析】 参数共享与独立学习的权衡；模型容量；特征交互；冷启动问题；计算效率

Q66: 精排稀疏目标和稠密目标之间怎么做平衡

【核心解析】 多目标联合训练；动态权重调整；帕累托最优求解；使用MMOE或PLE等多任务学习结构；评估指标权衡

Q67: rankmixer结构介绍，对比transformer结构优势

【核心解析】 RankMixer使用低秩混合替代自注意力；计算复杂度降低；参数效率更高；适合长序列建模；保留全局交互能力

Q68: 对于RLVR（Reinforcement Learning with Verifiable Rewards）的训练，能否认为是一种SFT（Supervised Fine-Tuning）？

【核心解析】 RLVR利用可验证奖励信号进行强化学习，与SFT有本质区别；SFT是模仿学习，依赖标注数据；RLVR通过探索和奖励优化策略，可能超越标注质量；RLVR可结合SFT初始化策略；RLVR更适用于有明确验证逻辑的任务

Q69: 了解哪些强化学习算法？请说明PPO、GRPO、DPO的区别。

【核心解析】 PPO（Proximal Policy Optimization）通过裁剪目标函数稳定策略更新；GRPO（Group Relative Policy Optimization）在PPO基础上引入组内相对优势估计；DPO（Direct Preference Optimization）直接基于偏好对优化策略，无需显式奖励模型；PPO和GRPO属于在线策略算法，DPO为离线偏好学习；GRPO适合多步推理任务，DPO训练更稳定

Q70: 在项目训练过程中，你是怎么解决过拟合问题的？

【核心解析】 使用正则化技术如Dropout、权重衰减；早停法监控验证集性能；数据增强增加训练多样性；降低模型复杂度或特征维度；集成学习减少方差

Q71: 了解强化学习算法吗？说下 PPO、GRPO、DPO 的区别。

【核心解析】 PPO 是策略梯度方法，通过裁剪重要性采样比率来稳定训练；GRPO 是群体相对策略优化，利用群体样本的相对比较来更新策略，减少方差；DPO 是直接偏好优化，利用偏好数据直接优化策略，无需显式奖励模型；理解三者在样本效率、稳定性和适用场景上的差异

Q72: 项目训练过程中，怎么解决过拟合的？

【核心解析】 数据层面：增加数据量、数据增强、交叉验证；模型层面：正则化（L1/L2）、Dropout、Early Stopping、简化模型结构；训练策略：降低学习率、使用预训练模型、集成学习；监控验证集指标，合理划分训练/验证/测试集

Q73: 针对项目问题：Embedding 和 ReRank 模型具体怎么做的微调？

【核心解析】 Embedding 模型微调：使用对比学习（如 SimCSE）、难负样本挖掘、特定领域数据继续训练；ReRank 模型微调：基于交叉编码器架构，使用标注的 query-document 对进行二分类或回归训练；数据构造与损失函数选择；评估指标（如 MRR、NDCG）与迭代优化

Q74: 简要介绍一下 SFT 的核心流程以及数据集的构建策略。

【核心解析】 SFT核心流程：固定输入输出格式，用高质量监督样本做行为对齐；数据集构建注重覆盖度、难度分层和噪声控制；样本类型包括基础指令、复杂推理、拒答、工具调用和格式约束；目标不是背答案，而是稳定按任务要求工作。

Q75: PPO 和 DPO 在大模型对齐中的主要区别是什么？DPO 训练时有哪些注意事项？

【核心解析】 PPO基于奖励模型和策略梯度，训练流程重，对稳定性、采样和奖励建模要求高；DPO直接优化策略，无需显式奖励模型，训练更简单；DPO注意事项：偏好数据质量、正则化、超参选择等。

Q76: 有做过强化学习，微调用过什么框架吗

【核心解析】 强化学习在Agent中的应用（如RLHF、GRPO）；常用微调框架（如Hugging Face Transformers、TRL、DeepSpeed、LLaMA-Factory）；微调方法（全量微调、LoRA、QLoRA等）；强化学习框架（如OpenAI Gym、Stable-Baselines3、Ray RLlib）；微调数据准备与格式要求

Q77: LoRA是否了解

【核心解析】 LoRA（Low-Rank Adaptation）原理：在预训练权重旁路添加低秩分解矩阵，仅训练新增参数；优势：大幅减少可训练参数量，降低显存需求，可快速切换任务；与全量微调、Adapter、Prefix Tuning的区别；LoRA的秩（rank）和缩放因子（alpha）等超参数影响；在Agent微调中的应用（如工具调用能力微调）

Q78: SFT 的训练目标是什么？

【核心解析】 监督微调（SFT）在 Agent 训练中的作用（如指令遵循、工具调用格式对齐）；损失函数选择（如交叉熵、序列级损失）；数据构造策略（多任务混合、课程学习）；SFT 与 RLHF 的衔接；避免灾难性遗忘的方法

Q79: LoRA 微调的超参数（rank）如何选择？

【核心解析】 LoRA 的 rank 决定了低秩矩阵的维度，影响模型容量和过拟合风险；选择时需权衡任务复杂度、数据量和计算资源；通常从较小的 rank（如 4 或 8）开始实验，观察验证集性能；高 rank 可能带来更好的拟合但增加过拟合风险；可结合其他超参数（如 alpha）调整缩放因子。

Q80: 是否尝试过多种微调或强化学习方法？

【核心解析】 全量微调、LoRA、QLoRA 等参数高效微调方法的区别与适用场景；强化学习方法如 PPO、DPO 在 Agent 训练中的应用；不同方法对模型性能、训练效率和稳定性的影响；如何根据任务需求选择微调或强化学习策略；实际项目中尝试过的具体方法及其效果对比。

Q81: 强化学习是优化端到端结果，还是优化单步决策？

【核心解析】 强化学习可以优化端到端结果（如最终任务成功率），也可以优化单步决策（如每一步的动作选择）；端到端优化通常使用稀疏奖励，单步优化使用密集奖励；在 Agent 中，通常结合两者，通过奖励塑形引导模型；需要根据任务特性设计奖励函数；多步决策场景下需考虑长期回报与即时奖励的平衡。

Q82: 请说明 DPO 和 GRPO 的区别，以及在实际项目中如何选择使用它们？

【核心解析】 DPO 直接利用偏好对做优化，省去显式奖励模型训练，工程上更简单，但对 pairwise 数据质量、正负样本顺序、长度偏差和偏好噪声敏感；GRPO 强调组内相对优势，将同一输入下多个候选放在一起比较，用相对表现更新，对组采样质量和组内比较机制更敏感；DPO 更直接，适合偏好对齐的后半段；GRPO 更偏“同题多答后做相对优化”，适合需要稳定比较多个候选的场景；实际选择需根据数据形式（成对或组）和业务需求（稳定性 vs 简单性）决定。

Q83: 在微调 Qwen 等大模型时，如何选择训练阶段和损失函数？

【核心解析】 能力补齐通常先 SFT 对齐格式和任务流程，再根据业务目标决定是否进入偏好优化阶段；损失函数除标准交叉熵外，需考虑样本权重、长短样本平衡、拒答样本权重、特殊字段损失；抽取类任务更关注结构化字段准确率，生成类任务更关注流畅性和事实一致性；核心原则：先让模型“会做”，再让模型“做得更符合业务偏好”。

Q84: DPO实现原理是什么？DPO过程的卡点有哪些？

【核心解析】 DPO基于偏好对直接优化策略，无需显式奖励模型；DPO损失函数推导与梯度分析；数据收集与标注中的偏好一致性；训练不稳定与过拟合问题；与RLHF的对比及适用场景

Q85: 使用LoRA微调时，有没有遇到模型不收敛或指令输出格式损失不符合预期？LoRA的alpha参数特别强或特别弱会有什么情况？

【核心解析】 LoRA低秩适配原理与参数更新机制；不收敛的可能原因（学习率、秩选择、初始化等）；指令格式损失异常的调试方法；alpha参数控制适配器强度：过大可能导致过拟合或覆盖预训练知识，过小则微调效果不足；alpha与秩的配合调整策略

Q86: 介绍一下过拟合是什么，以及L1正则和L2正则之间的区别

【核心解析】 过拟合是指模型在训练数据上表现很好，但在测试数据上泛化能力差，通常因为模型过于复杂或训练数据不足；L1正则化（Lasso）在损失函数中加入权重绝对值之和，倾向于产生稀疏解，可用于特征选择；L2正则化（Ridge）加入权重平方和，倾向于使权重均匀缩小，防止过拟合；L1产生稀疏性因为其约束区域在坐标轴上有尖角，L2约束区域为圆形；正则化强度由超参数λ控制，λ越大惩罚越强

Q87: DPO和GRPO的基本原理及损失函数构成

【核心解析】 DPO（Direct Preference Optimization）原理；GRPO（Group Relative Policy Optimization）原理；损失函数推导与对比；偏好对齐方法

Q88: GRPO在CoT场景下不稳定怎么改进

【核心解析】 GRPO在思维链场景中的不稳定性表现；可能原因分析（如奖励信号稀疏、探索不足）；改进策略（如奖励塑形、正则化、混合训练）

Q89: Reward怎么设计的，蒸馏的损失函数

【核心解析】 奖励函数设计原则；稀疏奖励与稠密奖励；知识蒸馏中的损失函数（如KL散度、特征匹配损失）；蒸馏在Agent训练中的应用

Q90: 在使用LoRA进行增量训练时，如何解决灾难性遗忘问题？

【核心解析】 理解灾难性遗忘的定义与成因；掌握LoRA微调的原理及其对遗忘的影响；能够提出缓解策略，如正则化、数据回放、弹性权重巩固等；了解在Agent训练中的实际应用场景

Q91: 在DPO样本偏好中，尝试不同reward或其它层面的偏好对齐时，选择的依据是什么？

【核心解析】 理解DPO（Direct Preference Optimization）的基本原理；掌握偏好对齐中reward建模的多种方式；能够根据任务需求选择偏好层面（如安全性、有用性等）；了解不同偏好对齐方法的优缺点

Q92: 你了解机器学习和强化学习吗？请简述它们的基本原理及在agent中的应用。

【核心解析】 监督学习、无监督学习、强化学习的区别；强化学习的马尔可夫决策过程与奖励机制；深度学习在agent感知与决策中的作用；在agent训练中如何应用强化学习进行策略优化

Q93: 在SFT过程中，是否对类别标签进行了清洗或修正？

【核心解析】 数据质量对模型性能的影响；标签噪声的识别与处理；类别不平衡的修正策略；SFT阶段的数据预处理流程

Q94: 强化学习训练中的样本量是多少？样本量的选择是否影响模型的收敛速度？

【核心解析】 强化学习样本量的确定方法；样本量对收敛速度的影响机制；样本效率与训练稳定性的权衡；经验回放缓冲区大小等超参数的作用

Q95: SFT 和 GRPO 在优化目标上有什么区别？

【核心解析】 SFT 通过最大化给定输入下目标 token 的似然来模仿训练数据，优化目标是交叉熵损失；GRPO 直接优化策略以最大化期望奖励，属于强化学习范式；SFT 依赖静态数据集，GRPO 通过在线采样和奖励信号进行探索与利用；GRPO 引入优势函数和重要性采样来估计梯度，而 SFT 仅做监督学习；GRPO 可以优化序列级奖励，SFT 仅优化 token 级似然。

Q96: GRPO 相比 PPO 有哪些改进和好处？

【核心解析】 GRPO 使用组内相对优势估计，无需单独的价值网络，减少计算开销；通过组内标准化降低对奖励尺度的敏感性；更适合序列级奖励的信用分配；简化了 PPO 的裁剪和 KL 约束，训练更稳定；在 Agent 任务中通常样本效率更高。

Q97: GRPO 中的 Advantages 是怎么计算的？在整个训练中起什么作用？为什么需要 Advantages，直接用奖励不行吗？

【核心解析】 GRPO 中 Advantages 通过组内奖励标准化计算：对同一 prompt 采样的一组输出，计算每个输出的奖励相对于组内均值和标准差的偏差；Advantages 用于策略梯度更新，指示动作的相对好坏，减少方差；直接用奖励会导致高方差和偏移，因为奖励绝对值受环境随机性影响大；Advantages 帮助模型区分哪些动作真正优于平均水平，提高训练稳定性。

Q98: GRPO 中一组的大小这个超参数如何影响模型训练？为什么全好或全坏时这一步对模型训练不起作用？

【核心解析】 组大小决定优势估计的样本量，太小则估计方差大，太大则计算成本高；全好或全坏时组内奖励无差异，优势全为零，梯度更新无方向；组大小影响探索程度，较大组可能包含更多样化的输出；适当组大小平衡方差与效率，通常 4-16 常见。

Q99: PPO 的 Advantages 具体是怎么计算的？

【核心解析】 PPO 通常使用广义优势估计（GAE），基于价值网络预测的状态值计算 TD 误差；GAE 通过指数加权平均多步 TD 误差来平衡偏差和方差；需要维护一个价值网络（critic）来估计 V(s)；Advantages = Σ (γλ)^t δ_t，其中 δ_t 是 TD 残差；与 GRPO 不同，PPO 依赖价值网络，而 GRPO 通过组内比较避免价值网络。

Q100: GRPO 训练中应该观察哪些指标？

【核心解析】 平均奖励和奖励分布，监控模型性能提升；KL 散度（新旧策略差异），防止策略崩溃；优势值的均值和方差，检查训练信号质量；响应长度和多样性，避免模式坍塌；训练损失和梯度范数，确保优化稳定。

Agent_Training 面试专题手册 ​

Q1: 讲讲QLoRA的核心思想 ​

Q2: 如果你微调的是逻辑推理任务，相比于对话任务，你认为秩应该大还是小 ​

Q3: 在推理阶段，为了消除LoRA带来的额外延迟，你会进行权重Merge吗 ​

Q4: 在垂域指令微调时，如果模型原本的通用能力下降，你有哪些方法解决 ​

Q5: DPO在训练时，为什么不需要像PPO那样在线采样生成回答 ​

Q6: DPO数据格式是什么样的 ​

Q7: 了解LoRA微调吗？ ​

Q8: 在训练LoRA时，两个参数矩阵分别是如何初始化的？ ​

Q9: Few-shot在Agent中有没有用？ ​

Q10: 在 Agent 开发中，few-shot 的具体考量有哪些？ ​

Q11: 在样本量极少的情况下，如何解决 LoRA 微调容易出现的过拟合或欠拟合问题？ ​

Q12: 单用SFT不行吗 ​

Q13: 损失函数知道吗 ​

Q14: DPO真的有解决你遇到的问题吗 ​

Q15: 还是那你认为DPO能否解决复读机问题呢 ​

Q16: 你怎么看SFT和DPO ​

Q17: 请讲解PPO和GRPO算法，并比较它们在token级别奖励上的异同。 ​

Q18: 你的项目数据量有多少？数据来源是什么？小数据集是否容易过拟合？如何应对？ ​

Q19: SFT 和 GRPO 在优化目标上有什么区别？GRPO 相比 PPO 有哪些改进？ ​

Q20: GRPO 中的 Advantages 是如何计算的？组大小超参数如何影响训练？ ​

Q21: 在模型训练中，什么时候选择SFT、蒸馏或GRPO？它们各自适用什么场景？ ​

Q22: GRPO训练过程中需要观察哪些关键指标？ ​

Q23: 请详细解释GRPO的损失函数构成及其设计思想。 ​

Q24: GRPO中的Advantages是如何计算的？在整个训练中起什么作用？为什么需要Advantages，直接用奖励不行吗？ ​

Q25: 重要性采样在策略梯度方法中为什么需要？如果新旧策略差别很大，重要性采样还有效吗？ ​

Q26: GRPO的KL散度与PPO的KL散度是否完全相同？ ​

Q27: PPO和GRPO是On-policy还是Off-policy算法？PPO中的Advantages是如何得到的？ ​

Q28: 在GRPO中，如果采样结果是序列级别的，且最终奖励高，如何将信用分配到序列中的每个token？ ​

Q29: 是否自己部署过推理服务？有没有做过算子融合或IO瓶颈优化？ ​

Q30: 在构建Agent训练数据时，如何筛选和处理历史工单及知识库数据？ ​

Q31: 在Agent系统中，如何根据任务类型选择模型架构和尺寸？ ​

Q32: 在Agent的生成模型微调中，如何使用LoRA/QLoRA进行高效微调？ ​

Q33: 在大模型训练和蒸馏中，KL散度有哪些典型应用场景？ ​

Q34: 如何构造指令微调样本并利用线上badcase进行数据闭环优化？ ​

Q35: Hermes 的自进化机制是基于 memory/skills 还是模型自进化？ ​

Q36: GRPO 和 DPO 两种训练方法有什么区别？ ​

Q37: DPO训练中常见的翻车原因有哪些？如何评估DPO训练效果？ ​

Q38: 请解释GRPO的公式，并说明实际使用时如何处理π_theta和π_old？ ​

Q39: GRPO和DPO的区别是什么？分别适用于什么场景？ ​

Q40: 为什么GRPO中经常要做组内归一化advantage？ ​

Q41: Agentic Training 的训练流程是怎样的？如何构造训练数据并优化轨迹质量？ ​

Q42: 实际训练 Agent 时，工具返回的内容是否需要 mask？为什么？ ​

Q43: 为什么要用DPO，你的DPO数据从哪里来？ ​

Q44: DPO为什么常配合rejection sampling，而不是直接拿随机负样本训练？ ​

Q45: 为什么说DPO数据最好来自上一版checkpoint的采样分布？ ​

Q46: DPO的核心公式是什么，里面的πθ和πref分别代表什么？ ​

Q47: DPO中beta参数过大或过小会发生什么？ ​

Q48: 如何判断模型是否收敛？训练时遇到梯度消失或爆炸如何解决？ ​

Q49: LoRA 微调的原理是什么？ ​

Q50: Adam 和 AdamW 的原理及改进是什么？ ​

Q51: 有哪些常见的知识蒸馏方法？ ​

Q52: 大模型LoRA训练时需要设置哪些参数？如何判断过拟合和欠拟合？ ​

Q53: Flash Attention和Page Attention的原理是什么？ ​

Q54: 强化学习有自己训练过吗？ ​

Q55: 为什么在模型对齐中使用强化学习而不是仅使用SFT？SFT为什么不能实现对齐？ ​

Q56: 能否直接使用强化学习进行训练，而不经过SFT阶段？ ​

Q57: 在金融项目中，使用LoRA微调大模型时需要设置哪些关键参数？ ​

Q58: 训练大模型时如何判断过拟合和欠拟合？ ​

Q59: 你有自己训练过强化学习模型吗？请介绍相关经验。 ​

Q60: 为什么使用SFT（监督微调）而不是强化学习？ ​

Q61: 解决模型过拟合的方式有哪些？ ​

Q62: 模型推理优化除了传统算子，还会用什么样的架构或加速手段？ ​

Q63: 多任务学习中损失函数怎么融合？ ​

Q64: Block Causal Mask如何优化线上推理？ ​

Q65: 序列item和candidate item是单独还是共享Embedding？ ​

Q66: 精排稀疏目标和稠密目标之间怎么做平衡 ​

Q67: rankmixer结构介绍，对比transformer结构优势 ​

Q68: 对于RLVR（Reinforcement Learning with Verifiable Rewards）的训练，能否认为是一种SFT（Supervised Fine-Tuning）？ ​

Q69: 了解哪些强化学习算法？请说明PPO、GRPO、DPO的区别。 ​

Q70: 在项目训练过程中，你是怎么解决过拟合问题的？ ​

Q71: 了解强化学习算法吗？说下 PPO、GRPO、DPO 的区别。 ​

Q72: 项目训练过程中，怎么解决过拟合的？ ​

Q73: 针对项目问题：Embedding 和 ReRank 模型具体怎么做的微调？ ​

Q74: 简要介绍一下 SFT 的核心流程以及数据集的构建策略。 ​

Q75: PPO 和 DPO 在大模型对齐中的主要区别是什么？DPO 训练时有哪些注意事项？ ​

Q76: 有做过强化学习，微调用过什么框架吗 ​

Q77: LoRA是否了解 ​

Q78: SFT 的训练目标是什么？ ​

Q79: LoRA 微调的超参数（rank）如何选择？ ​