Agent_Training 面试专题手册
💡 本章节共收录 4439 道面试真题,建议每天复习 10-20 题。
Q1: 讲讲QLoRA的核心思想
【核心解析】 QLoRA通过将预训练模型量化为4-bit NormalFloat,并引入双重量化减少内存占用,再结合LoRA进行低秩适配,实现在单张消费级GPU上微调大模型;核心在于分页优化器处理梯度检查点时的内存峰值,以及保持16位精度的LoRA适配器更新
Q2: 如果你微调的是逻辑推理任务,相比于对话任务,你认为秩应该大还是小
【核心解析】 逻辑推理任务通常需要更强的表征能力,因此秩应设置较大以保留更多可调参数;对话任务相对简单,较小秩即可;需权衡计算资源与性能,秩越大越接近全参微调效果
Q3: 在推理阶段,为了消除LoRA带来的额外延迟,你会进行权重Merge吗
【核心解析】 可以将LoRA适配器权重与预训练权重合并,消除推理时的额外计算;合并后模型变为标准结构,无额外延迟;但需注意合并后无法再单独调整适配器,且可能影响模型泛化
Q4: 在垂域指令微调时,如果模型原本的通用能力下降,你有哪些方法解决
【核心解析】 混合通用数据与垂域数据进行微调;使用弹性权重巩固(EWC)等正则化方法限制重要参数变化;采用适配器或前缀调优等参数高效微调方法;逐步解冻或差分学习率;回放通用数据
Q5: DPO在训练时,为什么不需要像PPO那样在线采样生成回答
【核心解析】 DPO直接基于离线偏好对优化策略,将奖励函数隐式表示为策略比率,无需显式奖励模型和在线采样;PPO需要当前策略采样生成回答以估计优势函数,而DPO通过闭式解直接优化,避免在线交互
Q6: DPO数据格式是什么样的
【核心解析】 DPO数据通常为三元组(prompt, chosen, rejected),包含输入提示、人类偏好的回答和拒绝的回答;有时还包含参考策略的对数概率;数据需成对偏好标注,无需奖励分数
Q7: 了解LoRA微调吗?
【核心解析】 LoRA通过低秩分解矩阵来近似权重更新,减少可训练参数;在Transformer的注意力层添加旁路矩阵A和B,A用高斯初始化,B用零初始化;训练时仅更新A和B,保持原模型权重冻结;可显著降低显存占用和训练成本;支持多任务切换,只需加载不同的LoRA权重
Q8: 在训练LoRA时,两个参数矩阵分别是如何初始化的?
【核心解析】 矩阵A使用高斯分布初始化,以提供初始的随机扰动;矩阵B初始化为零矩阵,使得初始时ΔW = BA = 0,不改变原模型输出;这种初始化确保训练开始时模型行为与原模型一致;训练过程中A和B逐渐学习到任务相关的低秩更新;零初始化有助于稳定训练,避免初始梯度方向偏差
Q9: Few-shot在Agent中有没有用?
【核心解析】 Few-shot可引导模型输出格式和推理模式;在工具调用场景中提供示例能提高准确率;但过多示例会增加推理成本;需结合微调或提示工程优化效果;对复杂任务可能需要动态选择示例
Q10: 在 Agent 开发中,few-shot 的具体考量有哪些?
【核心解析】 示例选择:覆盖典型场景和边界情况;格式一致性:输入输出结构需与任务匹配;数量平衡:避免过多导致上下文过长或过少导致泛化不足;动态示例:根据当前输入检索最相关示例。
Q11: 在样本量极少的情况下,如何解决 LoRA 微调容易出现的过拟合或欠拟合问题?
【核心解析】 过拟合缓解:降低LoRA秩(r)、增加dropout、使用正则化(权重衰减)、早停(Early Stopping)、数据增强(同义词替换、回译等);欠拟合缓解:增加LoRA秩、调整学习率、增加训练轮次、解冻更多层(如增加LoRA作用模块);小样本策略:利用预训练模型知识、少样本学习(Few-shot Learning)、提示工程(Prompt Engineering)辅助;评估与验证:交叉验证、保留验证集监控损失;其他技巧:混合RAG与微调、课程学习(Curriculum Learning)
Q12: 单用SFT不行吗
【核心解析】 SFT(监督微调)在Agent训练中的局限性;SFT对高质量标注数据的依赖;SFT可能导致模型缺乏探索能力或过拟合;在复杂决策任务中需要强化学习等方法的补充
Q13: 损失函数知道吗
【核心解析】 Agent训练中常用的损失函数(交叉熵、策略梯度损失等);SFT与RLHF中损失函数的差异;损失函数如何影响模型行为(如重复生成、多样性);针对特定问题(如复读机)的损失函数设计
Q14: DPO真的有解决你遇到的问题吗
【核心解析】 DPO(直接偏好优化)在Agent训练中的实际效果;DPO相比RLHF的优势与不足;DPO在缓解特定问题(如复读机、安全性)上的表现;结合项目经验评估DPO的适用性
Q15: 还是那你认为DPO能否解决复读机问题呢
【核心解析】 复读机问题的成因(如模型退化、训练偏差);DPO的偏好学习机制能否抑制重复生成;DPO与对比学习、正则化等方法在解决复读机问题上的比较;实际训练中DPO的调参与效果
Q16: 你怎么看SFT和DPO
【核心解析】 SFT与DPO在训练范式上的区别(监督学习 vs 偏好优化);两者在Agent训练中的角色与结合方式;SFT作为基础对齐,DPO用于偏好微调的优劣;实际项目中如何选择与平衡
Q17: 请讲解PPO和GRPO算法,并比较它们在token级别奖励上的异同。
【核心解析】 PPO(Proximal Policy Optimization)通过裁剪重要性权重稳定策略更新,常用于RLHF;GRPO(Group Relative Policy Optimization)是PPO的变体,可能引入组内相对优势估计;在token级别奖励上,PPO通常对每个token使用相同的奖励信号(如句子级奖励广播),而GRPO可能对序列内不同token分配不同权重或相对奖励;具体差异取决于实现,需结合KL散度约束和奖励稀疏性讨论。
Q18: 你的项目数据量有多少?数据来源是什么?小数据集是否容易过拟合?如何应对?
【核心解析】 数据规模与来源说明;小数据集过拟合风险分析;数据增强策略;正则化方法;模型复杂度控制。
Q19: SFT 和 GRPO 在优化目标上有什么区别?GRPO 相比 PPO 有哪些改进?
【核心解析】 SFT 是监督微调,优化目标是最大化给定正确输出的概率;GRPO 是强化学习算法,优化目标是最大化期望奖励,通过组内相对比较更新策略;GRPO 相比 PPO 去除了价值网络,减少了计算开销;GRPO 使用组内奖励归一化计算优势,避免全好或全坏时更新无效;PPO 使用广义优势估计(GAE)计算优势,需要价值网络
Q20: GRPO 中的 Advantages 是如何计算的?组大小超参数如何影响训练?
【核心解析】 GRPO 对每个 prompt 采样一组响应,计算组内奖励的均值和标准差,优势为归一化后的奖励;组大小影响优势估计的方差和训练效率;全好或全坏时组内标准差为零,优势为零,该步对模型训练不起作用;组越大估计越稳定,但计算成本越高;需要平衡估计准确性和资源消耗
Q21: 在模型训练中,什么时候选择SFT、蒸馏或GRPO?它们各自适用什么场景?
【核心解析】 SFT适用于有高质量标注数据的监督微调;蒸馏适用于将大模型知识迁移到小模型,需要教师模型;GRPO适用于基于奖励信号的策略优化,无需显式标注数据
Q22: GRPO训练过程中需要观察哪些关键指标?
【核心解析】 奖励信号的变化趋势;策略损失和值函数损失的收敛情况;KL散度以控制策略更新幅度;样本效率与训练稳定性
Q23: 请详细解释GRPO的损失函数构成及其设计思想。
【核心解析】 策略损失基于优势加权;值函数损失用于拟合回报;可能包含熵正则项以鼓励探索;整体目标平衡策略改进与稳定性
Q24: GRPO中的Advantages是如何计算的?在整个训练中起什么作用?为什么需要Advantages,直接用奖励不行吗?
【核心解析】 Advantages计算通常为回报减去基线(如值函数估计);作用是通过相对优势减少方差,指导策略更新方向;直接用奖励会引入高方差,且无法区分动作好坏
Q25: 重要性采样在策略梯度方法中为什么需要?如果新旧策略差别很大,重要性采样还有效吗?
【核心解析】 重要性采样用于修正旧策略采样数据在新策略下的期望;当策略差异大时,重要性权重方差剧增,可能导致训练不稳定;通常结合KL散度约束或裁剪机制
Q26: GRPO的KL散度与PPO的KL散度是否完全相同?
【核心解析】 两者都用于约束策略更新幅度;PPO中KL散度可作为惩罚项或自适应系数;GRPO可能采用类似但实现细节有差异;核心思想都是防止策略突变
Q27: PPO和GRPO是On-policy还是Off-policy算法?PPO中的Advantages是如何得到的?
【核心解析】 PPO和GRPO通常属于on-policy算法,但可利用重要性采样复用旧数据;PPO中Advantages常用GAE(广义优势估计)计算;GAE平衡偏差与方差,利用多步回报和值函数
Q28: 在GRPO中,如果采样结果是序列级别的,且最终奖励高,如何将信用分配到序列中的每个token?
【核心解析】 信用分配问题:需将序列级奖励分解为每个动作的贡献;常用方法如基于值函数的差分奖励、注意力权重或逐token的奖励模型;GRPO可能通过优势函数隐式分配
Q29: 是否自己部署过推理服务?有没有做过算子融合或IO瓶颈优化?
【核心解析】 推理服务的部署方式(如Triton、vLLM);算子融合的原理与实现(如减少kernel launch开销);IO瓶颈的识别与优化(如模型加载、数据传输);推理性能调优的实践经验。
Q30: 在构建Agent训练数据时,如何筛选和处理历史工单及知识库数据?
【核心解析】 数据来源包括历史工单、知识库问答和线上badcase回流;需进行脱敏、去重、规则版本对齐和人工抽检;过滤过期结论、个人信息和临时workaround;确保输入、证据、答案和规则版本一致
Q31: 在Agent系统中,如何根据任务类型选择模型架构和尺寸?
【核心解析】 分类和字段抽取任务使用encoder模型如DeBERTa-v3-base、RoBERTa-wwm-ext,注重判别边界和低延迟;生成任务使用7B级别模型进行LoRA微调,学习企业问答风格和拒答策略;模型选择需平衡效果、部署成本和延迟
Q32: 在Agent的生成模型微调中,如何使用LoRA/QLoRA进行高效微调?
【核心解析】 LoRA配置包括r=16、lora_alpha=32、target_modules为q_proj/k_proj/v_proj/o_proj;分类模型可全参微调或微调上层;选择依据包括验证集F1、P95延迟和线上资源成本
Q33: 在大模型训练和蒸馏中,KL散度有哪些典型应用场景?
【核心解析】 RLHF/DPO/GRPO中使用KL控制模型偏离reference model;蒸馏中使用teacher/student的soft label进行KL,保留类别间相似性;KL比仅学习hard label更能保留分布信息
Q34: 如何构造指令微调样本并利用线上badcase进行数据闭环优化?
【核心解析】 高质量问答、证据片段和标准处理建议的样本构造方法;badcase回流到评测集和训练集的流程;数据闭环避免仅修改prompt的局限性;通过检索增强、证据约束提升模型效果。
Q35: Hermes 的自进化机制是基于 memory/skills 还是模型自进化?
【核心解析】 Hermes 可能结合了外部记忆(memory)和技能库(skills)的积累与检索;自进化通常指通过交互数据微调模型本身;需要区分是动态知识更新还是模型参数更新;memory/skills 方式更轻量,可解释性强;模型自进化涉及持续训练,成本高但可能泛化更好。
Q36: GRPO 和 DPO 两种训练方法有什么区别?
【核心解析】 GRPO(Group Relative Policy Optimization)是 PPO 的变体,使用组内相对奖励,无需价值网络;DPO(Direct Preference Optimization)直接基于偏好对优化策略,无需显式奖励模型;GRPO 更稳定,适合大规模训练;DPO 更简单,计算成本低;两者都用于对齐人类偏好。
Q37: DPO训练中常见的翻车原因有哪些?如何评估DPO训练效果?
【核心解析】 模型过度追求偏好差异,偏离SFT分布,导致格式不稳、长度漂移和泛化下降;beta、数据质量和参考模型配置不当是常见翻车原因;评估不仅看训练loss,还需关注win rate、拒答准确率、长度分布和业务验证集表现
Q38: 请解释GRPO的公式,并说明实际使用时如何处理π_theta和π_old?
【核心解析】 GRPO基于组内相对优势,对同一问题采样多个回答,用组内均值和方差归一化reward得到advantage,再更新策略;公式包含重要性比率,实际中π_old为采样时的旧策略,一轮rollout后旧策略比例近似为1;优化时主要用advantage和KL约束控制模型偏移,工程实现常结合优势分数和KL散度做稳定优化
Q39: GRPO和DPO的区别是什么?分别适用于什么场景?
【核心解析】 DPO依赖成对偏好数据,优化chosen相对rejected的概率差,工程轻量,适合已有偏好对场景;GRPO依赖同一prompt下多候选的reward,通过组内相对优势更新策略,适合数学、代码、推理等可打分任务;DPO关键在pair质量,GRPO关键在reward设计和采样质量;两者适用阶段不同,SFT后可先DPO稳偏好,再用GRPO针对可验证任务提升
Q40: 为什么GRPO中经常要做组内归一化advantage?
【核心解析】 消除不同prompt之间reward标尺不一致问题,避免reward绝对值影响更新;让模型关注同一问题下候选答案的相对优劣;训练更稳定,适合多候选采样场景
Q41: Agentic Training 的训练流程是怎样的?如何构造训练数据并优化轨迹质量?
【核心解析】 训练模型进行规划、调用工具、观察结果、修正策略并输出最终答案;流程包括收集任务指令、构造工具集合和 schema、生成 action、执行工具得到 observation、基于 observation 继续决策;训练数据格式为 instruction -> thought/action -> observation -> next action -> final;需区分可见动作、内部推理和工具返回,重点学习何时调用工具、选择工具、填参和失败恢复;难点在于保证轨迹质量,避免无效调用、重复调用或错误观察。
Q42: 实际训练 Agent 时,工具返回的内容是否需要 mask?为什么?
【核心解析】 工具返回通常应 mask,因为它是环境反馈而非模型需学习生成的内容;mask 可避免模型背诵工具返回,而是学习基于结果做决策;常见做法是用户输入和工具返回参与 attention 但不参与 loss,assistant 的 action、参数和 final answer 参与 loss;这样模型能观察 observation 但不会直接模仿。
Q43: 为什么要用DPO,你的DPO数据从哪里来?
【核心解析】 DPO用于偏好对齐,让模型在候选答案中选择符合业务偏好的回答;SFT解决“会不会做”,DPO解决“更喜欢哪种做法”;数据构造方法:用上一版checkpoint对同一prompt做多候选采样,经规则、模型评审和人工复核构造chosen/rejected对;避免使用商业API蒸馏样本,防止偏好边界偏移到外部模型风格
Q44: DPO为什么常配合rejection sampling,而不是直接拿随机负样本训练?
【核心解析】 随机负样本太弱,模型容易区分,学不到细粒度偏好边界;Rejection sampling从当前模型或上一版模型的候选输出中筛掉不合格样本,保留质量差异接近但偏好明确的样本;这样chosen/rejected更接近模型真实会犯的错误,对DPO更有价值;避免样本分布与当前模型差异过大导致训练变成风格迁移
Q45: 为什么说DPO数据最好来自上一版checkpoint的采样分布?
【核心解析】 DPO优化假设模型需要在自身可能生成的候选空间里调整偏好;如果rejected来自另一个强模型或风格体系,可能不是当前模型真实会生成的坏答案,优化信号变弱;上一版checkpoint采样更贴近当前模型的错误模式,DPO能真正修正偏好;实际训练需控制采样温度、候选数量和过滤规则
Q46: DPO的核心公式是什么,里面的πθ和πref分别代表什么?
【核心解析】 DPO损失函数:L_DPO = -E[log σ(β * (log(πθ(yw|x)/πref(yw|x)) - log(πθ(yl|x)/πref(yl|x))))];πθ是当前要训练的模型,πref是SFT后冻结的参考模型;β控制偏好优化强度;核心是让当前模型相对参考模型,在chosen/rejected的概率差上产生更符合偏好的变化
Q47: DPO中beta参数过大或过小会发生什么?
【核心解析】 beta是偏好约束强度;太小时,chosen和rejected的差异信号被压得很弱,训练变慢,偏好提升不明显;太大时,模型可能过度偏向chosen,导致过拟合或偏离参考模型太远,影响泛化能力
Q48: 如何判断模型是否收敛?训练时遇到梯度消失或爆炸如何解决?
【核心解析】 监控loss曲线和验证指标;梯度消失可调整激活函数、使用BatchNorm/LayerNorm、残差连接、调整学习率;梯度爆炸可梯度裁剪、权重正则化、调整学习率、检查权重初始化。
Q49: LoRA 微调的原理是什么?
【核心解析】 低秩适应,冻结预训练权重,注入可训练的低秩分解矩阵;通过A和B矩阵近似权重更新;减少可训练参数量,降低显存和计算开销。
Q50: Adam 和 AdamW 的原理及改进是什么?
【核心解析】 Adam结合动量和自适应学习率;AdamW将权重衰减与梯度更新解耦,改善正则化效果;AdamW通常泛化性能更好。
Q51: 有哪些常见的知识蒸馏方法?
【核心解析】 软标签蒸馏;特征蒸馏;关系蒸馏;在线蒸馏;自蒸馏;适用于模型压缩和加速。
Q52: 大模型LoRA训练时需要设置哪些参数?如何判断过拟合和欠拟合?
【核心解析】 LoRA秩r和缩放因子alpha的选择;目标模块(如q_proj, v_proj)的指定;学习率、训练轮数、批次大小等常规超参数;过拟合表现为训练损失低但验证损失高,欠拟合表现为两者均高;可通过监控损失曲线和下游任务指标判断
Q53: Flash Attention和Page Attention的原理是什么?
【核心解析】 Flash Attention通过分块计算和重计算减少显存访问,加速注意力计算;Page Attention将KV缓存分页管理,支持动态内存分配,提升吞吐量;两者均优化了长序列处理时的内存效率;Flash Attention利用GPU的SRAM进行分块矩阵乘法;Page Attention借鉴操作系统分页思想,减少碎片
Q54: 强化学习有自己训练过吗?
【核心解析】 强化学习的基本概念:智能体、环境、状态、动作、奖励;常用算法如DQN、PPO的原理;训练流程:交互采样、经验回放、策略更新;探索与利用的平衡;实际应用中的挑战:奖励设计、样本效率、稳定性
Q55: 为什么在模型对齐中使用强化学习而不是仅使用SFT?SFT为什么不能实现对齐?
【核心解析】 SFT只能模仿训练数据中的行为,无法处理分布外情况;强化学习通过奖励信号直接优化目标,能探索更优策略;SFT缺乏对生成结果长期影响的建模;强化学习可以结合人类反馈进行在线学习;对齐需要模型理解复杂的人类价值观,强化学习更适合多目标优化。
Q56: 能否直接使用强化学习进行训练,而不经过SFT阶段?
【核心解析】 直接从随机策略开始强化学习效率低,难以收敛;SFT提供良好的初始策略,加速强化学习过程;SFT可以稳定训练,避免早期探索中的高风险行为;结合SFT和强化学习的两阶段训练是常见做法;直接强化学习可能面临稀疏奖励和巨大探索空间的问题。
Q57: 在金融项目中,使用LoRA微调大模型时需要设置哪些关键参数?
【核心解析】 秩r的大小,影响低秩矩阵的表达能力和参数量;alpha缩放参数,控制低秩更新的幅度;目标模块的选择,如注意力层的q、v矩阵;dropout率,用于正则化防止过拟合;学习率和训练轮次等标准训练超参数。
Q58: 训练大模型时如何判断过拟合和欠拟合?
【核心解析】 过拟合:训练损失持续下降但验证损失上升;欠拟合:训练损失和验证损失都较高且下降缓慢;观察训练和验证曲线之间的差距;使用早停法监控验证集性能;通过调整模型复杂度、正则化或数据量来缓解。
Q59: 你有自己训练过强化学习模型吗?请介绍相关经验。
【核心解析】 描述具体的强化学习项目或实验;使用的算法如PPO、DQN等;环境设置和奖励设计;遇到的挑战如稀疏奖励、稳定性问题;调参和优化过程。
Q60: 为什么使用SFT(监督微调)而不是强化学习?
【核心解析】 数据效率:SFT直接利用标注数据模仿人类行为,训练稳定;实现复杂度:SFT相对简单,强化学习需要设计奖励函数和环境交互;任务适用性:对于明确输入输出的任务,SFT能快速收敛到较好效果;安全性:SFT更容易控制模型行为,避免强化学习探索过程中的意外输出;资源消耗:强化学习通常需要更多计算资源和调参工作。
Q61: 解决模型过拟合的方式有哪些?
【核心解析】 正则化技术(L1/L2、Dropout);数据增强;早停法;模型简化;集成学习
Q62: 模型推理优化除了传统算子,还会用什么样的架构或加速手段?
【核心解析】 模型量化(INT8/FP16);算子融合;内存优化(KV Cache);模型剪枝;知识蒸馏;使用专用推理引擎(如TensorRT)
Q63: 多任务学习中损失函数怎么融合?
【核心解析】 加权求和;不确定性加权;动态权重调整(如GradNorm);帕累托最优;多目标优化
Q64: Block Causal Mask如何优化线上推理?
【核心解析】 减少注意力计算量;利用KV Cache;分块计算;避免未来信息泄露;适配自回归生成
Q65: 序列item和candidate item是单独还是共享Embedding?
【核心解析】 参数共享与独立学习的权衡;模型容量;特征交互;冷启动问题;计算效率
Q66: 精排稀疏目标和稠密目标之间怎么做平衡
【核心解析】 多目标联合训练;动态权重调整;帕累托最优求解;使用MMOE或PLE等多任务学习结构;评估指标权衡
Q67: rankmixer结构介绍,对比transformer结构优势
【核心解析】 RankMixer使用低秩混合替代自注意力;计算复杂度降低;参数效率更高;适合长序列建模;保留全局交互能力
Q68: 对于RLVR(Reinforcement Learning with Verifiable Rewards)的训练,能否认为是一种SFT(Supervised Fine-Tuning)?
【核心解析】 RLVR利用可验证奖励信号进行强化学习,与SFT有本质区别;SFT是模仿学习,依赖标注数据;RLVR通过探索和奖励优化策略,可能超越标注质量;RLVR可结合SFT初始化策略;RLVR更适用于有明确验证逻辑的任务
Q69: 了解哪些强化学习算法?请说明PPO、GRPO、DPO的区别。
【核心解析】 PPO(Proximal Policy Optimization)通过裁剪目标函数稳定策略更新;GRPO(Group Relative Policy Optimization)在PPO基础上引入组内相对优势估计;DPO(Direct Preference Optimization)直接基于偏好对优化策略,无需显式奖励模型;PPO和GRPO属于在线策略算法,DPO为离线偏好学习;GRPO适合多步推理任务,DPO训练更稳定
Q70: 在项目训练过程中,你是怎么解决过拟合问题的?
【核心解析】 使用正则化技术如Dropout、权重衰减;早停法监控验证集性能;数据增强增加训练多样性;降低模型复杂度或特征维度;集成学习减少方差
Q71: 了解强化学习算法吗?说下 PPO、GRPO、DPO 的区别。
【核心解析】 PPO 是策略梯度方法,通过裁剪重要性采样比率来稳定训练;GRPO 是群体相对策略优化,利用群体样本的相对比较来更新策略,减少方差;DPO 是直接偏好优化,利用偏好数据直接优化策略,无需显式奖励模型;理解三者在样本效率、稳定性和适用场景上的差异
Q72: 项目训练过程中,怎么解决过拟合的?
【核心解析】 数据层面:增加数据量、数据增强、交叉验证;模型层面:正则化(L1/L2)、Dropout、Early Stopping、简化模型结构;训练策略:降低学习率、使用预训练模型、集成学习;监控验证集指标,合理划分训练/验证/测试集
Q73: 针对项目问题:Embedding 和 ReRank 模型具体怎么做的微调?
【核心解析】 Embedding 模型微调:使用对比学习(如 SimCSE)、难负样本挖掘、特定领域数据继续训练;ReRank 模型微调:基于交叉编码器架构,使用标注的 query-document 对进行二分类或回归训练;数据构造与损失函数选择;评估指标(如 MRR、NDCG)与迭代优化
Q74: 简要介绍一下 SFT 的核心流程以及数据集的构建策略。
【核心解析】 SFT核心流程:固定输入输出格式,用高质量监督样本做行为对齐;数据集构建注重覆盖度、难度分层和噪声控制;样本类型包括基础指令、复杂推理、拒答、工具调用和格式约束;目标不是背答案,而是稳定按任务要求工作。
Q75: PPO 和 DPO 在大模型对齐中的主要区别是什么?DPO 训练时有哪些注意事项?
【核心解析】 PPO基于奖励模型和策略梯度,训练流程重,对稳定性、采样和奖励建模要求高;DPO直接优化策略,无需显式奖励模型,训练更简单;DPO注意事项:偏好数据质量、正则化、超参选择等。
Q76: 有做过强化学习,微调用过什么框架吗
【核心解析】 强化学习在Agent中的应用(如RLHF、GRPO);常用微调框架(如Hugging Face Transformers、TRL、DeepSpeed、LLaMA-Factory);微调方法(全量微调、LoRA、QLoRA等);强化学习框架(如OpenAI Gym、Stable-Baselines3、Ray RLlib);微调数据准备与格式要求
Q77: LoRA是否了解
【核心解析】 LoRA(Low-Rank Adaptation)原理:在预训练权重旁路添加低秩分解矩阵,仅训练新增参数;优势:大幅减少可训练参数量,降低显存需求,可快速切换任务;与全量微调、Adapter、Prefix Tuning的区别;LoRA的秩(rank)和缩放因子(alpha)等超参数影响;在Agent微调中的应用(如工具调用能力微调)
Q78: SFT 的训练目标是什么?
【核心解析】 监督微调(SFT)在 Agent 训练中的作用(如指令遵循、工具调用格式对齐);损失函数选择(如交叉熵、序列级损失);数据构造策略(多任务混合、课程学习);SFT 与 RLHF 的衔接;避免灾难性遗忘的方法
Q79: LoRA 微调的超参数(rank)如何选择?
【核心解析】 LoRA 的 rank 决定了低秩矩阵的维度,影响模型容量和过拟合风险;选择时需权衡任务复杂度、数据量和计算资源;通常从较小的 rank(如 4 或 8)开始实验,观察验证集性能;高 rank 可能带来更好的拟合但增加过拟合风险;可结合其他超参数(如 alpha)调整缩放因子。
Q80: 是否尝试过多种微调或强化学习方法?
【核心解析】 全量微调、LoRA、QLoRA 等参数高效微调方法的区别与适用场景;强化学习方法如 PPO、DPO 在 Agent 训练中的应用;不同方法对模型性能、训练效率和稳定性的影响;如何根据任务需求选择微调或强化学习策略;实际项目中尝试过的具体方法及其效果对比。
Q81: 强化学习是优化端到端结果,还是优化单步决策?
【核心解析】 强化学习可以优化端到端结果(如最终任务成功率),也可以优化单步决策(如每一步的动作选择);端到端优化通常使用稀疏奖励,单步优化使用密集奖励;在 Agent 中,通常结合两者,通过奖励塑形引导模型;需要根据任务特性设计奖励函数;多步决策场景下需考虑长期回报与即时奖励的平衡。
Q82: 请说明 DPO 和 GRPO 的区别,以及在实际项目中如何选择使用它们?
【核心解析】 DPO 直接利用偏好对做优化,省去显式奖励模型训练,工程上更简单,但对 pairwise 数据质量、正负样本顺序、长度偏差和偏好噪声敏感;GRPO 强调组内相对优势,将同一输入下多个候选放在一起比较,用相对表现更新,对组采样质量和组内比较机制更敏感;DPO 更直接,适合偏好对齐的后半段;GRPO 更偏“同题多答后做相对优化”,适合需要稳定比较多个候选的场景;实际选择需根据数据形式(成对或组)和业务需求(稳定性 vs 简单性)决定。
Q83: 在微调 Qwen 等大模型时,如何选择训练阶段和损失函数?
【核心解析】 能力补齐通常先 SFT 对齐格式和任务流程,再根据业务目标决定是否进入偏好优化阶段;损失函数除标准交叉熵外,需考虑样本权重、长短样本平衡、拒答样本权重、特殊字段损失;抽取类任务更关注结构化字段准确率,生成类任务更关注流畅性和事实一致性;核心原则:先让模型“会做”,再让模型“做得更符合业务偏好”。
Q84: DPO实现原理是什么?DPO过程的卡点有哪些?
【核心解析】 DPO基于偏好对直接优化策略,无需显式奖励模型;DPO损失函数推导与梯度分析;数据收集与标注中的偏好一致性;训练不稳定与过拟合问题;与RLHF的对比及适用场景
Q85: 使用LoRA微调时,有没有遇到模型不收敛或指令输出格式损失不符合预期?LoRA的alpha参数特别强或特别弱会有什么情况?
【核心解析】 LoRA低秩适配原理与参数更新机制;不收敛的可能原因(学习率、秩选择、初始化等);指令格式损失异常的调试方法;alpha参数控制适配器强度:过大可能导致过拟合或覆盖预训练知识,过小则微调效果不足;alpha与秩的配合调整策略
Q86: 介绍一下过拟合是什么,以及L1正则和L2正则之间的区别
【核心解析】 过拟合是指模型在训练数据上表现很好,但在测试数据上泛化能力差,通常因为模型过于复杂或训练数据不足;L1正则化(Lasso)在损失函数中加入权重绝对值之和,倾向于产生稀疏解,可用于特征选择;L2正则化(Ridge)加入权重平方和,倾向于使权重均匀缩小,防止过拟合;L1产生稀疏性因为其约束区域在坐标轴上有尖角,L2约束区域为圆形;正则化强度由超参数λ控制,λ越大惩罚越强
Q87: DPO和GRPO的基本原理及损失函数构成
【核心解析】 DPO(Direct Preference Optimization)原理;GRPO(Group Relative Policy Optimization)原理;损失函数推导与对比;偏好对齐方法
Q88: GRPO在CoT场景下不稳定怎么改进
【核心解析】 GRPO在思维链场景中的不稳定性表现;可能原因分析(如奖励信号稀疏、探索不足);改进策略(如奖励塑形、正则化、混合训练)
Q89: Reward怎么设计的,蒸馏的损失函数
【核心解析】 奖励函数设计原则;稀疏奖励与稠密奖励;知识蒸馏中的损失函数(如KL散度、特征匹配损失);蒸馏在Agent训练中的应用
Q90: 在使用LoRA进行增量训练时,如何解决灾难性遗忘问题?
【核心解析】 理解灾难性遗忘的定义与成因;掌握LoRA微调的原理及其对遗忘的影响;能够提出缓解策略,如正则化、数据回放、弹性权重巩固等;了解在Agent训练中的实际应用场景
Q91: 在DPO样本偏好中,尝试不同reward或其它层面的偏好对齐时,选择的依据是什么?
【核心解析】 理解DPO(Direct Preference Optimization)的基本原理;掌握偏好对齐中reward建模的多种方式;能够根据任务需求选择偏好层面(如安全性、有用性等);了解不同偏好对齐方法的优缺点
Q92: 你了解机器学习和强化学习吗?请简述它们的基本原理及在agent中的应用。
【核心解析】 监督学习、无监督学习、强化学习的区别;强化学习的马尔可夫决策过程与奖励机制;深度学习在agent感知与决策中的作用;在agent训练中如何应用强化学习进行策略优化
Q93: 在SFT过程中,是否对类别标签进行了清洗或修正?
【核心解析】 数据质量对模型性能的影响;标签噪声的识别与处理;类别不平衡的修正策略;SFT阶段的数据预处理流程
Q94: 强化学习训练中的样本量是多少?样本量的选择是否影响模型的收敛速度?
【核心解析】 强化学习样本量的确定方法;样本量对收敛速度的影响机制;样本效率与训练稳定性的权衡;经验回放缓冲区大小等超参数的作用
Q95: SFT 和 GRPO 在优化目标上有什么区别?
【核心解析】 SFT 通过最大化给定输入下目标 token 的似然来模仿训练数据,优化目标是交叉熵损失;GRPO 直接优化策略以最大化期望奖励,属于强化学习范式;SFT 依赖静态数据集,GRPO 通过在线采样和奖励信号进行探索与利用;GRPO 引入优势函数和重要性采样来估计梯度,而 SFT 仅做监督学习;GRPO 可以优化序列级奖励,SFT 仅优化 token 级似然。
Q96: GRPO 相比 PPO 有哪些改进和好处?
【核心解析】 GRPO 使用组内相对优势估计,无需单独的价值网络,减少计算开销;通过组内标准化降低对奖励尺度的敏感性;更适合序列级奖励的信用分配;简化了 PPO 的裁剪和 KL 约束,训练更稳定;在 Agent 任务中通常样本效率更高。
Q97: GRPO 中的 Advantages 是怎么计算的?在整个训练中起什么作用?为什么需要 Advantages,直接用奖励不行吗?
【核心解析】 GRPO 中 Advantages 通过组内奖励标准化计算:对同一 prompt 采样的一组输出,计算每个输出的奖励相对于组内均值和标准差的偏差;Advantages 用于策略梯度更新,指示动作的相对好坏,减少方差;直接用奖励会导致高方差和偏移,因为奖励绝对值受环境随机性影响大;Advantages 帮助模型区分哪些动作真正优于平均水平,提高训练稳定性。
Q98: GRPO 中一组的大小这个超参数如何影响模型训练?为什么全好或全坏时这一步对模型训练不起作用?
【核心解析】 组大小决定优势估计的样本量,太小则估计方差大,太大则计算成本高;全好或全坏时组内奖励无差异,优势全为零,梯度更新无方向;组大小影响探索程度,较大组可能包含更多样化的输出;适当组大小平衡方差与效率,通常 4-16 常见。
Q99: PPO 的 Advantages 具体是怎么计算的?
【核心解析】 PPO 通常使用广义优势估计(GAE),基于价值网络预测的状态值计算 TD 误差;GAE 通过指数加权平均多步 TD 误差来平衡偏差和方差;需要维护一个价值网络(critic)来估计 V(s);Advantages = Σ (γλ)^t δ_t,其中 δ_t 是 TD 残差;与 GRPO 不同,PPO 依赖价值网络,而 GRPO 通过组内比较避免价值网络。
Q100: GRPO 训练中应该观察哪些指标?
【核心解析】 平均奖励和奖励分布,监控模型性能提升;KL 散度(新旧策略差异),防止策略崩溃;优势值的均值和方差,检查训练信号质量;响应长度和多样性,避免模式坍塌;训练损失和梯度范数,确保优化稳定。