Agent_Eval_Safety 面试专题手册
💡 本章节共收录 771 道面试真题,建议每天复习 10-20 题。
Q1: 讲一下Ragas评测
【核心解析】 Ragas是专为RAG系统设计的评估框架,提供上下文相关性、答案忠实度、答案相关性等指标;基于组件化评估,可单独评估检索和生成质量;支持合成测试数据生成,便于自动化评测
Q2: Ragas的Context Precision如果很低,你怎么优化?
【核心解析】 分析Context Precision低的原因,可能是检索结果不相关或排序错误;优化检索策略,如调整嵌入模型、改进索引或混合检索;引入重排序模型对检索结果进行重排;调整Ragas评估时的上下文截断或相关性判断逻辑;结合业务场景定义更精确的相关性标准
Q3: Ragas评测中,如果Faithfulness得分低,说明模型出现了什么问题?
【核心解析】 Faithfulness衡量答案是否严格基于提供的上下文,得分低说明模型产生了幻觉;可能原因包括模型过度依赖自身知识而忽略检索内容;或检索到的上下文不相关,模型强行编造;也反映模型在遵循指令和事实一致性方面的不足。
Q4: 如何保证Agent的输出有用性?
【核心解析】 定义清晰的任务完成标准;引入人类反馈进行强化学习;设计评估指标如任务成功率、用户满意度;实施安全过滤防止有害输出;持续监控和迭代优化
Q5: 如何量化评估一个Agent系统的好坏?
【核心解析】 任务完成率:成功完成任务的比例;效率指标:完成任务所需的时间、步骤数或资源消耗;准确性指标:输出结果的正确性、与参考答案的匹配度;鲁棒性:在异常输入或环境变化下的表现稳定性;用户满意度:通过人工评估或用户反馈衡量;安全性:是否产生有害、偏见或违规内容。
Q6: 你们项目里有没有遇到幻觉问题?
【核心解析】 幻觉的检测方法;缓解策略(如RAG、自我修正);评估指标与人工校验
Q7: 如何客观评价 RAG 的效果?
【核心解析】 评估维度:检索质量(Recall、Precision、MRR)、生成质量(Faithfulness、Answer Relevance、BLEU/ROUGE)、端到端评估;评估方法:人工评估、自动评估(基于LLM的评估)、基准数据集(如KILT、RGB);评估指标:忠实度(Faithfulness)、答案相关性(Answer Relevance)、上下文相关性(Context Relevance);评估挑战:评估标准主观性、评估成本、评估与真实场景的差距;评估工具:RAGAS、TruLens、LangSmith等框架的使用
Q8: LLM 的性能评估指标有哪些?
【核心解析】 任务相关指标:分类(准确率、F1)、生成(BLEU、ROUGE、METEOR、BERTScore)、问答(Exact Match、F1);通用能力指标:困惑度(Perplexity)、推理能力(ARC、HellaSwag)、知识(MMLU)、代码(HumanEval);安全与对齐:毒性(Toxicity)、偏见(Bias)、幻觉率(Hallucination Rate);效率指标:推理延迟、吞吐量、内存占用;人类评估:有用性、无害性、诚实性(HHH)
Q9: 如何设计记忆相关的基准测试(memory benchmark)?
【核心解析】 定义评估维度:检索准确性、推理深度、更新及时性、跨会话一致性;构建包含长程依赖、信息冲突、时间敏感等场景的数据集;设计自动评测指标如召回率、精确率、F1,以及人工评估标准;模拟真实应用中的记忆增长和遗忘曲线;考虑隐私保护和数据隔离。
Q10: 场景题:对于一个安全问题或者case分析的agent,讲一下具体设计
【核心解析】 安全分析Agent的架构设计(输入、分析、输出);如何集成安全知识库或规则引擎;多步骤推理与验证机制;结果的可解释性与置信度评估;安全评估的自动化与人工审核结合
Q11: Agent 的评测需要哪些测试集?需要评测哪些指标?
【核心解析】 测试集应覆盖单轮/多轮对话、工具调用、知识检索等场景;指标包括任务成功率、准确率、响应时间、工具调用正确率、安全性、鲁棒性;可参考 GAIA、AgentBench 等基准。
Q12: JMeter 压测的具体参数是怎么设置的?
【核心解析】 压测需先明确目标(接口吞吐、P99 延迟、长连接稳定性或模型调用链路限流能力);常用参数包括线程数、Ramp-Up 时间、循环次数、持续时间、请求超时、连接超时、吞吐量控制器、断言和结果采样;例如测 Agent 诊断接口,线程数从 50、100、200 逐步加压,Ramp-Up 设置 60 到 180 秒;SSE 或长耗时接口需关注连接保持时间、服务端活跃连接数和网关超时;结果重点看 P95、P99、错误率、线程池队列、数据库连接池、Redis 延迟和模型 API 限流。
Q13: 如何对 Agent 项目进行质量评测?
【核心解析】 任务完成率与成功率;响应时间与资源消耗;鲁棒性测试(对抗样本);安全性评估(越狱、有害输出);用户满意度与人工评估
Q14: Agent的调优是如何评估的?评测集是如何构建的?请分享一两个调优后效果提升显著的案例。
【核心解析】 Agent性能评估的指标体系(如准确率、召回率、任务完成率);评测集的构建方法与数据来源;调优前后的效果对比案例;基于评估结果的迭代优化流程。
Q15: 哪些模型可以输出置信度或概率?如何让模型提供预测的不确定性?
【核心解析】 原生支持概率输出的模型(如贝叶斯神经网络、高斯过程);通过logits或softmax获取分类置信度;语言模型生成时的token概率;校准方法(温度缩放、保序回归);集成方法(Deep Ensembles、MC Dropout)
Q16: 提示词有哪些安全防护措施?提示词是怎么优化的,还有哪些优化方式?
【核心解析】 提示词安全防护(注入攻击防御、敏感信息过滤、输出审查);提示词优化方法(少样本示例、思维链、角色设定);动态提示词构建(上下文注入、用户画像适配);提示词版本管理与A/B测试;提示词长度与效果平衡
Q17: 如何测试Agent搭的好不好?Agent执行细节,大模型会调用哪些工具?
【核心解析】 Agent评估方法(任务成功率、效率、鲁棒性、用户满意度);工具调用的类型(API、数据库、代码执行、搜索);工具调用的监控与日志;评估数据集构建与基准测试;Agent行为的安全边界与伦理考量
Q18: 如何控制大模型的幻觉问题?
【核心解析】 使用 RAG 技术,基于外部知识生成回答;设计严格的提示词约束模型行为;引入事实核查模块,验证生成内容;微调模型降低幻觉倾向;设置输出结构化格式,减少自由发挥。
Q19: 怎么测的RAG的效果
【核心解析】 检索准确性评估(Recall/Precision);生成质量评估(BLEU/ROUGE);端到端评测(忠实度、相关性);人工评估;构建测试集与基线对比
Q20: 生成式召回怎么评估
【核心解析】 召回率@K;准确率;新颖性;多样性;人工相关性判断;与传统召回方法对比
Q21: 码本训练的方法、评估指标、模态对齐怎么做?Embedding模型是否要训练?幻觉怎么解决?
【核心解析】 码本训练:如RQ-VAE将连续特征量化为离散码本;评估指标:码本利用率、重建误差、下游任务性能;模态对齐:通过共享码本或对比学习对齐不同模态;Embedding模型通常需要训练以适配码本;幻觉解决:引入事实核查、检索增强生成、约束解码
Q22: 发现幻觉率很高,该怎么处理
【核心解析】 幻觉的定义与类型(事实性幻觉、忠实性幻觉);缓解方法:改进提示工程(如角色设定、思维链)、RAG(检索增强生成)、微调模型、使用更高精度的模型、后处理校验;评估幻觉的指标(如TruthfulQA、HaluEval);结合知识图谱或结构化数据源;设置安全护栏与人工审核机制
Q23: 如何全面评估一个 RAG 系统是否有效?
【核心解析】 不能只看最终回答的相似度,需拆解为多个层面:检索召回率、证据命中率、答案事实一致性、引用准确率、长尾问题表现、端到端任务成功率;需分析坏 case,如检索到但排序不对、证据有用但被模型忽略、答案正确但引用错误文档;评估应与业务目标绑定,如客服场景关注可解释性,知识问答关注事实一致性,研究场景关注覆盖和证据完整性。
Q24: Agent 流程设计中常见的三个最大问题是什么?
【核心解析】 状态不清:模型忘记目标、重复做事或将临时中间态当成长期事实;工具不稳:调用成功率低、错误语义混乱、参数填充不完整;评测缺失:只看 demo 效果,不知线上失败发生在哪一步,链路不确定性叠加导致最终成功率下降
Q25: 如果让你设计一个Agent系统,怎么设定评定指标(过程指标+结果指标)
【核心解析】 Agent评估体系设计;过程指标(如规划合理性、工具调用准确性);结果指标(如任务完成率、效率);指标量化与权衡
Q26: 在AI Coding中,对于一个客服Agent,当前的奖励函数有哪些?请举例说明。
【核心解析】 理解奖励函数在Agent训练中的作用;能够设计多维度的奖励(如任务完成度、用户满意度、安全性);举例说明客服场景下的具体奖励项(如解决率、响应时间、情感得分);了解奖励塑形(Reward Shaping)的挑战
Q27: 有对比过强模型在这个任务上的表现吗?
【核心解析】 对比不同规模或类型模型(如 GPT-4 vs Qwen)在任务上的效果;评估指标包括任务成功率、效率、输出质量等;强模型可能性能更好但成本更高,需权衡;对比可揭示模型能力边界和 scaling 效应;为技术选型提供依据。
Q28: 模型效果评估为什么不能只看问答准确率?Agent 系统至少还要评什么?
【核心解析】 Agent 需评估路由准确率、工具选择准确率、参数结构合法率;关注调用轮数、无效调用率、失败恢复成功率;高风险场景的保守性;答案正确但工具乱调、成本过高、越权风险仍不合格
Q29: Agent评测工程框架如何支持从预训练到Agent全链路的评测任务
【核心解析】 评测框架需支持多种benchmark和自定义评测集;Agent评测的特殊性(多步交互、工具使用);轨迹合成与复杂任务(如SWE)的支持;框架的稳定性、可扩展性和高效性;与训练流程的集成
Q30: 在智能客服Agent中,如何避免模型的幻觉问题?
【核心解析】 检索增强生成(RAG)与事实核查;知识库约束与来源引用;置信度评估与拒答机制;提示工程与输出验证;人工反馈闭环
Q31: 你公司的 Agent 具体实现中,你做的 Routing Model 实现效果如何?功能有没有做过评测?
【核心解析】 Routing Model 的评估指标(准确率、召回率、延迟);评测方法(离线测试、A/B 测试、人工评估);效果分析与改进方向;Agent 功能评测的整体框架(任务完成率、用户满意度)。
Q32: 如果让你定义agent评测指标,你会关注哪些点?
【核心解析】 任务成功率与完成质量;工具调用的准确性与效率;规划与推理的合理性;鲁棒性与异常处理能力;安全性与伦理合规
Q33: agent性能维度,你了解哪些指标?
【核心解析】 任务完成率、执行时间等效率指标;工具选择准确率、参数正确率;端到端成功率与子任务成功率;用户满意度与交互流畅度;资源消耗与成本控制
Q34: 你怎么做 ablation,证明提升真的是 RAG、SFT、DPO 或 Judge 带来的,而不是别的变量?
【核心解析】 设计控制变量实验:逐个移除或替换组件(如去掉 RAG、用基座模型代替 SFT 模型、关闭 Judge 评分);保持数据、评估指标、随机种子等不变;量化每个组件对最终指标的贡献度(如消融后性能下降幅度);进行统计显著性检验,排除随机波动。
Q35: 同一个问题,你怎么评估不同LLM在你的系统里到底谁更适合上线?
【核心解析】 任务级指标评估:路由正确率、工具选择正确率、参数填写正确率、拒答准确率;效率指标:平均调用次数、总耗时和成本;高风险场景评估:越权风险、工具参数编造、证据不足时乱答;不能仅依赖人工体验或公开benchmark;选型核心是业务约束下的稳定性,而非单纯智能水平
Q36: 设计开发Agent时,如何评估它的好坏?
【核心解析】 任务完成率与成功率;响应准确性与相关性;鲁棒性测试(对抗输入、边界情况);效率指标(延迟、资源消耗);安全性评估(幻觉率、有害输出检测);用户满意度与交互体验。
Q37: 在生成任务中,如何判断模型输出无幻觉、无错误?如何进行重复判断?
【核心解析】 幻觉检测可通过事实一致性评估、外部知识库验证;错误判断需结合任务指标如准确率、F1;重复判断可使用n-gram重叠度、最长公共子序列;常用方法包括基于规则、模型自检和人工评估;需平衡精确率和召回率。
Q38: 怎样去设计一个Agent的沙箱机制
【核心解析】 沙箱的目标(安全隔离、行为监控);沙箱的实现技术(容器化、虚拟化、代码解释器隔离);权限控制与资源限制;恶意行为检测与回滚机制;沙箱在Agent评测与生产环境中的差异
Q39: 你是怎么解决大模型的幻觉问题的?
【核心解析】 幻觉类型:事实错误、逻辑不一致、无中生有;缓解方法:RAG检索增强、Prompt约束(如要求引用来源)、微调高质量数据、输出校验与过滤;评估幻觉的指标和方法;结合业务场景设置安全兜底策略。
Q40: 大模型幻觉怎么规避?大模型幻觉是什么导致的?
【核心解析】 幻觉的成因(训练数据噪声、解码策略、模型过度泛化);规避方法(RAG、事实核查、约束生成、后处理过滤);评估幻觉的指标(如事实一致性、忠实度);模型不确定性估计与校准;外部知识库与工具的使用
Q41: Expert Agent的评价指标(如出商品率、商品正确率)具体如何定义和获取评测数据?
【核心解析】 业务指标的定义与量化方法;评测数据集的构建(真实数据采样、人工标注);在线与离线评估的结合;指标与业务目标的对齐;评估的可靠性与统计显著性
Q42: 模型经常给出听起来合理但不可执行的回答,如何治理这类问题?
【核心解析】 问题根源在于执行语义未被约束,而非知识缺失;第一层是强制输出格式化,包含前置条件、依赖对象、执行命令、风险级别和回退方式;第二层需在系统设计上约束可执行性,确保输出可直接操作。
Q43: Oncall 机器人回答准确率怎么定义,为什么“用户感觉还行”不够
【核心解析】 意图识别准确率:正确理解用户问题类型;证据命中率:引用的知识或数据是否正确;操作建议正确率:给出的排查步骤或动作是否可行;升级转人工正确率:何时应转人工而非强行回答;最终处置成功率:问题是否真正解决,而非仅回答流畅。
Q44: 评估机制收集到的反馈数据应该怎么用,才能形成真正有价值的闭环
【核心解析】 反馈分层:用户显式评分、是否采纳建议、是否转人工、最终工单结果、执行后是否恢复、人工修正内容;归因分析:区分检索问题、提示词问题、工具调用问题或知识过期问题;驱动更新:反馈反向驱动知识库更新、case 增补和策略调整;闭环关键:不是收集量,而是能否持续优化系统表现。
Q45: 你的 Agent 项目是如何评估的?
【核心解析】 评估指标体系(任务完成率、响应时间、准确性、用户留存);离线评估与在线评估方法;A/B 测试与对照实验;工具调用与规划能力的专项评估;评估数据的收集与分析。
Q46: 怎么保证Agent不出现幻觉?
【核心解析】 使用RAG技术引入外部知识验证;设计反思机制让Agent自我检查输出;限制模型只基于检索到的证据生成回答;设置置信度阈值过滤低质量输出。
Q47: Agent系统中准确率和召回率是怎么衡量的?
【核心解析】 准确率衡量检索或生成结果中正确信息的比例;召回率衡量所有相关项中被正确检索或生成的比例;在RAG中常用于评估检索模块性能;需要根据业务场景权衡两者。
Q48: 哪些参数影响模型推理阶段回答的稳定性?
【核心解析】 温度参数控制随机性;Top-p和Top-k采样策略;重复惩罚参数;上下文长度与提示词设计;模型版本与量化精度
Q49: 在蚂蚁的模型基准和评估面试中,你遇到了哪些关键问题?如何评估Agent的效果?
【核心解析】 Agent评估的基准选择与构建方法;评估指标的设计(如任务成功率、效率、安全性);自动化评估与人工评估的权衡;评估中遇到的挑战与应对;如何根据评估结果迭代优化Agent
Q50: AI 项目(RAG 方向)效果提升是如何评估的,有没有 baseline 对比,技术选型怎么考虑,如何判断效果好坏,以及遇到的 bad case?
【核心解析】 评估指标:检索准确率、召回率、生成质量(如 BLEU、ROUGE)、人工评估;baseline 对比方法(如朴素 RAG vs 优化后);技术选型考虑:模型、向量数据库、嵌入模型、分块策略;bad case 分析:幻觉、检索失败、上下文整合错误;迭代优化流程
Q51: 在AI Agent系统中,如何设计审计和可追溯机制来保证业务流程可追踪、可回滚、可仲裁?
【核心解析】 审计层记录每一步输入输出,便于定位误判和争议;将模型能力约束在可追踪、可回滚、可仲裁的业务流程中;实现操作回放和状态回滚能力;设计争议仲裁所需的数据证据链
Q52: 如果检测到用户存在极端情绪,你的Agent如何在不中断对话流的前提下进行干预?
【核心解析】 需实时检测情绪状态,但不中断对话流;干预方式可包括:调整回复语气和内容以安抚情绪,引入安全引导或转移话题,必要时触发人工介入或安全协议;设计需平衡安全与用户体验,避免生硬中断。
Q53: 除了写代码,AI在测试验证阶段能帮上什么,哪些地方不能盲信它?
【核心解析】 AI可生成边界用例、异常路径测试、根据接口文档构造mock数据、聚类日志失败模式、对比多版本输出差异;可用于回归测试脚本生成和接口契约检查;不能盲信AI判断业务逻辑是否正确,因其可能生成形式上合理但业务上错误的断言;在Agent系统中,测试需验证工具调用顺序、参数完整性、状态迁移和异常恢复链路;AI生成的测试用例仍需人工审核其业务有效性和覆盖度。
Q54: 当用户与AI对话时生成的问题本身存在冲突,系统应如何处理?为什么不能让模型直接二选一猜测答案?
【核心解析】 先识别冲突类型(事实冲突、时间冲突、约束冲突、角色冲突);回溯冲突来源(用户多轮表述变化、工具返回不一致、知识库版本冲突);进入冲突检测和证据仲裁流程,而非直接猜测;确保系统行为可解释和可追溯
Q55: 大模型幻觉(Hallucination)产生的原因是什么?如何从解码策略或训练层面解决?
【核心解析】 幻觉产生原因包括训练数据噪声、模型过度泛化、解码策略的随机性等;解码策略层面可通过温度调节、top-p采样、重复惩罚等减少幻觉;训练层面可通过强化学习(RLHF)、对比学习、事实性增强训练等方法缓解;还可结合检索增强生成(RAG)提供外部知识支撑;评估幻觉需建立自动化指标和人工校验流程。
Q56: Agent 的评估指标应如何设计,为什么不能只看任务成功率?
【核心解析】 任务成功率掩盖了路由准确性、过程质量、效率、安全性和用户体验等问题;需综合评估路由正误、子任务完成质量、资源消耗、响应延迟、错误恢复能力、用户满意度等;单一指标无法反映 Agent 在复杂场景下的真实表现。
Q57: 如何系统性地处理大模型在生产环境中的幻觉问题?
【核心解析】 幻觉问题的核心是收紧证据边界与输出权限,而非仅靠提示词约束;工程上需实现答案必须引用检索证据、无证据时拒答、高风险动作规则校验、工具结果结构化回填;补充一致性检查、事实抽取、答案后验判分和人工升级机制;幻觉的真正危险在于错误答案看似可信
Q58: 安全生产类项目一般怎么评估,为什么不能只看 acc 或 rouge?
【核心解析】 安全生产任务目标多样(风险分类、违规识别、拒答等),单一指标无法概括;acc 只反映离散分类正确性,rouge 偏表面重合;高风险场景需关注高危漏检率、误报代价、证据可追溯性等;评测体系需分层,分类任务看 precision/recall/F1 和高风险类别召回;结合人工复核通过率、规则一致性等综合评估
Q59: Rouge-L、BERTScore 这类指标在长文档生成里为什么经常失真?
【核心解析】 长文档存在多种正确表述,参考答案未必覆盖所有合理输出;Rouge-L 易高估模板化复述,BERTScore 虽关注语义相似但无法保证数值、逻辑关系和引用一致性;高约束文本(如公告、合同、病历)的关键在于事实准确性、风险遗漏和证据支撑,而非表面相似度;长文档评估需结合结构化校验和事实性检查,不能仅依赖通用文本指标。
Q60: 如何对Agent进行测评?
【核心解析】 评估指标设计(任务成功率、效率、安全性等);测试环境构建(模拟真实场景、对抗样本);离线与在线评估方法;可复现的基准测试;评估结果分析与迭代优化
Q61: 大模型业务指标体系如何设计?召回率是如何定义的?
【核心解析】 指标体系覆盖效果、效率、安全三大维度;效果指标:准确率、召回率、F1、幻觉率;效率指标:推理延迟、吞吐量、显存占用;安全指标:合规率、有害内容拦截率;召回率定义为模型正确识别的正样本数与真实正样本总数的比值。
Q62: 大模型幻觉问题的全链路解决方案包含哪些环节?
【核心解析】 数据层面:构建高质量领域知识库,清洗噪声数据;训练层面:通过SFT+RLHF微调对齐业务需求;推理层面:可能涉及检索增强生成(RAG)等技术;后处理层面:对模型输出进行校验和过滤。
Q63: 如何设计教育大模型的量化评估指标体系?
【核心解析】 评估需覆盖准确性、可解释性、教学性、安全性等多维度;核心指标包括知识准确率、推理可解释性、教学有效性、安全性、效率指标、用户体验;结合人工评估与自动评估,构建完整评估体系,确保模型符合教育场景需求
Q64: 如果在 Prompt 中明确提出 RAG 结果不要返回某种商品,但模型还是返回了,并且多次出现,这种情况可能是什么原因?
【核心解析】 Prompt 指令遵循能力不足,可能被 RAG 检索到的上下文覆盖;检索结果中该商品信息过于显著或与查询高度相关,模型倾向于利用检索内容;模型安全对齐或内容过滤机制未有效拦截;多次出现可能因对话历史或上下文污染导致错误强化;需检查 RAG 检索质量、Prompt 设计及模型解码策略
Q65: 在设计智能体时,如何从工程层面保障稳定性和安全性?
【核心解析】 不能仅依赖模型提示词,需要多层约束;输入约束:来源隔离、长度控制、敏感片段清洗和注入检测;决策约束:工具白名单、参数 schema 校验、执行步数限制;输出约束:高风险结果需附带证据、置信度或进入人工复核;执行约束:外部命令、数据库写操作、网络访问按权限分级。
Q66: AI 应用中的在线实验与传统 AB 测试相比有哪些差异和挑战?
【核心解析】 AI 应用实验变量复杂,受模型波动、提示词变化、检索版本、知识库更新、工具成功率和用户问题分布等多因素影响,常非单变量;部分指标难以即时反馈,如答案是否真正帮助用户、隐性幻觉、人工成本降低等;需要结合在线行为指标、离线标注集、人工复核和错误类型分析进行综合评估。
Q67: 实践过程中,Agent 和人类对于同一个标准的理解不一致,这个问题你怎么看?
【核心解析】 问题本质:语义鸿沟,Agent 基于训练数据分布理解标准,人类基于常识和上下文;解决方案:细化标准描述(提供示例、边界情况),引入反馈循环(人类校正 Agent 输出),设计可量化的评估指标,使用多 Agent 辩论或投票机制;长期需持续对齐与迭代
Q68: 如何评估RAG系统的效果?除了准确率还能看哪些指标?
【核心解析】 需分层评估:召回层看recall@k和命中覆盖率;重排层看排序质量;生成层看引用准确率、幻觉率、答案完整性;线上关注延迟、成本、缓存命中率和bad case分布。
Q69: RAG的效果你怎么评估,不能只说看用户反馈?
【核心解析】 召回层评估:关键证据是否被召回;生成层评估:答案准确性、引用准确性、关键风险遗漏;工程指标:延迟、Token成本、工具成功率;Bad case归因分析
Q70: 幻觉问题你一般怎么处理,尤其是安全场景下的高风险幻觉?
【核心解析】 限制模型仅在给定证据范围内回答;无证据时显式拒答;避免仅依赖Prompt约束;通过证据锚定减少确定性错误
Q71: 如何评估一个系统的QPS承载能力?如何定位性能瓶颈?
【核心解析】 QPS需结合延迟、错误率、资源利用率和稳定持续时间综合评估;压测场景需区分读写比例、冷热数据、缓存命中、下游依赖等;瓶颈定位需观察CPU、GC、线程池、连接池、网络带宽、磁盘IO和数据库执行时间;关键在找出最先饱和并放大尾延迟的资源,如线程阻塞、锁竞争、下游超时或连接池耗尽
Q72: 如何判断推理能力和最终答案之间是否有关联?
【核心解析】 评估推理过程与最终答案的一致性;分析推理链是否对答案有因果贡献;使用可解释性方法(如注意力可视化)检查推理步骤;设计消融实验验证推理的必要性;考虑评估指标如推理-答案对齐度
Q73: 在Agent上线后是否遇到过过拟合的情况?如何检测和缓解?
【核心解析】 过拟合的表现:训练集表现好但线上泛化差;检测方法:监控线上指标、A/B测试、用户反馈;原因:训练数据分布与真实环境不匹配、奖励函数设计不当;缓解策略:正则化、增加数据多样性、在线学习与持续微调;Agent特有的过拟合(如记忆特定工具调用序列)
Q74: AI Agent项目中,模型输出失败可以分为哪些情况
【核心解析】 功能性失败(如工具调用错误、参数错误);安全性失败(如生成有害内容、泄露隐私);鲁棒性失败(如对抗输入导致的异常);效率性失败(如超时、资源耗尽);合规性失败(如违反业务规则)
Q75: 如何评估 RAG 的召回率?
【核心解析】 定义评估数据集,包含查询和标准答案;计算检索到的相关文档数与总相关文档数的比例;使用平均倒数排名(MRR)等指标;考虑上下文相关性和答案准确性;结合人工评估和自动评估
Q76: 如何评估 RAG 是否 work?
【核心解析】 评估检索质量(召回率、精确率、MRR等);评估生成质量(忠实度、相关性、正确性);端到端评估(人工评估或自动指标如RAGAS);对比有无RAG的效果差异;评估延迟与成本。
Q77: 你如何评估检索召回内容与用户问题的匹配度,有没有做相关的效果评估?
【核心解析】 评估指标设计(如精确率、召回率、F1值、NDCG等);人工标注与自动评估方法;离线评估与在线评估流程;匹配度计算模型(如基于语义相似度、交叉编码器);评估结果分析与持续优化策略
Q78: 你们的评测机制主要是通过固定规则、RUBASE或code coding评分器,没有大模型参与打分,可以具体介绍一下吗?
【核心解析】 无LLM评分的评测框架设计原理;固定规则与RUBASE的具体应用场景;code coding评分器的实现方式;评测指标的选择与自动化流程;与传统LLM-as-judge的优劣对比
Q79: 模型工具调用的准确率是如何计算的?
【核心解析】 定义工具调用准确率通常包括工具选择准确率和参数填充准确率;工具选择准确率=正确选择工具的样本数/总样本数;参数准确率可细分为完全匹配或部分匹配(如关键参数正确);评估需构建包含多种工具和场景的测试集,并标注正确调用;可结合执行结果验证,即调用后是否成功完成任务。
Q80: 模型工具调用的准确率是如何计算的?
【核心解析】 定义工具选择和参数填充的正确性标准;区分工具名称匹配和参数精确匹配;使用精确匹配或基于语义的评估方法;考虑部分正确与完全正确的加权计算
Q81: 如何识别大模型输出的幻觉?
【核心解析】 基于规则检查事实一致性;利用NLI模型判断文本蕴含关系;检索外部知识源进行验证;人工评估与自动指标结合;监控生成概率和不确定性。
Q82: DPM++RULER之类的
【核心解析】 DPM++等扩散模型采样器的原理;RULER等长上下文评估基准;采样器对生成质量与速度的影响;评估指标(如困惑度、准确率);不同采样器在Agent场景下的适用性
Q83: 介绍一下DPM++和RULER等评估方法
【核心解析】 DPM++是一种高效的扩散模型采样方法,用于加速生成过程;RULER是用于评估长上下文语言模型能力的基准,关注检索、理解等任务;评估方法的选择需考虑任务特性、效率与准确性平衡;了解不同评估框架的设计原理和适用场景;能分析评估结果对模型改进的指导意义
Q84: 用户token能不能存在应用程序里?redis分布式锁是不是100%安全的?
【核心解析】 客户端存储token的安全风险(如XSS、本地存储泄露);Redis分布式锁在单点故障、主从切换、时钟漂移下的安全性;Redlock算法及其争议;分布式锁的可靠性边界与替代方案(如ZooKeeper)
Q85: 在团队合作中,如果队友没有完成应做的工作,你会如何处理?
【核心解析】 沟通与协调能力;问题解决策略;团队合作与互助精神;个人责任感与主动性
Q86: RAG评估有哪些指标?如何评估RAG系统的性能?
【核心解析】 评估维度包括检索质量(召回率、精确率、NDCG)和生成质量(忠实度、相关性、BLEU/ROUGE);常用评估框架有RAGAS、TruLens等,评估上下文相关性和答案正确性;需结合人工评估和自动评估,关注幻觉率和答案覆盖率;评估时应考虑端到端延迟和用户满意度
Q87: 如何解决大模型的幻觉现象?
【核心解析】 幻觉定义:模型生成与事实不符或虚构的内容;缓解方法:使用RAG引入外部知识库、微调模型提升事实一致性、约束解码控制生成;评估幻觉的指标:事实一致性、基于检索的验证;后处理:事实核查、过滤不可靠输出;模型训练阶段:强化学习从人类反馈(RLHF)减少幻觉。
Q88: 除了Hit Rate和NDCG,你还知道哪些推荐系统评估指标?
【核心解析】 精确率、召回率、F1值;AUC、GAUC;平均倒数排名(MRR);覆盖率、多样性、新颖性;用户满意度相关指标:点击率、转化率、停留时长等。
Q89: 如何评测大模型在长文本扩展后的效果?有哪些具体指标?
【核心解析】 使用长文本基准如LongBench;评估困惑度(PPL)和准确率;测试长距离依赖任务;对比扩展前后的性能衰减;人工评估生成质量。
Q90: 如何保证模型长度扩展后的效果?有哪些验证方法?
【核心解析】 在标准长文本基准上测试;对比扩展前后的性能变化;进行人工评估和案例分析;监控注意力模式和位置编码;使用渐进式扩展策略。
Q91: 请解释AUC指标的含义及其在模型评估中的作用。
【核心解析】 AUC是ROC曲线下面积,衡量模型排序能力;对正负样本不平衡不敏感;值越接近1表示性能越好;AUC与准确率、召回率的区别;在CTR预估、推荐系统中的重要性。
Q92: 在腾讯实习期间,你们是如何对大模型进行测评的?
【核心解析】 自动化评测指标(如困惑度、BLEU、ROUGE等);人工评估的标准与流程;针对特定任务构建评测集;安全性与对齐的评估方法。
Q93: 大模型的幻觉问题是如何产生的?有哪些缓解方法?
【核心解析】 幻觉产生的原因:训练数据噪声、解码策略、缺乏事实校验;缓解方法:检索增强生成(RAG)、事实一致性评估、强化学习微调;外部知识库与工具调用;后处理校验机制
Q94: 了解A/B实验的统计指标吗?
【核心解析】 A/B实验用于比较两个版本的效果;常用指标:均值、转化率、留存率等;统计检验:t检验、z检验、卡方检验;需注意样本量、显著性水平、统计功效。
Q95: 了解Learning to Rank吗?请介绍其评价指标。
【核心解析】 Learning to Rank是排序学习,分为Pointwise、Pairwise、Listwise方法;常用评价指标包括NDCG、MAP、MRR;NDCG考虑位置和相关性等级;MAP衡量平均准确率;MRR关注第一个相关文档的排名。
Q96: 如果让你定义agent评测指标,你会关注哪些点?agent性能维度,你了解哪些指标?
【核心解析】 任务成功率;执行效率(如步数、时间);工具调用准确率;鲁棒性(异常处理);安全性(有害输出检测)
Q97: 讲解一下图片的评测集是如何设计的?评测执行中,有哪些自动化提效的部分?
【核心解析】 评测集设计需覆盖多样性、平衡性和代表性,包括场景、光照、角度等;自动化提效包括自动标注、批量推理、结果解析和指标计算;使用脚本自动生成评测报告,减少人工统计;集成CI/CD流水线,实现评测自动化触发和回归;利用容器化环境确保评测一致性。
Q98: 模型产生幻觉的时候,一般是什么原因?
【核心解析】 训练数据中的噪声与偏差;模型过度泛化与记忆不足;缺乏外部知识验证;解码策略导致的事实错误;上下文误导或模糊输入
Q99: 分支覆盖率(Branch Coverage)的统计原理是什么?
【核心解析】 分支覆盖率的定义与计算方式;与语句覆盖、路径覆盖的区别;在测试Agent决策逻辑时的应用;如何设计测试用例以提高分支覆盖率;覆盖率工具的底层实现原理
Q100: 如何解决大模型幻觉问题?
【核心解析】 数据层:通过检索增强生成(RAG),多路召回(关键词+向量)并排序过滤,精简上下文减少干扰;生成层:强规则Prompt限制模型基于提供数据回答,结构化输出(如JSON)限制表达范围,降低温度减少随机性,多轮对话拆解意图与生成;结果层:规则校验字段完整性和类型,数据一致性检查,自我修复机制(错误内容喂回模型修正),兜底策略(重试失败后返回模板回答)。