Agent_Eval_Safety 面试专题手册

💡 本章节共收录 771 道面试真题，建议每天复习 10-20 题。

Q1: 讲一下Ragas评测

【核心解析】 Ragas是专为RAG系统设计的评估框架，提供上下文相关性、答案忠实度、答案相关性等指标；基于组件化评估，可单独评估检索和生成质量；支持合成测试数据生成，便于自动化评测

Q2: Ragas的Context Precision如果很低，你怎么优化？

【核心解析】 分析Context Precision低的原因，可能是检索结果不相关或排序错误；优化检索策略，如调整嵌入模型、改进索引或混合检索；引入重排序模型对检索结果进行重排；调整Ragas评估时的上下文截断或相关性判断逻辑；结合业务场景定义更精确的相关性标准

Q3: Ragas评测中，如果Faithfulness得分低，说明模型出现了什么问题？

【核心解析】 Faithfulness衡量答案是否严格基于提供的上下文，得分低说明模型产生了幻觉；可能原因包括模型过度依赖自身知识而忽略检索内容；或检索到的上下文不相关，模型强行编造；也反映模型在遵循指令和事实一致性方面的不足。

Q4: 如何保证Agent的输出有用性？

【核心解析】 定义清晰的任务完成标准；引入人类反馈进行强化学习；设计评估指标如任务成功率、用户满意度；实施安全过滤防止有害输出；持续监控和迭代优化

Q5: 如何量化评估一个Agent系统的好坏？

【核心解析】 任务完成率：成功完成任务的比例；效率指标：完成任务所需的时间、步骤数或资源消耗；准确性指标：输出结果的正确性、与参考答案的匹配度；鲁棒性：在异常输入或环境变化下的表现稳定性；用户满意度：通过人工评估或用户反馈衡量；安全性：是否产生有害、偏见或违规内容。

Q6: 你们项目里有没有遇到幻觉问题？

【核心解析】 幻觉的检测方法；缓解策略（如RAG、自我修正）；评估指标与人工校验

Q7: 如何客观评价 RAG 的效果？

【核心解析】 评估维度：检索质量（Recall、Precision、MRR）、生成质量（Faithfulness、Answer Relevance、BLEU/ROUGE）、端到端评估；评估方法：人工评估、自动评估（基于LLM的评估）、基准数据集（如KILT、RGB）；评估指标：忠实度（Faithfulness）、答案相关性（Answer Relevance）、上下文相关性（Context Relevance）；评估挑战：评估标准主观性、评估成本、评估与真实场景的差距；评估工具：RAGAS、TruLens、LangSmith等框架的使用

Q8: LLM 的性能评估指标有哪些？

【核心解析】 任务相关指标：分类（准确率、F1）、生成（BLEU、ROUGE、METEOR、BERTScore）、问答（Exact Match、F1）；通用能力指标：困惑度（Perplexity）、推理能力（ARC、HellaSwag）、知识（MMLU）、代码（HumanEval）；安全与对齐：毒性（Toxicity）、偏见（Bias）、幻觉率（Hallucination Rate）；效率指标：推理延迟、吞吐量、内存占用；人类评估：有用性、无害性、诚实性（HHH）

Q9: 如何设计记忆相关的基准测试（memory benchmark）？

【核心解析】 定义评估维度：检索准确性、推理深度、更新及时性、跨会话一致性；构建包含长程依赖、信息冲突、时间敏感等场景的数据集；设计自动评测指标如召回率、精确率、F1，以及人工评估标准；模拟真实应用中的记忆增长和遗忘曲线；考虑隐私保护和数据隔离。

Q10: 场景题：对于一个安全问题或者case分析的agent，讲一下具体设计

【核心解析】 安全分析Agent的架构设计（输入、分析、输出）；如何集成安全知识库或规则引擎；多步骤推理与验证机制；结果的可解释性与置信度评估；安全评估的自动化与人工审核结合

Q11: Agent 的评测需要哪些测试集？需要评测哪些指标？

【核心解析】 测试集应覆盖单轮/多轮对话、工具调用、知识检索等场景；指标包括任务成功率、准确率、响应时间、工具调用正确率、安全性、鲁棒性；可参考 GAIA、AgentBench 等基准。

Q12: JMeter 压测的具体参数是怎么设置的？

【核心解析】 压测需先明确目标（接口吞吐、P99 延迟、长连接稳定性或模型调用链路限流能力）；常用参数包括线程数、Ramp-Up 时间、循环次数、持续时间、请求超时、连接超时、吞吐量控制器、断言和结果采样；例如测 Agent 诊断接口，线程数从 50、100、200 逐步加压，Ramp-Up 设置 60 到 180 秒；SSE 或长耗时接口需关注连接保持时间、服务端活跃连接数和网关超时；结果重点看 P95、P99、错误率、线程池队列、数据库连接池、Redis 延迟和模型 API 限流。

Q13: 如何对 Agent 项目进行质量评测？

【核心解析】 任务完成率与成功率；响应时间与资源消耗；鲁棒性测试（对抗样本）；安全性评估（越狱、有害输出）；用户满意度与人工评估

Q14: Agent的调优是如何评估的？评测集是如何构建的？请分享一两个调优后效果提升显著的案例。

【核心解析】 Agent性能评估的指标体系（如准确率、召回率、任务完成率）；评测集的构建方法与数据来源；调优前后的效果对比案例；基于评估结果的迭代优化流程。

Q15: 哪些模型可以输出置信度或概率？如何让模型提供预测的不确定性？

【核心解析】 原生支持概率输出的模型（如贝叶斯神经网络、高斯过程）；通过logits或softmax获取分类置信度；语言模型生成时的token概率；校准方法（温度缩放、保序回归）；集成方法（Deep Ensembles、MC Dropout）

Q16: 提示词有哪些安全防护措施？提示词是怎么优化的，还有哪些优化方式？

【核心解析】 提示词安全防护（注入攻击防御、敏感信息过滤、输出审查）；提示词优化方法（少样本示例、思维链、角色设定）；动态提示词构建（上下文注入、用户画像适配）；提示词版本管理与A/B测试；提示词长度与效果平衡

Q17: 如何测试Agent搭的好不好？Agent执行细节，大模型会调用哪些工具？

【核心解析】 Agent评估方法（任务成功率、效率、鲁棒性、用户满意度）；工具调用的类型（API、数据库、代码执行、搜索）；工具调用的监控与日志；评估数据集构建与基准测试；Agent行为的安全边界与伦理考量

Q18: 如何控制大模型的幻觉问题？

【核心解析】 使用 RAG 技术，基于外部知识生成回答；设计严格的提示词约束模型行为；引入事实核查模块，验证生成内容；微调模型降低幻觉倾向；设置输出结构化格式，减少自由发挥。

Q19: 怎么测的RAG的效果

【核心解析】 检索准确性评估（Recall/Precision）；生成质量评估（BLEU/ROUGE）；端到端评测（忠实度、相关性）；人工评估；构建测试集与基线对比

Q20: 生成式召回怎么评估

【核心解析】 召回率@K；准确率；新颖性；多样性；人工相关性判断；与传统召回方法对比

Q21: 码本训练的方法、评估指标、模态对齐怎么做？Embedding模型是否要训练？幻觉怎么解决？

【核心解析】 码本训练：如RQ-VAE将连续特征量化为离散码本；评估指标：码本利用率、重建误差、下游任务性能；模态对齐：通过共享码本或对比学习对齐不同模态；Embedding模型通常需要训练以适配码本；幻觉解决：引入事实核查、检索增强生成、约束解码

Q22: 发现幻觉率很高，该怎么处理

【核心解析】 幻觉的定义与类型（事实性幻觉、忠实性幻觉）；缓解方法：改进提示工程（如角色设定、思维链）、RAG（检索增强生成）、微调模型、使用更高精度的模型、后处理校验；评估幻觉的指标（如TruthfulQA、HaluEval）；结合知识图谱或结构化数据源；设置安全护栏与人工审核机制

Q23: 如何全面评估一个 RAG 系统是否有效？

【核心解析】 不能只看最终回答的相似度，需拆解为多个层面：检索召回率、证据命中率、答案事实一致性、引用准确率、长尾问题表现、端到端任务成功率；需分析坏 case，如检索到但排序不对、证据有用但被模型忽略、答案正确但引用错误文档；评估应与业务目标绑定，如客服场景关注可解释性，知识问答关注事实一致性，研究场景关注覆盖和证据完整性。

Q24: Agent 流程设计中常见的三个最大问题是什么？

【核心解析】 状态不清：模型忘记目标、重复做事或将临时中间态当成长期事实；工具不稳：调用成功率低、错误语义混乱、参数填充不完整；评测缺失：只看 demo 效果，不知线上失败发生在哪一步，链路不确定性叠加导致最终成功率下降

Q25: 如果让你设计一个Agent系统，怎么设定评定指标（过程指标+结果指标）

【核心解析】 Agent评估体系设计；过程指标（如规划合理性、工具调用准确性）；结果指标（如任务完成率、效率）；指标量化与权衡

Q26: 在AI Coding中，对于一个客服Agent，当前的奖励函数有哪些？请举例说明。

【核心解析】 理解奖励函数在Agent训练中的作用；能够设计多维度的奖励（如任务完成度、用户满意度、安全性）；举例说明客服场景下的具体奖励项（如解决率、响应时间、情感得分）；了解奖励塑形（Reward Shaping）的挑战

Q27: 有对比过强模型在这个任务上的表现吗？

【核心解析】 对比不同规模或类型模型（如 GPT-4 vs Qwen）在任务上的效果；评估指标包括任务成功率、效率、输出质量等；强模型可能性能更好但成本更高，需权衡；对比可揭示模型能力边界和 scaling 效应；为技术选型提供依据。

Q28: 模型效果评估为什么不能只看问答准确率？Agent 系统至少还要评什么？

【核心解析】 Agent 需评估路由准确率、工具选择准确率、参数结构合法率；关注调用轮数、无效调用率、失败恢复成功率；高风险场景的保守性；答案正确但工具乱调、成本过高、越权风险仍不合格

Q29: Agent评测工程框架如何支持从预训练到Agent全链路的评测任务

【核心解析】 评测框架需支持多种benchmark和自定义评测集；Agent评测的特殊性（多步交互、工具使用）；轨迹合成与复杂任务（如SWE）的支持；框架的稳定性、可扩展性和高效性；与训练流程的集成

Q30: 在智能客服Agent中，如何避免模型的幻觉问题？

【核心解析】 检索增强生成（RAG）与事实核查；知识库约束与来源引用；置信度评估与拒答机制；提示工程与输出验证；人工反馈闭环

Q31: 你公司的 Agent 具体实现中，你做的 Routing Model 实现效果如何？功能有没有做过评测？

【核心解析】 Routing Model 的评估指标（准确率、召回率、延迟）；评测方法（离线测试、A/B 测试、人工评估）；效果分析与改进方向；Agent 功能评测的整体框架（任务完成率、用户满意度）。

Q32: 如果让你定义agent评测指标，你会关注哪些点？

【核心解析】 任务成功率与完成质量；工具调用的准确性与效率；规划与推理的合理性；鲁棒性与异常处理能力；安全性与伦理合规

Q33: agent性能维度，你了解哪些指标？

【核心解析】 任务完成率、执行时间等效率指标；工具选择准确率、参数正确率；端到端成功率与子任务成功率；用户满意度与交互流畅度；资源消耗与成本控制

Q34: 你怎么做 ablation，证明提升真的是 RAG、SFT、DPO 或 Judge 带来的，而不是别的变量？

【核心解析】 设计控制变量实验：逐个移除或替换组件（如去掉 RAG、用基座模型代替 SFT 模型、关闭 Judge 评分）；保持数据、评估指标、随机种子等不变；量化每个组件对最终指标的贡献度（如消融后性能下降幅度）；进行统计显著性检验，排除随机波动。

Q35: 同一个问题，你怎么评估不同LLM在你的系统里到底谁更适合上线？

【核心解析】 任务级指标评估：路由正确率、工具选择正确率、参数填写正确率、拒答准确率；效率指标：平均调用次数、总耗时和成本；高风险场景评估：越权风险、工具参数编造、证据不足时乱答；不能仅依赖人工体验或公开benchmark；选型核心是业务约束下的稳定性，而非单纯智能水平

Q36: 设计开发Agent时，如何评估它的好坏？

【核心解析】 任务完成率与成功率；响应准确性与相关性；鲁棒性测试（对抗输入、边界情况）；效率指标（延迟、资源消耗）；安全性评估（幻觉率、有害输出检测）；用户满意度与交互体验。

Q37: 在生成任务中，如何判断模型输出无幻觉、无错误？如何进行重复判断？

【核心解析】 幻觉检测可通过事实一致性评估、外部知识库验证；错误判断需结合任务指标如准确率、F1；重复判断可使用n-gram重叠度、最长公共子序列；常用方法包括基于规则、模型自检和人工评估；需平衡精确率和召回率。

Q38: 怎样去设计一个Agent的沙箱机制

【核心解析】 沙箱的目标（安全隔离、行为监控）；沙箱的实现技术（容器化、虚拟化、代码解释器隔离）；权限控制与资源限制；恶意行为检测与回滚机制；沙箱在Agent评测与生产环境中的差异

Q39: 你是怎么解决大模型的幻觉问题的？

【核心解析】 幻觉类型：事实错误、逻辑不一致、无中生有；缓解方法：RAG检索增强、Prompt约束（如要求引用来源）、微调高质量数据、输出校验与过滤；评估幻觉的指标和方法；结合业务场景设置安全兜底策略。

Q40: 大模型幻觉怎么规避？大模型幻觉是什么导致的？

【核心解析】 幻觉的成因（训练数据噪声、解码策略、模型过度泛化）；规避方法（RAG、事实核查、约束生成、后处理过滤）；评估幻觉的指标（如事实一致性、忠实度）；模型不确定性估计与校准；外部知识库与工具的使用

Q41: Expert Agent的评价指标（如出商品率、商品正确率）具体如何定义和获取评测数据？

【核心解析】 业务指标的定义与量化方法；评测数据集的构建（真实数据采样、人工标注）；在线与离线评估的结合；指标与业务目标的对齐；评估的可靠性与统计显著性

Q42: 模型经常给出听起来合理但不可执行的回答，如何治理这类问题？

【核心解析】 问题根源在于执行语义未被约束，而非知识缺失；第一层是强制输出格式化，包含前置条件、依赖对象、执行命令、风险级别和回退方式；第二层需在系统设计上约束可执行性，确保输出可直接操作。

Q43: Oncall 机器人回答准确率怎么定义，为什么“用户感觉还行”不够

【核心解析】 意图识别准确率：正确理解用户问题类型；证据命中率：引用的知识或数据是否正确；操作建议正确率：给出的排查步骤或动作是否可行；升级转人工正确率：何时应转人工而非强行回答；最终处置成功率：问题是否真正解决，而非仅回答流畅。

Q44: 评估机制收集到的反馈数据应该怎么用，才能形成真正有价值的闭环

【核心解析】 反馈分层：用户显式评分、是否采纳建议、是否转人工、最终工单结果、执行后是否恢复、人工修正内容；归因分析：区分检索问题、提示词问题、工具调用问题或知识过期问题；驱动更新：反馈反向驱动知识库更新、case 增补和策略调整；闭环关键：不是收集量，而是能否持续优化系统表现。

Q45: 你的 Agent 项目是如何评估的？

【核心解析】 评估指标体系（任务完成率、响应时间、准确性、用户留存）；离线评估与在线评估方法；A/B 测试与对照实验；工具调用与规划能力的专项评估；评估数据的收集与分析。

Q46: 怎么保证Agent不出现幻觉？

【核心解析】 使用RAG技术引入外部知识验证；设计反思机制让Agent自我检查输出；限制模型只基于检索到的证据生成回答；设置置信度阈值过滤低质量输出。

Q47: Agent系统中准确率和召回率是怎么衡量的？

【核心解析】 准确率衡量检索或生成结果中正确信息的比例；召回率衡量所有相关项中被正确检索或生成的比例；在RAG中常用于评估检索模块性能；需要根据业务场景权衡两者。

Q48: 哪些参数影响模型推理阶段回答的稳定性？

【核心解析】 温度参数控制随机性；Top-p和Top-k采样策略；重复惩罚参数；上下文长度与提示词设计；模型版本与量化精度

Q49: 在蚂蚁的模型基准和评估面试中，你遇到了哪些关键问题？如何评估Agent的效果？

【核心解析】 Agent评估的基准选择与构建方法；评估指标的设计（如任务成功率、效率、安全性）；自动化评估与人工评估的权衡；评估中遇到的挑战与应对；如何根据评估结果迭代优化Agent

Q50: AI 项目（RAG 方向）效果提升是如何评估的，有没有 baseline 对比，技术选型怎么考虑，如何判断效果好坏，以及遇到的 bad case？

【核心解析】 评估指标：检索准确率、召回率、生成质量（如 BLEU、ROUGE）、人工评估；baseline 对比方法（如朴素 RAG vs 优化后）；技术选型考虑：模型、向量数据库、嵌入模型、分块策略；bad case 分析：幻觉、检索失败、上下文整合错误；迭代优化流程

Q51: 在AI Agent系统中，如何设计审计和可追溯机制来保证业务流程可追踪、可回滚、可仲裁？

【核心解析】 审计层记录每一步输入输出，便于定位误判和争议；将模型能力约束在可追踪、可回滚、可仲裁的业务流程中；实现操作回放和状态回滚能力；设计争议仲裁所需的数据证据链

Q52: 如果检测到用户存在极端情绪，你的Agent如何在不中断对话流的前提下进行干预？

【核心解析】 需实时检测情绪状态，但不中断对话流；干预方式可包括：调整回复语气和内容以安抚情绪，引入安全引导或转移话题，必要时触发人工介入或安全协议；设计需平衡安全与用户体验，避免生硬中断。

Q53: 除了写代码，AI在测试验证阶段能帮上什么，哪些地方不能盲信它？

【核心解析】 AI可生成边界用例、异常路径测试、根据接口文档构造mock数据、聚类日志失败模式、对比多版本输出差异；可用于回归测试脚本生成和接口契约检查；不能盲信AI判断业务逻辑是否正确，因其可能生成形式上合理但业务上错误的断言；在Agent系统中，测试需验证工具调用顺序、参数完整性、状态迁移和异常恢复链路；AI生成的测试用例仍需人工审核其业务有效性和覆盖度。

Q54: 当用户与AI对话时生成的问题本身存在冲突，系统应如何处理？为什么不能让模型直接二选一猜测答案？

【核心解析】 先识别冲突类型（事实冲突、时间冲突、约束冲突、角色冲突）；回溯冲突来源（用户多轮表述变化、工具返回不一致、知识库版本冲突）；进入冲突检测和证据仲裁流程，而非直接猜测；确保系统行为可解释和可追溯

Q55: 大模型幻觉（Hallucination）产生的原因是什么？如何从解码策略或训练层面解决？

【核心解析】 幻觉产生原因包括训练数据噪声、模型过度泛化、解码策略的随机性等；解码策略层面可通过温度调节、top-p采样、重复惩罚等减少幻觉；训练层面可通过强化学习（RLHF）、对比学习、事实性增强训练等方法缓解；还可结合检索增强生成（RAG）提供外部知识支撑；评估幻觉需建立自动化指标和人工校验流程。

Q56: Agent 的评估指标应如何设计，为什么不能只看任务成功率？

【核心解析】 任务成功率掩盖了路由准确性、过程质量、效率、安全性和用户体验等问题；需综合评估路由正误、子任务完成质量、资源消耗、响应延迟、错误恢复能力、用户满意度等；单一指标无法反映 Agent 在复杂场景下的真实表现。

Q57: 如何系统性地处理大模型在生产环境中的幻觉问题？

【核心解析】 幻觉问题的核心是收紧证据边界与输出权限，而非仅靠提示词约束；工程上需实现答案必须引用检索证据、无证据时拒答、高风险动作规则校验、工具结果结构化回填；补充一致性检查、事实抽取、答案后验判分和人工升级机制；幻觉的真正危险在于错误答案看似可信

Q58: 安全生产类项目一般怎么评估，为什么不能只看 acc 或 rouge？

【核心解析】 安全生产任务目标多样（风险分类、违规识别、拒答等），单一指标无法概括；acc 只反映离散分类正确性，rouge 偏表面重合；高风险场景需关注高危漏检率、误报代价、证据可追溯性等；评测体系需分层，分类任务看 precision/recall/F1 和高风险类别召回；结合人工复核通过率、规则一致性等综合评估

Q59: Rouge-L、BERTScore 这类指标在长文档生成里为什么经常失真？

【核心解析】 长文档存在多种正确表述，参考答案未必覆盖所有合理输出；Rouge-L 易高估模板化复述，BERTScore 虽关注语义相似但无法保证数值、逻辑关系和引用一致性；高约束文本（如公告、合同、病历）的关键在于事实准确性、风险遗漏和证据支撑，而非表面相似度；长文档评估需结合结构化校验和事实性检查，不能仅依赖通用文本指标。

Q60: 如何对Agent进行测评？

【核心解析】 评估指标设计（任务成功率、效率、安全性等）；测试环境构建（模拟真实场景、对抗样本）；离线与在线评估方法；可复现的基准测试；评估结果分析与迭代优化

Q61: 大模型业务指标体系如何设计？召回率是如何定义的？

【核心解析】 指标体系覆盖效果、效率、安全三大维度；效果指标：准确率、召回率、F1、幻觉率；效率指标：推理延迟、吞吐量、显存占用；安全指标：合规率、有害内容拦截率；召回率定义为模型正确识别的正样本数与真实正样本总数的比值。

Q62: 大模型幻觉问题的全链路解决方案包含哪些环节？

【核心解析】 数据层面：构建高质量领域知识库，清洗噪声数据；训练层面：通过SFT+RLHF微调对齐业务需求；推理层面：可能涉及检索增强生成（RAG）等技术；后处理层面：对模型输出进行校验和过滤。

Q63: 如何设计教育大模型的量化评估指标体系？

【核心解析】 评估需覆盖准确性、可解释性、教学性、安全性等多维度；核心指标包括知识准确率、推理可解释性、教学有效性、安全性、效率指标、用户体验；结合人工评估与自动评估，构建完整评估体系，确保模型符合教育场景需求

Q64: 如果在 Prompt 中明确提出 RAG 结果不要返回某种商品，但模型还是返回了，并且多次出现，这种情况可能是什么原因？

【核心解析】 Prompt 指令遵循能力不足，可能被 RAG 检索到的上下文覆盖；检索结果中该商品信息过于显著或与查询高度相关，模型倾向于利用检索内容；模型安全对齐或内容过滤机制未有效拦截；多次出现可能因对话历史或上下文污染导致错误强化；需检查 RAG 检索质量、Prompt 设计及模型解码策略

Q65: 在设计智能体时，如何从工程层面保障稳定性和安全性？

【核心解析】 不能仅依赖模型提示词，需要多层约束；输入约束：来源隔离、长度控制、敏感片段清洗和注入检测；决策约束：工具白名单、参数 schema 校验、执行步数限制；输出约束：高风险结果需附带证据、置信度或进入人工复核；执行约束：外部命令、数据库写操作、网络访问按权限分级。

Q66: AI 应用中的在线实验与传统 AB 测试相比有哪些差异和挑战？

【核心解析】 AI 应用实验变量复杂，受模型波动、提示词变化、检索版本、知识库更新、工具成功率和用户问题分布等多因素影响，常非单变量；部分指标难以即时反馈，如答案是否真正帮助用户、隐性幻觉、人工成本降低等；需要结合在线行为指标、离线标注集、人工复核和错误类型分析进行综合评估。

Q67: 实践过程中，Agent 和人类对于同一个标准的理解不一致，这个问题你怎么看？

【核心解析】 问题本质：语义鸿沟，Agent 基于训练数据分布理解标准，人类基于常识和上下文；解决方案：细化标准描述（提供示例、边界情况），引入反馈循环（人类校正 Agent 输出），设计可量化的评估指标，使用多 Agent 辩论或投票机制；长期需持续对齐与迭代

Q68: 如何评估RAG系统的效果？除了准确率还能看哪些指标？

【核心解析】 需分层评估：召回层看recall@k和命中覆盖率；重排层看排序质量；生成层看引用准确率、幻觉率、答案完整性；线上关注延迟、成本、缓存命中率和bad case分布。

Q69: RAG的效果你怎么评估，不能只说看用户反馈？

【核心解析】 召回层评估：关键证据是否被召回；生成层评估：答案准确性、引用准确性、关键风险遗漏；工程指标：延迟、Token成本、工具成功率；Bad case归因分析

Q70: 幻觉问题你一般怎么处理，尤其是安全场景下的高风险幻觉？

【核心解析】 限制模型仅在给定证据范围内回答；无证据时显式拒答；避免仅依赖Prompt约束；通过证据锚定减少确定性错误

Q71: 如何评估一个系统的QPS承载能力？如何定位性能瓶颈？

【核心解析】 QPS需结合延迟、错误率、资源利用率和稳定持续时间综合评估；压测场景需区分读写比例、冷热数据、缓存命中、下游依赖等；瓶颈定位需观察CPU、GC、线程池、连接池、网络带宽、磁盘IO和数据库执行时间；关键在找出最先饱和并放大尾延迟的资源，如线程阻塞、锁竞争、下游超时或连接池耗尽

Q72: 如何判断推理能力和最终答案之间是否有关联？

【核心解析】 评估推理过程与最终答案的一致性；分析推理链是否对答案有因果贡献；使用可解释性方法（如注意力可视化）检查推理步骤；设计消融实验验证推理的必要性；考虑评估指标如推理-答案对齐度

Q73: 在Agent上线后是否遇到过过拟合的情况？如何检测和缓解？

【核心解析】 过拟合的表现：训练集表现好但线上泛化差；检测方法：监控线上指标、A/B测试、用户反馈；原因：训练数据分布与真实环境不匹配、奖励函数设计不当；缓解策略：正则化、增加数据多样性、在线学习与持续微调；Agent特有的过拟合（如记忆特定工具调用序列）

Q74: AI Agent项目中，模型输出失败可以分为哪些情况

【核心解析】 功能性失败（如工具调用错误、参数错误）；安全性失败（如生成有害内容、泄露隐私）；鲁棒性失败（如对抗输入导致的异常）；效率性失败（如超时、资源耗尽）；合规性失败（如违反业务规则）

Q75: 如何评估 RAG 的召回率？

【核心解析】 定义评估数据集，包含查询和标准答案；计算检索到的相关文档数与总相关文档数的比例；使用平均倒数排名（MRR）等指标；考虑上下文相关性和答案准确性；结合人工评估和自动评估

Q76: 如何评估 RAG 是否 work？

【核心解析】 评估检索质量（召回率、精确率、MRR等）；评估生成质量（忠实度、相关性、正确性）；端到端评估（人工评估或自动指标如RAGAS）；对比有无RAG的效果差异；评估延迟与成本。

Q77: 你如何评估检索召回内容与用户问题的匹配度，有没有做相关的效果评估？

【核心解析】 评估指标设计（如精确率、召回率、F1值、NDCG等）；人工标注与自动评估方法；离线评估与在线评估流程；匹配度计算模型（如基于语义相似度、交叉编码器）；评估结果分析与持续优化策略

Q78: 你们的评测机制主要是通过固定规则、RUBASE或code coding评分器，没有大模型参与打分，可以具体介绍一下吗？

【核心解析】 无LLM评分的评测框架设计原理；固定规则与RUBASE的具体应用场景；code coding评分器的实现方式；评测指标的选择与自动化流程；与传统LLM-as-judge的优劣对比

Q79: 模型工具调用的准确率是如何计算的？

【核心解析】 定义工具调用准确率通常包括工具选择准确率和参数填充准确率；工具选择准确率=正确选择工具的样本数/总样本数；参数准确率可细分为完全匹配或部分匹配（如关键参数正确）；评估需构建包含多种工具和场景的测试集，并标注正确调用；可结合执行结果验证，即调用后是否成功完成任务。

Q80: 模型工具调用的准确率是如何计算的？

【核心解析】 定义工具选择和参数填充的正确性标准；区分工具名称匹配和参数精确匹配；使用精确匹配或基于语义的评估方法；考虑部分正确与完全正确的加权计算

Q81: 如何识别大模型输出的幻觉？

【核心解析】 基于规则检查事实一致性；利用NLI模型判断文本蕴含关系；检索外部知识源进行验证；人工评估与自动指标结合；监控生成概率和不确定性。

Q82: DPM++RULER之类的

【核心解析】 DPM++等扩散模型采样器的原理；RULER等长上下文评估基准；采样器对生成质量与速度的影响；评估指标（如困惑度、准确率）；不同采样器在Agent场景下的适用性

Q83: 介绍一下DPM++和RULER等评估方法

【核心解析】 DPM++是一种高效的扩散模型采样方法，用于加速生成过程；RULER是用于评估长上下文语言模型能力的基准，关注检索、理解等任务；评估方法的选择需考虑任务特性、效率与准确性平衡；了解不同评估框架的设计原理和适用场景；能分析评估结果对模型改进的指导意义

Q84: 用户token能不能存在应用程序里？redis分布式锁是不是100%安全的？

【核心解析】 客户端存储token的安全风险（如XSS、本地存储泄露）；Redis分布式锁在单点故障、主从切换、时钟漂移下的安全性；Redlock算法及其争议；分布式锁的可靠性边界与替代方案（如ZooKeeper）

Q85: 在团队合作中，如果队友没有完成应做的工作，你会如何处理？

【核心解析】 沟通与协调能力；问题解决策略；团队合作与互助精神；个人责任感与主动性

Q86: RAG评估有哪些指标？如何评估RAG系统的性能？

【核心解析】 评估维度包括检索质量（召回率、精确率、NDCG）和生成质量（忠实度、相关性、BLEU/ROUGE）；常用评估框架有RAGAS、TruLens等，评估上下文相关性和答案正确性；需结合人工评估和自动评估，关注幻觉率和答案覆盖率；评估时应考虑端到端延迟和用户满意度

Q87: 如何解决大模型的幻觉现象？

【核心解析】 幻觉定义：模型生成与事实不符或虚构的内容；缓解方法：使用RAG引入外部知识库、微调模型提升事实一致性、约束解码控制生成；评估幻觉的指标：事实一致性、基于检索的验证；后处理：事实核查、过滤不可靠输出；模型训练阶段：强化学习从人类反馈（RLHF）减少幻觉。

Q88: 除了Hit Rate和NDCG，你还知道哪些推荐系统评估指标？

【核心解析】 精确率、召回率、F1值；AUC、GAUC；平均倒数排名(MRR)；覆盖率、多样性、新颖性；用户满意度相关指标：点击率、转化率、停留时长等。

Q89: 如何评测大模型在长文本扩展后的效果？有哪些具体指标？

【核心解析】 使用长文本基准如LongBench；评估困惑度（PPL）和准确率；测试长距离依赖任务；对比扩展前后的性能衰减；人工评估生成质量。

Q90: 如何保证模型长度扩展后的效果？有哪些验证方法？

【核心解析】 在标准长文本基准上测试；对比扩展前后的性能变化；进行人工评估和案例分析；监控注意力模式和位置编码；使用渐进式扩展策略。

Q91: 请解释AUC指标的含义及其在模型评估中的作用。

【核心解析】 AUC是ROC曲线下面积，衡量模型排序能力；对正负样本不平衡不敏感；值越接近1表示性能越好；AUC与准确率、召回率的区别；在CTR预估、推荐系统中的重要性。

Q92: 在腾讯实习期间，你们是如何对大模型进行测评的？

【核心解析】 自动化评测指标（如困惑度、BLEU、ROUGE等）；人工评估的标准与流程；针对特定任务构建评测集；安全性与对齐的评估方法。

Q93: 大模型的幻觉问题是如何产生的？有哪些缓解方法？

【核心解析】 幻觉产生的原因：训练数据噪声、解码策略、缺乏事实校验；缓解方法：检索增强生成（RAG）、事实一致性评估、强化学习微调；外部知识库与工具调用；后处理校验机制

Q94: 了解A/B实验的统计指标吗？

【核心解析】 A/B实验用于比较两个版本的效果；常用指标：均值、转化率、留存率等；统计检验：t检验、z检验、卡方检验；需注意样本量、显著性水平、统计功效。

Q95: 了解Learning to Rank吗？请介绍其评价指标。

【核心解析】 Learning to Rank是排序学习，分为Pointwise、Pairwise、Listwise方法；常用评价指标包括NDCG、MAP、MRR；NDCG考虑位置和相关性等级；MAP衡量平均准确率；MRR关注第一个相关文档的排名。

Q96: 如果让你定义agent评测指标，你会关注哪些点？agent性能维度，你了解哪些指标？

【核心解析】 任务成功率；执行效率（如步数、时间）；工具调用准确率；鲁棒性（异常处理）；安全性（有害输出检测）

Q97: 讲解一下图片的评测集是如何设计的？评测执行中，有哪些自动化提效的部分？

【核心解析】 评测集设计需覆盖多样性、平衡性和代表性，包括场景、光照、角度等；自动化提效包括自动标注、批量推理、结果解析和指标计算；使用脚本自动生成评测报告，减少人工统计；集成CI/CD流水线，实现评测自动化触发和回归；利用容器化环境确保评测一致性。

Q98: 模型产生幻觉的时候，一般是什么原因？

【核心解析】 训练数据中的噪声与偏差；模型过度泛化与记忆不足；缺乏外部知识验证；解码策略导致的事实错误；上下文误导或模糊输入

Q99: 分支覆盖率(Branch Coverage)的统计原理是什么？

【核心解析】 分支覆盖率的定义与计算方式；与语句覆盖、路径覆盖的区别；在测试Agent决策逻辑时的应用；如何设计测试用例以提高分支覆盖率；覆盖率工具的底层实现原理

Q100: 如何解决大模型幻觉问题？

【核心解析】 数据层：通过检索增强生成（RAG），多路召回（关键词+向量）并排序过滤，精简上下文减少干扰；生成层：强规则Prompt限制模型基于提供数据回答，结构化输出（如JSON）限制表达范围，降低温度减少随机性，多轮对话拆解意图与生成；结果层：规则校验字段完整性和类型，数据一致性检查，自我修复机制（错误内容喂回模型修正），兜底策略（重试失败后返回模板回答）。

Agent_Eval_Safety 面试专题手册 ​

Q1: 讲一下Ragas评测 ​

Q2: Ragas的Context Precision如果很低，你怎么优化？ ​

Q3: Ragas评测中，如果Faithfulness得分低，说明模型出现了什么问题？ ​

Q4: 如何保证Agent的输出有用性？ ​

Q5: 如何量化评估一个Agent系统的好坏？ ​

Q6: 你们项目里有没有遇到幻觉问题？ ​

Q7: 如何客观评价 RAG 的效果？ ​

Q8: LLM 的性能评估指标有哪些？ ​

Q9: 如何设计记忆相关的基准测试（memory benchmark）？ ​

Q10: 场景题：对于一个安全问题或者case分析的agent，讲一下具体设计 ​

Q11: Agent 的评测需要哪些测试集？需要评测哪些指标？ ​

Q12: JMeter 压测的具体参数是怎么设置的？ ​

Q13: 如何对 Agent 项目进行质量评测？ ​

Q14: Agent的调优是如何评估的？评测集是如何构建的？请分享一两个调优后效果提升显著的案例。 ​

Q15: 哪些模型可以输出置信度或概率？如何让模型提供预测的不确定性？ ​

Q16: 提示词有哪些安全防护措施？提示词是怎么优化的，还有哪些优化方式？ ​

Q17: 如何测试Agent搭的好不好？Agent执行细节，大模型会调用哪些工具？ ​

Q18: 如何控制大模型的幻觉问题？ ​

Q19: 怎么测的RAG的效果 ​

Q20: 生成式召回怎么评估 ​

Q21: 码本训练的方法、评估指标、模态对齐怎么做？Embedding模型是否要训练？幻觉怎么解决？ ​

Q22: 发现幻觉率很高，该怎么处理 ​

Q23: 如何全面评估一个 RAG 系统是否有效？ ​

Q24: Agent 流程设计中常见的三个最大问题是什么？ ​

Q25: 如果让你设计一个Agent系统，怎么设定评定指标（过程指标+结果指标） ​

Q26: 在AI Coding中，对于一个客服Agent，当前的奖励函数有哪些？请举例说明。 ​

Q27: 有对比过强模型在这个任务上的表现吗？ ​

Q28: 模型效果评估为什么不能只看问答准确率？Agent 系统至少还要评什么？ ​

Q29: Agent评测工程框架如何支持从预训练到Agent全链路的评测任务 ​

Q30: 在智能客服Agent中，如何避免模型的幻觉问题？ ​

Q31: 你公司的 Agent 具体实现中，你做的 Routing Model 实现效果如何？功能有没有做过评测？ ​

Q32: 如果让你定义agent评测指标，你会关注哪些点？ ​

Q33: agent性能维度，你了解哪些指标？ ​

Q34: 你怎么做 ablation，证明提升真的是 RAG、SFT、DPO 或 Judge 带来的，而不是别的变量？ ​

Q35: 同一个问题，你怎么评估不同LLM在你的系统里到底谁更适合上线？ ​

Q36: 设计开发Agent时，如何评估它的好坏？ ​

Q37: 在生成任务中，如何判断模型输出无幻觉、无错误？如何进行重复判断？ ​

Q38: 怎样去设计一个Agent的沙箱机制 ​

Q39: 你是怎么解决大模型的幻觉问题的？ ​

Q40: 大模型幻觉怎么规避？大模型幻觉是什么导致的？ ​

Q41: Expert Agent的评价指标（如出商品率、商品正确率）具体如何定义和获取评测数据？ ​

Q42: 模型经常给出听起来合理但不可执行的回答，如何治理这类问题？ ​

Q43: Oncall 机器人回答准确率怎么定义，为什么“用户感觉还行”不够 ​

Q44: 评估机制收集到的反馈数据应该怎么用，才能形成真正有价值的闭环 ​

Q45: 你的 Agent 项目是如何评估的？ ​

Q46: 怎么保证Agent不出现幻觉？ ​

Q47: Agent系统中准确率和召回率是怎么衡量的？ ​

Q48: 哪些参数影响模型推理阶段回答的稳定性？ ​

Q49: 在蚂蚁的模型基准和评估面试中，你遇到了哪些关键问题？如何评估Agent的效果？ ​

Q50: AI 项目（RAG 方向）效果提升是如何评估的，有没有 baseline 对比，技术选型怎么考虑，如何判断效果好坏，以及遇到的 bad case？ ​

Q51: 在AI Agent系统中，如何设计审计和可追溯机制来保证业务流程可追踪、可回滚、可仲裁？ ​

Q52: 如果检测到用户存在极端情绪，你的Agent如何在不中断对话流的前提下进行干预？ ​

Q53: 除了写代码，AI在测试验证阶段能帮上什么，哪些地方不能盲信它？ ​

Q54: 当用户与AI对话时生成的问题本身存在冲突，系统应如何处理？为什么不能让模型直接二选一猜测答案？ ​

Q55: 大模型幻觉（Hallucination）产生的原因是什么？如何从解码策略或训练层面解决？ ​

Q56: Agent 的评估指标应如何设计，为什么不能只看任务成功率？ ​

Q57: 如何系统性地处理大模型在生产环境中的幻觉问题？ ​

Q58: 安全生产类项目一般怎么评估，为什么不能只看 acc 或 rouge？ ​

Q59: Rouge-L、BERTScore 这类指标在长文档生成里为什么经常失真？ ​

Q60: 如何对Agent进行测评？ ​

Q61: 大模型业务指标体系如何设计？召回率是如何定义的？ ​

Q62: 大模型幻觉问题的全链路解决方案包含哪些环节？ ​

Q63: 如何设计教育大模型的量化评估指标体系？ ​

Q64: 如果在 Prompt 中明确提出 RAG 结果不要返回某种商品，但模型还是返回了，并且多次出现，这种情况可能是什么原因？ ​

Q65: 在设计智能体时，如何从工程层面保障稳定性和安全性？ ​

Q66: AI 应用中的在线实验与传统 AB 测试相比有哪些差异和挑战？ ​

Q67: 实践过程中，Agent 和人类对于同一个标准的理解不一致，这个问题你怎么看？ ​

Q68: 如何评估RAG系统的效果？除了准确率还能看哪些指标？ ​

Q69: RAG的效果你怎么评估，不能只说看用户反馈？ ​

Q70: 幻觉问题你一般怎么处理，尤其是安全场景下的高风险幻觉？ ​

Q71: 如何评估一个系统的QPS承载能力？如何定位性能瓶颈？ ​

Q72: 如何判断推理能力和最终答案之间是否有关联？ ​

Q73: 在Agent上线后是否遇到过过拟合的情况？如何检测和缓解？ ​

Q74: AI Agent项目中，模型输出失败可以分为哪些情况 ​

Q75: 如何评估 RAG 的召回率？ ​

Q76: 如何评估 RAG 是否 work？ ​

Q77: 你如何评估检索召回内容与用户问题的匹配度，有没有做相关的效果评估？ ​

Q78: 你们的评测机制主要是通过固定规则、RUBASE或code coding评分器，没有大模型参与打分，可以具体介绍一下吗？ ​

Q79: 模型工具调用的准确率是如何计算的？ ​