Multimodal_VLM 面试专题手册

💡 本章节共收录 584 道面试真题，建议每天复习 10-20 题。

Q1: 在你的流程中，VLM是在检索阶段参与，还是只在最后生成答案时参与？

【核心解析】 VLM可在检索阶段用于多模态查询理解或图像内容索引；也可在生成阶段融合文本与视觉信息生成答案；设计需权衡延迟与效果，检索阶段引入VLM可能增加复杂度但提升召回；常见做法是检索阶段用轻量模型，生成阶段用强VLM。

Q2: 多模态大模型的不同输入如何进行编码和对齐？

【核心解析】 模态编码器：文本（Transformer）、图像（ViT、ResNet）、音频（Whisper、HuBERT）、视频（3D CNN、TimeSformer）；对齐方法：对比学习（CLIP、ALIGN）、跨模态注意力（Flamingo、BLIP-2）、投影层（线性映射、Q-Former）；训练策略：两阶段训练（预训练对齐+指令微调）、冻结编码器仅训练投影层；挑战：模态差距（Modality Gap）、计算成本、数据配比；典型架构：LLaVA（视觉编码器+投影层+LLM）、Qwen-VL（视觉Transformer+交叉注意力）

Q3: 在多模态融合项目中，你是如何实现cross-attention和动态门控机制的？

【核心解析】 多模态特征融合方法；cross-attention实现跨模态交互；动态门控机制控制信息流；具体网络结构与计算流程；融合后的效果评估。

Q4: DiT 的框架流程是怎样的？如何实现时间注入？讲一讲 AdaLN。

【核心解析】 DiT将扩散模型中的U-Net替换为Transformer；时间步t通过嵌入后，以自适应层归一化（AdaLN）的方式注入，即根据t的嵌入回归缩放和平移参数；AdaLN在层归一化后对特征进行逐通道的仿射变换。

Q5: 讲一下 Flow Matching 的原理和优势。

【核心解析】 Flow Matching学习连续归一化流，通过匹配向量场来生成数据；优势包括训练稳定、采样效率高、可扩展至多种模态；相比扩散模型，路径更直接，可能减少采样步数。

Q6: 为什么现在大家都用 RMSNorm 而不是 LayerNorm？

【核心解析】 RMSNorm去除了均值中心化，仅保留缩放，计算更简单高效；在Transformer中效果相当或更好；减少了计算量，适合大规模模型。

Q7: 如果有一个数字人模型，想训练成只生成一个人的，可以怎么做？

【核心解析】 使用特定人物数据进行微调；引入身份条件控制（如人脸嵌入）；结合LoRA等高效微调方法；数据增强保持多样性；可能结合ControlNet等结构。

Q8: 你看过什么 SOTA 模型的 ref image 注入方式？有什么优劣？

【核心解析】 CLIP图像嵌入拼接或交叉注意力；IP-Adapter解耦的交叉注意力；ControlNet引入空间条件；优劣涉及控制力、泛化性、计算开销、对文本对齐的影响等。

Q9: 直播怎么用的实时多模态特征，有哪些

【核心解析】 视频帧特征（图像嵌入）；音频特征（语音转文本、声学特征）；文本特征（弹幕、评论）；用户行为特征；多模态融合用于实时推荐或审核

Q10: 原生多模态和非原生多模态的区别是什么

【核心解析】 原生多模态：模型在预训练阶段同时使用文本、图像、音频等多种模态数据联合训练，模态间特征深度融合；非原生多模态：通常将不同模态分别编码后通过映射层对齐，如LLM+视觉编码器的组合；原生多模态在跨模态理解和生成上更一致，幻觉可能更低；非原生多模态实现简单，可快速利用现有单模态模型；训练数据、架构设计和计算资源的差异

Q11: 多模态特征（图文）是如何融合的？

【核心解析】 多模态融合架构（如早期融合、晚期融合、交叉注意力）；视觉编码器与文本编码器的对齐方法（如 CLIP 对比学习）；融合层的设计（如 Transformer 交叉注意力、FiLM）；多模态预训练任务（图文匹配、掩码预测）；特征融合对下游任务的影响

Q12: 论文里的多模态，用的是哪几个模态？现有的多模态大模型，你了解多少？

【核心解析】 常见模态类型（文本、图像、音频、视频等）；主流多模态大模型架构（如CLIP、Flamingo、BLIP-2、LLaVA等）；模态对齐与融合方法；多模态预训练任务；评估基准与典型应用场景

Q13: OCR环节是否会出现过拟合，有什么表现

【核心解析】 OCR模型过拟合的原因；过拟合的表现（如训练集精度高、测试集精度低）；缓解过拟合的方法（数据增强、正则化）

Q14: 是否有微调过多模态大模型？请介绍相关经验。

【核心解析】 熟悉多模态大模型（如LLaVA、GPT-4V等）的架构；掌握多模态数据的预处理与对齐方法；了解微调策略（如LoRA、全参微调）及其适用场景；能够处理模态融合中的挑战

Q15: 算法题涉及多模态和CLIP等模型，请阐述多模态模型的基本原理及CLIP的核心思想。

【核心解析】 多模态学习的概念（融合视觉、文本等多种模态信息）；CLIP的双塔架构（图像编码器和文本编码器）；对比学习目标（最大化匹配图文对的相似度）；零样本迁移能力；多模态预训练对下游任务的影响

Q16: 多模态大模型的主流架构有哪些？

【核心解析】 基于Transformer的统一架构，如ViT+LLM；跨模态对齐方法，如CLIP、BLIP-2的Q-Former；模态融合策略，如早期融合、中期融合、晚期融合；代表性模型如LLaVA、Qwen-VL系列的特点

Q17: 请介绍Qwen-VL系列模型的特点。

【核心解析】 Qwen-VL的模型架构与训练流程；视觉编码器与语言模型的结合方式；支持的分辨率与输入格式；多模态任务能力，如图像描述、视觉问答；与其它多模态模型的对比

Q18: 在Agent不断对Context进行修正的过程中，特别是涉及图像时，如何保证图片的一致性？

【核心解析】 多模态上下文中的图像一致性挑战；图像版本管理与引用机制；基于元数据或特征匹配的校验；生成式模型中的图像一致性保持技术；实际项目中的解决方案

Q19: 多模态和文本在向量嵌入的时候存在什么区别？

【核心解析】 多模态嵌入需对齐不同模态的语义空间；文本嵌入通常基于预训练语言模型；多模态嵌入常使用对比学习（如CLIP）；模态间的异构性需要特殊处理；嵌入维度和归一化策略可能不同

Q20: 有做过VLM（视觉语言模型）相关的工作吗？

【核心解析】 VLM的典型架构（如CLIP、BLIP、LLaVA）；多模态对齐方法（对比学习、生成式预训练）；视觉编码器与语言模型的连接方式（Q-Former、线性投影）；训练策略（两阶段训练：预训练对齐、指令微调）；评估指标（如VQA准确率、图像描述质量）。

Q21: Transformer为什么适用于多模态任务？

【核心解析】 自注意力机制能灵活建模不同模态间的全局依赖；位置编码可扩展至时间/空间等多维信息；统一的序列建模方式便于融合文本、图像等异构数据；预训练-微调范式支持跨模态迁移学习。

Q22: 请介绍你对多模态模型/VLM路线的理解。

【核心解析】 VLM架构类型（如BLIP-2的Q-Former桥接、LLaVA的线性投影）；视觉编码器选择（ViT等）；模态对齐方法（对比学习、生成式预训练）；典型训练流程（预训练对齐、指令微调）；评估任务（VQA、图像描述等）

Q23: 你对OCR模型有哪些了解？请介绍其原理、常见架构及应用场景。

【核心解析】 OCR模型用于图像中的文字识别，包括检测和识别两阶段；常见架构如CRNN、Tesseract、TrOCR等；基于Transformer的模型可端到端处理；应用场景包括文档数字化、身份证识别等；评估指标有字符准确率和编辑距离。

Q24: 你对VLM这条线还有哪些了解？相比于LLaVA，Qwen-VL有哪些不一样的地方？

【核心解析】 VLM的典型架构（如视觉编码器+连接器+LLM）；LLaVA的特点（如简单的线性投影层连接）；Qwen-VL的改进（如更强的视觉编码器、动态分辨率、多语言支持）；训练策略差异（如预训练与指令微调阶段）；评估基准与性能对比

Q25: 多模态模型的大致结构是什么？

【核心解析】 视觉编码器（如 ViT）提取图像特征；文本编码器处理语言输入；跨模态融合模块（如交叉注意力、拼接）；解码器生成文本输出；训练策略：对比学习、生成式预训练、多阶段对齐

Q26: 多模态模型的大致结构是什么？

【核心解析】 通常包含视觉编码器（如 ViT）提取图像特征；文本编码器或 LLM 处理文本；通过跨模态连接模块（如 Q-Former、线性投影）对齐视觉与文本表示；多模态融合后送入 LLM 生成文本；训练分阶段：预训练对齐模态，指令微调提升任务表现。

Q27: 对业内常见的多模态语义编码技术有了解吗

【核心解析】 多模态对齐方法（CLIP、ALBEF等对比学习）；统一编码架构（ViT+文本Transformer、多模态融合层）；预训练任务设计（图文匹配、掩码语言/图像建模）；下游应用（跨模态检索、VQA）；评估指标与挑战（模态差距、数据噪声）

Q28: 为什么CLIP中的ViT必须将输入图像resize到固定尺寸？

【核心解析】 ViT基于Transformer架构，需要固定长度的输入序列；图像分块后每个patch对应一个token，固定尺寸保证patch数量和序列长度一致；便于批处理训练和高效矩阵运算；与文本编码器对齐，确保多模态嵌入空间维度匹配

Q29: 介绍一下Q-former这个多模态系统

【核心解析】 Q-former在BLIP-2中的架构；使用可学习的查询向量从冻结的图像编码器提取视觉特征；与LLM的桥接方式；两阶段预训练策略；多模态任务表现

Q30: 看过 real time chunking（RTC）吗？

【核心解析】 RTC 是实时分块处理技术，用于流式数据；在 Agent 中可用于处理实时音视频流；涉及低延迟、增量处理、状态管理等挑战；与 VLM 结合可提升多模态实时交互能力。

Q31: 商汤实习多模态大模型二面：拷打实习项目

【核心解析】 多模态大模型架构，如视觉编码器+语言模型；训练数据构建和预处理；模态对齐方法，如对比学习或Q-Former；实习中遇到的挑战和解决方案；模型评估指标和实际效果。

Q32: 多模态表征学习中，跨模态对齐的难点是什么？如何保证不同模态特征的语义一致性？

【核心解析】 难点在于不同模态特征分布和语义表达形式差异大，存在模态鸿沟；引入统一语义空间映射，将不同模态特征投影到同一向量空间；通过模态特定的归一化层消除模态分布差异；使用对比学习或跨模态匹配损失强化语义一致性

Q33: 讲讲 CLIP，损失函数是什么？

【核心解析】 CLIP 是 OpenAI 提出的多模态模型，通过对比学习联合训练图像和文本编码器；损失函数为对称交叉熵损失，计算图像-文本对的相似度矩阵；正样本对对角线，负样本对非对角线，最大化正样本相似度、最小化负样本相似度；使用大批量训练，无需标注类别，利用自然语言监督；可用于零样本图像分类、检索等任务

Q34: 如果采用余弦相似度强行使得图文对匹配能不能行？

【核心解析】 余弦相似度可衡量向量方向一致性，适合高维稀疏特征；但仅用余弦相似度可能忽略模长信息，且对噪声敏感；CLIP 训练中已使用余弦相似度计算 logits，但结合了可学习的温度参数缩放；强行匹配可能导致模型退化，无法区分细微差异；需结合对比损失和大量数据训练，使特征空间语义对齐

Q35: DiT 和 U-Net 相比，为什么在某些生成任务上更有优势？

【核心解析】 DiT 继承 Transformer 的全局建模能力，擅长处理高维 token 的长程依赖；U-Net 偏局部卷积归纳偏置，在复杂条件或多模态控制时灵活性不足；DiT 将扩散噪声预测器替换为更适合大规模表征学习的架构，上限更高；但 DiT 对数据量、训练资源和 tokenization 更敏感。

Q36: 你了解多模态模型吗？在Agent场景中有哪些应用？

【核心解析】 多模态模型可处理文本、图像、音频等多种输入；典型架构如视觉-语言模型（VLM）结合视觉编码器与LLM；Agent可利用多模态感知环境（如GUI、机器人视觉）；支持更丰富的工具调用与交互；挑战包括模态对齐、推理效率与幻觉控制。

Q37: 请介绍ViT、CLIP、BERT等模型，并解释文本生成任务中为什么通常采用decoder-only架构？

【核心解析】 ViT将图像分块并应用Transformer编码器；CLIP通过对比学习对齐图像和文本；BERT是双向编码器，擅长理解任务；decoder-only架构适合自回归生成，训练效率高，上下文连续；与encoder-decoder对比，decoder-only在扩展性和零样本能力上表现更好

Q38: Qwen3-VL有哪些改进？目前多模态大模型的一般架构是怎样的？

【核心解析】 Qwen3-VL改进可能包括更强的视觉编码器、动态分辨率、更好的多模态对齐；多模态大模型一般架构包括视觉编码器、连接模块、语言模型；视觉编码器提取视觉特征，连接模块将视觉特征映射到语言空间，语言模型进行理解和生成

Q39: CLIP了解吗？

【核心解析】 CLIP（Contrastive Language-Image Pre-training）是OpenAI的多模态模型；通过对比学习联合训练图像和文本编码器；实现零样本图像分类；原理：最大化匹配图文对的相似度，最小化不匹配对的相似度；应用：图像检索、生成引导、多模态理解

Q40: 除了Qwen2-VL，还使用过哪些多模态大模型？

【核心解析】 常见的多模态大模型包括GPT-4V、Gemini、LLaVA、CogVLM等；GPT-4V在视觉理解和推理上表现强大，但闭源；Gemini支持多模态融合，原生多模态能力强；LLaVA基于LLaMA和CLIP，开源且可定制；CogVLM强调视觉专家模块，保持语言能力；选择时需考虑任务需求、部署成本和开源生态。

Q41: 项目的图像识别如何实现的，为什么不用多模态大模型，而选择传统的识别模型？

【核心解析】 传统模型（如CNN、YOLO）的优势：速度、资源消耗、可解释性；多模态大模型的适用场景与局限性；业务需求与成本权衡；模型部署与推理效率；混合架构的可能性

Q42: 设计一个用于车内驾驶员状态识别的多模态模型，传感器包括摄像头和力传感器，你会如何设计这个pipeline？

【核心解析】 多模态数据融合策略（早期融合、晚期融合、跨注意力）；摄像头数据（视觉）与力传感器数据（时序/触觉）的特征提取方法；模型架构选择（如Transformer、多流网络）；实时推理与车载部署的优化；安全与隐私考量

Q43: 原生多模态是指什么？可以讲一下你对原生多模态的理解吗？

【核心解析】 原生多模态的定义：模型从设计之初就同时处理多种模态数据；与拼接式多模态的区别；原生多模态的架构特点（如统一编码器、跨模态注意力）；训练数据与预训练目标的设计；优势：更强的跨模态对齐和生成能力

Q44: CLIP模型的zero-shot能力是如何实现的？

【核心解析】 对比学习将图像和文本映射到共享空间；利用大规模图文对进行预训练；通过文本模板进行零样本分类；图像和文本编码器的设计；泛化能力的来源

Q45: CLIP在多模态任务中的应用有哪些优势？

【核心解析】 强大的视觉语义理解能力；无需微调即可用于多种下游任务；支持图文检索、零样本分类等；与生成模型结合（如DALL-E）；鲁棒性和泛化性较好

Q46: 如果一个材料既有图片又有文字，如何分块？

【核心解析】 多模态文档解析需结合布局分析；文字区域用OCR提取，图片区域用视觉编码器；分块策略需保持图文关联，如基于空间邻近性合并；常用方案：Unstructured、LayoutLM等；分块后向量化存入多模态向量库。

Q47: 在多模态Embedding时，你如何平衡文本语义和图像视觉特征在计算相似度时的权重？

【核心解析】 使用可学习的权重参数融合文本和图像特征；根据任务特点调整权重（如文本检索图像侧重文本）；采用对比学习对齐多模态表示；使用交叉注意力机制动态融合；评估不同权重下的检索性能。

Q48: 主流的多模态大模型有哪些？你用过的多模态大模型有哪些？

【核心解析】 主流模型：CLIP、DALL-E、Stable Diffusion、GPT-4V、LLaVA等；用过的模型需结合实际项目说明；多模态任务包括图文匹配、图像生成、视频生成等；视频生成任务如文生视频、视频预测。

Q49: CLIP 模型的 zero-shot 能力是如何实现的？它在多模态任务中的应用有哪些优势？

【核心解析】 CLIP 通过对比学习联合训练图像和文本编码器，将两者映射到统一向量空间；zero-shot 分类利用文本标签的嵌入与图像嵌入的相似度计算；无需微调即可泛化到新类别；优势包括：开放词汇识别、跨模态检索、鲁棒性强、可扩展性好；在多模态任务中作为基础模型，支持图文匹配、图像生成引导等

Q50: CLIP 模型的 zero-shot 能力是如何实现的？它在多模态任务中的应用有哪些优势？

【核心解析】 CLIP通过对比学习联合训练图像和文本编码器，使匹配的图文对嵌入接近；zero-shot分类时，将类别文本作为提示，计算图像与所有文本的相似度，取最高者；无需微调即可泛化到新类别，得益于大规模图文预训练；优势包括：开放词汇识别、跨模态检索、鲁棒的视觉表示；可灵活适配多种下游任务，如分类、检测、生成引导。

Q51: CLIP模型的zero-shot能力是如何实现的？

【核心解析】 大规模图文对对比学习预训练；双塔结构分别编码图像和文本；通过点积计算图文相似度；开放词汇分类利用文本编码器生成类别权重

Q52: 请介绍阿里通义万相(Wan)的框架结构。

【核心解析】 Wan的整体架构设计；核心组件及其功能；与主流视频生成模型的异同。

Q53: 你是否了解MM-DiT的框架？请详细说明。

【核心解析】 MM-DiT的架构设计；多模态输入的处理方式；与标准DiT的区别。

Q54: 在DiT中，时间步t是如何注入的？请讲解AdaLN机制。

【核心解析】 时间步t的编码方式；AdaLN的原理与计算过程；AdaLN在DiT中的作用。

Q55: VideoVAE是如何训练的？使用了哪些损失函数？如果重建视频不清晰，可以添加什么损失函数来改善？

【核心解析】 VideoVAE的训练流程；常用的损失函数（如L1、L2、感知损失、对抗损失）；改善重建质量的额外损失（如光流损失、时序一致性损失）。

Q56: 请介绍Flow Matching的具体做法，并对比其与DDPM的优劣。

【核心解析】 Flow Matching的基本原理与训练流程；与DDPM在扩散过程、采样速度上的差异；各自的优缺点。

Q57: 请讲解Classifier-Free Guidance (CFG) 的原理。

【核心解析】 CFG的动机与核心思想；训练与采样时的实现细节；引导强度对生成结果的影响。

Q58: 你认为训练一个视频基座模型应该包含哪几个流程？哪一步最为关键？

【核心解析】 数据收集与预处理；模型架构选择；预训练策略；微调与对齐；评估与迭代；关键步骤的分析。

Q59: CLIP模型的zero-shot能力是如何实现的？它在多模态任务中的应用有哪些优势？

【核心解析】 CLIP的双塔结构与对比学习预训练；图文匹配的zero-shot推理机制；在图像分类、检索等任务中的优势。

Q60: 你对CLIP了解多少？

【核心解析】 CLIP模型架构（双塔结构）；对比学习训练目标；zero-shot迁移能力；数据规模与质量；局限性

Q61: Vision Encoder是如何训练的？在多模态训练中是否分阶段训练Encoder？

【核心解析】 Vision Encoder预训练方法（如MAE、DINO）；多模态训练中的冻结与解冻策略；分阶段训练（先对齐再微调）；学习率与数据配比

Q62: 你的论文中SFT是统一训练还是分开训练的？

【核心解析】 SFT（Supervised Fine-Tuning）的统一训练与分阶段训练对比；多任务数据混合策略；训练稳定性与效率；对下游任务的影响

Q63: CLIP优化：CLIP模型的zero-shot能力是如何实现的？请从模型设计和训练策略角度分析，并提出改进其跨模态检索效果的方案。

【核心解析】 CLIP通过对比学习联合训练图像和文本编码器，使匹配的图文对在嵌入空间靠近；大规模图文对数据训练，学习通用视觉概念；zero-shot 能力源于将分类任务转化为图文匹配；改进方案：使用更高质量数据、引入细粒度对齐、增加数据增强、优化损失函数如 SigLIP

Q64: 你都读过哪些关于多模态的技术报告？

【核心解析】 多模态模型架构（如CLIP、BLIP-2、LLaVA）；视觉-语言对齐方法；多模态训练数据与评估基准；最新技术趋势与报告解读

Q65: 介绍一下多模态长视频扩展方法，如何在现有模型上改，比如LLaVA。

【核心解析】 长视频理解需要处理大量帧，计算成本高；常见方法包括稀疏采样、记忆机制和层次化建模；LLaVA是视觉指令微调模型，可扩展视频输入；改进方向：引入视频编码器（如TimeSformer）、设计时间聚合模块、使用记忆库存储历史帧信息；需平衡性能与效率，考虑帧间冗余和关键帧选择。

Q66: 你都读过哪些关于多模态的技术报告？

【核心解析】 多模态大模型（如GPT-4V、Gemini、LLaVA）的技术报告；视觉-语言预训练方法（如CLIP、BLIP）；多模态融合架构（如cross-attention、ViT+LLM）；评估基准与数据集；最新研究趋势（如多模态agent、具身智能）

Q67: 介绍CNN、ResNet、CLIP、BLIP、ViT等模型

【核心解析】 CNN是卷积神经网络，擅长提取局部特征，用于图像分类等；ResNet通过残差连接解决深层网络退化问题；CLIP利用对比学习对齐图像和文本，实现零样本分类；BLIP是统一视觉语言理解和生成的模型，采用多任务学习；ViT将Transformer应用于图像，将图像分块作为序列输入；理解各模型的核心架构、训练方式和应用场景

Q68: SFT训练Qwen-VL-7B模型占用的显存是多少？ViT和映射层占多少显存？

【核心解析】 模型参数、梯度、优化器状态的显存估算；ViT部分的显存占用与图像分辨率的关系；映射层（如线性投影）的参数量；使用LoRA等高效微调方法对显存的节省

Q69: 为什么选择做多模态大模型？你是如何转到这个方向的？

【核心解析】 多模态大模型能融合视觉和语言信息，实现更丰富的理解和生成能力；个人兴趣或研究背景与多模态相关；通过自学相关课程、参与项目或阅读论文逐步积累经验；未来规划是深入研究多模态交互或应用。

Q70: 谈谈你对多模态模型的个人认识，以及未来的发展趋势。

【核心解析】 多模态模型整合文本、图像、音频等多种模态信息；当前趋势包括统一架构（如Omni模型）处理多模态输入输出；挑战在于模态对齐、数据融合和计算效率；应用场景如视觉问答、跨模态检索、内容生成；未来可能向更通用、可解释、轻量化发展。

Q71: Qwen-VL有使用了解过吗？

【核心解析】 Qwen-VL的架构与能力；多模态输入处理；应用场景与局限性；与其他VLM的对比

Q72: 如何评估 minimax 大模型算法中多模态模型的输出质量？

【核心解析】 任务相关指标：如图文匹配的Recall@K、生成图像的FID/IS；多模态理解：VQA准确率、跨模态检索mAP；生成质量：文本生成的BLEU/ROUGE，图像生成的CLIPScore；人工评估：相关性、流畅性、准确性等维度；鲁棒性测试：对抗样本、分布外泛化能力。

Q73: 在CLIP模型中，倒数第二层和倒数第一层分别做了什么？如何对视觉和文本表示进行解纠缠或对齐？

【核心解析】 CLIP倒数第二层为多模态融合前的表示，倒数第一层进行对比对齐；解纠缠可通过风格与内容分离实现；采用few-shot IPA平均淡化内容保留风格；可借鉴B-LoRA等方法分离概念。

Q74: 如何结合CLIP做多模态融合跟踪？

【核心解析】 CLIP提取视觉和文本特征；特征融合方式（拼接、注意力）；跨模态相似度计算；跟踪中的模板更新策略；处理模态缺失

Q75: CLIP是一个什么样的模型？Language和Image是如何产生关联的？

【核心解析】 CLIP的双塔结构；对比学习目标；图文特征对齐方式；zero-shot能力

Q76: 介绍一下你的CVPR论文，为什么利用CLIP可以做到消除背景？

【核心解析】 论文动机与贡献；CLIP在背景消除中的应用原理；损失函数设计；与sota的对比

Q77: 在图像分割场景中，如何从海报图中分割出辣椒区域？请对比传统图像处理方法和深度学习方法的优劣，并给出你的方案。

【核心解析】 传统方法：基于颜色空间（如HSV）阈值分割，结合形态学操作，但易受光照和背景干扰；深度学习方法：使用语义分割模型（如U-Net、DeepLab），需要标注数据，但泛化能力强；可考虑传统方法作为预处理或数据增强；实际场景中建议使用深度学习，若数据不足可采用迁移学习或数据增强；需考虑实时性和精度权衡。

Q78: 请介绍UNet的结构和原理。

【核心解析】 UNet是一种编码器-解码器结构，用于图像分割；编码器逐步下采样提取特征，解码器上采样恢复分辨率；跳跃连接将编码器特征与解码器特征拼接，保留细节信息；常用于医学图像分割等任务。

Q79: 请解释多头注意力的原理。

【核心解析】 多头注意力将输入映射到多个不同的子空间，分别计算注意力；每个头有独立的Q, K, V权重矩阵；最后将所有头的输出拼接并线性变换；可以捕捉不同位置和不同表示子空间的信息。

Q80: 请写出SSIM和PSNR的计算公式，并解释其含义。

【核心解析】 PSNR：峰值信噪比，PSNR=10·log10(MAX^2/MSE)，衡量重建图像与原始图像的像素误差；SSIM：结构相似性，SSIM(x,y)=[l(x,y)]^α·[c(x,y)]^β·[s(x,y)]^γ，从亮度、对比度、结构三方面衡量相似性。

Q81: 请介绍YOLO和Sora模型。

【核心解析】 YOLO：实时目标检测算法，将检测视为回归问题，单次前向传播即可预测边界框和类别；Sora：OpenAI的文本生成视频模型，基于扩散模型和Transformer架构，可生成长时间、高保真视频。

Q82: 请介绍生成模型的评价指标，如CLIP、I2I、T2I、LPIPS、FID等。

【核心解析】 FID：衡量生成图像与真实图像在特征空间的距离；LPIPS：基于深度特征的感知相似度；CLIP score：利用CLIP模型评估文本-图像对齐程度；I2I和T2I通常指图像到图像和文本到图像的生成任务，评价指标包括FID、IS等。

Q83: DDPM和DDIM的区别是什么？特别是在去噪过程中的区别。

【核心解析】 DDPM：马尔可夫链扩散过程，去噪步数多，采样慢；DDIM：非马尔可夫过程，可跳步采样，加速生成；DDIM是DDPM的确定性推广，可控制生成多样性。

Q84: 抠图和分割有什么区别，抠图的前景背景代表什么？MODNet 语义的部分是怎么预测的，人的姿态千变万化，他为什么能够那么好的预测出来？

【核心解析】 抠图（Matting）输出精细的透明度蒙版，处理前景与背景的混合像素，而分割是硬分类；前景代表需要提取的主体，背景代表去除的部分；MODNet 通过语义分支预测粗略前景掩码，细节分支优化边缘，融合分支结合多尺度特征；MODNet 利用大量合成数据训练，学习人体先验，并通过多任务学习提升泛化能力，适应姿态变化。

Q85: 对多模态数据有什么了解？之前工作的多模态数据有什么特点和创新点，觉得还可以有什么改进？

【核心解析】 多模态数据的定义与常见类型（文本、图像、音频、视频等）；多模态数据的对齐与融合方法；之前工作中多模态数据的具体特点与创新之处；可能的改进方向（如数据质量、模态覆盖、标注效率等）

Q86: 你对大模型在多模态方面有什么了解？

【核心解析】 主流多模态大模型（如CLIP、DALL-E、GPT-4V等）的原理与能力；多模态预训练任务（图文匹配、掩码预测等）；多模态大模型的典型应用（图像描述、视觉问答等）；当前挑战与未来方向

Q87: 对于 CLIP 的了解。

【核心解析】 对比语言-图像预训练；双塔模型；图文匹配；零样本分类；InfoNCE 损失。

Q88: BLIP 的细节（为什么将训练分成两个阶段）。

【核心解析】 第一阶段：图文对比学习与生成；第二阶段：利用生成描述进行多模态编码；提升理解与生成能力。

Q89: Visual Encoder 有哪些常见的类型？

【核心解析】 ViT；ResNet；Swin Transformer；ConvNeXt；对比学习预训练模型。

Q90: 讲一下主要的多模态模型的模型结构

【核心解析】 常见多模态模型结构包括双流结构（如CLIP）和单流结构（如ViLBERT）；双流结构分别编码图像和文本，再通过跨模态交互融合；单流结构将图像和文本特征早期融合，统一输入Transformer；近期主流如BLIP-2、LLaVA等采用视觉编码器+大语言模型的结构，通过Q-Former或线性投影连接模态；需关注模态对齐方式、训练策略（如对比学习、生成式训练）

Q91: 介绍一下业务逻辑，如何挖掘广告的图片特征，如何实现多模态

【核心解析】 多模态特征融合方法（如早期融合、晚期融合）；图像特征提取（CNN、ViT等）；文本与图像特征的联合表示学习；实际业务中的多模态模型选型与优化

Q92: 多模态数据（图文/表格）如何统一建索引？

【核心解析】 多模态embedding对齐方法；统一向量空间构建；不同模态数据的预处理与特征提取；跨模态检索策略；索引结构与存储优化

Q93: 讲一下主要的多模态模型的模型结构

【核心解析】 常见多模态架构（如双塔、单塔、融合编码器）；视觉编码器与语言模型的连接方式（如Q-Former、线性投影、交叉注意力）；主流模型（如CLIP、BLIP-2、LLaVA）的结构特点与差异

Q94: 对多模态的数据有什么了解？

【核心解析】 多模态数据的类型与来源（图文对、视频文本、交错图文）；数据构造方法（如DPO数据、多模态CoT数据）；数据增强技术（如文本改写、图像变换、跨模态合成）

Q95: 之前的工作的多模态数据有什么特点和创新点，觉得还可以有什么改进？

【核心解析】 数据特点（如规模、多样性、质量）；创新点（如引入新模态、数据构造策略）；改进方向（如数据质量提升、覆盖更多场景、减少噪声）

Q96: OCR结果有噪声或错误时，你是怎么做纠错或提升解析质量的？

【核心解析】 后处理纠错技术（基于词典、语言模型、规则）；利用上下文信息进行校正；多模型集成或投票机制；图像预处理提升OCR输入质量；针对特定领域（如表格、公式）的定制化优化

Q97: 多模态检索中，图像和文本向量不在同一空间时，如何实现对齐？

【核心解析】 跨模态映射方法（如线性投影、非线性网络）；联合嵌入空间的学习（如CLIP、ALIGN）；对比学习损失函数的设计；使用预训练模型进行零样本对齐；评估对齐质量的指标（如Recall@K）

Q98: 在多模态系统中，引入Adapter的主要作用是什么？

【核心解析】 Adapter用于对齐不同模态的特征空间，将视觉、音频等非文本模态映射到LLM的文本嵌入空间；减少对预训练模型的大规模微调，实现参数高效迁移；支持多模态输入的统一处理，提升模型在跨模态任务上的泛化能力

Q99: 在多模态系统中，引入 Adapter 的主要作用是什么？

【核心解析】 对齐不同模态的特征空间；减少全模型微调的计算成本；保留预训练知识的同时适配新模态；模块化设计便于扩展；提升训练效率

Q100: 图像embedding是如何输入给大语言模型的？

【核心解析】 通常使用视觉编码器（如ViT）将图像转换为固定维度的特征向量；通过线性投影或Q-Former等结构将视觉特征映射到LLM的输入空间；视觉token与文本token拼接后送入LLM；训练时可能冻结LLM只训练投影层，或进行多模态联合微调。

Multimodal_VLM 面试专题手册 ​

Q1: 在你的流程中，VLM是在检索阶段参与，还是只在最后生成答案时参与？ ​

Q2: 多模态大模型的不同输入如何进行编码和对齐？ ​

Q3: 在多模态融合项目中，你是如何实现cross-attention和动态门控机制的？ ​

Q4: DiT 的框架流程是怎样的？如何实现时间注入？讲一讲 AdaLN。 ​

Q5: 讲一下 Flow Matching 的原理和优势。 ​

Q6: 为什么现在大家都用 RMSNorm 而不是 LayerNorm？ ​

Q7: 如果有一个数字人模型，想训练成只生成一个人的，可以怎么做？ ​

Q8: 你看过什么 SOTA 模型的 ref image 注入方式？有什么优劣？ ​

Q9: 直播怎么用的实时多模态特征，有哪些 ​

Q10: 原生多模态和非原生多模态的区别是什么 ​

Q11: 多模态特征（图文）是如何融合的？ ​

Q12: 论文里的多模态，用的是哪几个模态？现有的多模态大模型，你了解多少？ ​

Q13: OCR环节是否会出现过拟合，有什么表现 ​

Q14: 是否有微调过多模态大模型？请介绍相关经验。 ​

Q15: 算法题涉及多模态和CLIP等模型，请阐述多模态模型的基本原理及CLIP的核心思想。 ​

Q16: 多模态大模型的主流架构有哪些？ ​

Q17: 请介绍Qwen-VL系列模型的特点。 ​

Q18: 在Agent不断对Context进行修正的过程中，特别是涉及图像时，如何保证图片的一致性？ ​

Q19: 多模态和文本在向量嵌入的时候存在什么区别？ ​

Q20: 有做过VLM（视觉语言模型）相关的工作吗？ ​

Q21: Transformer为什么适用于多模态任务？ ​

Q22: 请介绍你对多模态模型/VLM路线的理解。 ​

Q23: 你对OCR模型有哪些了解？请介绍其原理、常见架构及应用场景。 ​

Q24: 你对VLM这条线还有哪些了解？相比于LLaVA，Qwen-VL有哪些不一样的地方？ ​

Q25: 多模态模型的大致结构是什么？ ​

Q26: 多模态模型的大致结构是什么？ ​

Q27: 对业内常见的多模态语义编码技术有了解吗 ​

Q28: 为什么CLIP中的ViT必须将输入图像resize到固定尺寸？ ​

Q29: 介绍一下Q-former这个多模态系统 ​

Q30: 看过 real time chunking（RTC）吗？ ​

Q31: 商汤实习多模态大模型二面：拷打实习项目 ​

Q32: 多模态表征学习中，跨模态对齐的难点是什么？如何保证不同模态特征的语义一致性？ ​

Q33: 讲讲 CLIP，损失函数是什么？ ​

Q34: 如果采用余弦相似度强行使得图文对匹配能不能行？ ​

Q35: DiT 和 U-Net 相比，为什么在某些生成任务上更有优势？ ​

Q36: 你了解多模态模型吗？在Agent场景中有哪些应用？ ​

Q37: 请介绍ViT、CLIP、BERT等模型，并解释文本生成任务中为什么通常采用decoder-only架构？ ​

Q38: Qwen3-VL有哪些改进？目前多模态大模型的一般架构是怎样的？ ​

Q39: CLIP了解吗？ ​

Q40: 除了Qwen2-VL，还使用过哪些多模态大模型？ ​

Q41: 项目的图像识别如何实现的，为什么不用多模态大模型，而选择传统的识别模型？ ​

Q42: 设计一个用于车内驾驶员状态识别的多模态模型，传感器包括摄像头和力传感器，你会如何设计这个pipeline？ ​

Q43: 原生多模态是指什么？可以讲一下你对原生多模态的理解吗？ ​

Q44: CLIP模型的zero-shot能力是如何实现的？ ​

Q45: CLIP在多模态任务中的应用有哪些优势？ ​

Q46: 如果一个材料既有图片又有文字，如何分块？ ​

Q47: 在多模态Embedding时，你如何平衡文本语义和图像视觉特征在计算相似度时的权重？ ​

Q48: 主流的多模态大模型有哪些？你用过的多模态大模型有哪些？ ​

Q49: CLIP 模型的 zero-shot 能力是如何实现的？它在多模态任务中的应用有哪些优势？ ​

Q50: CLIP 模型的 zero-shot 能力是如何实现的？它在多模态任务中的应用有哪些优势？ ​

Q51: CLIP模型的zero-shot能力是如何实现的？ ​

Q52: 请介绍阿里通义万相(Wan)的框架结构。 ​

Q53: 你是否了解MM-DiT的框架？请详细说明。 ​

Q54: 在DiT中，时间步t是如何注入的？请讲解AdaLN机制。 ​

Q55: VideoVAE是如何训练的？使用了哪些损失函数？如果重建视频不清晰，可以添加什么损失函数来改善？ ​

Q56: 请介绍Flow Matching的具体做法，并对比其与DDPM的优劣。 ​

Q57: 请讲解Classifier-Free Guidance (CFG) 的原理。 ​

Q58: 你认为训练一个视频基座模型应该包含哪几个流程？哪一步最为关键？ ​

Q59: CLIP模型的zero-shot能力是如何实现的？它在多模态任务中的应用有哪些优势？ ​

Q60: 你对CLIP了解多少？ ​

Q61: Vision Encoder是如何训练的？在多模态训练中是否分阶段训练Encoder？ ​

Q62: 你的论文中SFT是统一训练还是分开训练的？ ​

Q63: CLIP优化：CLIP模型的zero-shot能力是如何实现的？请从模型设计和训练策略角度分析，并提出改进其跨模态检索效果的方案。 ​

Q64: 你都读过哪些关于多模态的技术报告？ ​

Q65: 介绍一下多模态长视频扩展方法，如何在现有模型上改，比如LLaVA。 ​

Q66: 你都读过哪些关于多模态的技术报告？ ​

Q67: 介绍CNN、ResNet、CLIP、BLIP、ViT等模型 ​

Q68: SFT训练Qwen-VL-7B模型占用的显存是多少？ViT和映射层占多少显存？ ​

Q69: 为什么选择做多模态大模型？你是如何转到这个方向的？ ​

Q70: 谈谈你对多模态模型的个人认识，以及未来的发展趋势。 ​

Q71: Qwen-VL有使用了解过吗？ ​

Q72: 如何评估 minimax 大模型算法中多模态模型的输出质量？ ​

Q73: 在CLIP模型中，倒数第二层和倒数第一层分别做了什么？如何对视觉和文本表示进行解纠缠或对齐？ ​

Q74: 如何结合CLIP做多模态融合跟踪？ ​

Q75: CLIP是一个什么样的模型？Language和Image是如何产生关联的？ ​

Q76: 介绍一下你的CVPR论文，为什么利用CLIP可以做到消除背景？ ​

Q77: 在图像分割场景中，如何从海报图中分割出辣椒区域？请对比传统图像处理方法和深度学习方法的优劣，并给出你的方案。 ​

Q78: 请介绍UNet的结构和原理。 ​

Q79: 请解释多头注意力的原理。 ​