【NLP百面百过】大模型算法面试高频面题(全面整理 ʘ‿ʘ)

目录

一、大模型面试指南

重点面题精讲

【LLM面题精讲 - RAG系统面】 查看答案

【LLM面题精讲 - 实体识别面】 查看答案

【LLM面题精讲 - 文本分类面】 查看答案

【LLM面题精讲 - 分布式训练面】 查看答案

【LLM面题精讲 - 大模型微调面】 查看答案

【LLM面题精讲 - 大模型架构面】 查看答案

【LLM面题精讲 - Transformer面】 查看答案

【LLM面题精讲 - LSTM面】 查看答案

【LLM面题精讲 - RNN面】 查看答案

【LLM面题精讲 - Word2Vec面】 查看答案

【LLM面题精讲 - 分词面】 查看答案

高频面题汇总

NLP 基础面 查看答案

BERT 模型面 查看答案

LLMs 微调面 查看答案

二、项目实践

预训练模型

文本分类

LangChain

动手学 RAG

三、算法理论

LLMs篇

BERT篇

Transformer

NLP 基础

四、面经分享

五、大厂AI实践

阿里

百度

腾讯

美团

小米

其他


我在 AI 领域工作多年,长期负责算法团队的招聘和面试,我精心整理了大模型面试中的的一些高频面试题,适合大模型初学者和正在准备面试的小伙伴。

本专栏全面总结了【大模型面试】的高频面题和答案解析,答案尽量保证通俗易懂且有一定深度。旨在帮助AI工程师快速完成面试准备,先人一步顺利拿到心仪 Offer 🎉🎉🎉

一、大模型面试指南

重点面题精讲

【LLM面题精讲 - RAG系统面】 查看答案
  • 用户问题总是召回不准确,在用户理解阶段可以做哪些优化?

  • 文档问答中,如何构建索引,提升对用户问题的泛化能力?

  • 如何合并多路检索的结果,对它们做排序?

  • BM25检索器总是召回无关的知识,最可能的原因是什么?

  • 如何构建重排序模型的微调数据?

  • More ......

【LLM面题精讲 - 实体识别面】 查看答案
  • 实体识别中有哪些难点?

  • 实体识别有哪些常用的解码方式?

  • 如何解决实体嵌套问题?

  • 实体识别的数据是如何进行标注的?

  • 如何解决超长实体识别问题?

  • More ......

【LLM面题精讲 - 文本分类面】 查看答案
  • 如何用检索的方式做文本分类?

  • 如何用Prompt的方式做文本分类?

  • 文本分类任务中有哪些难点?

  • 如何解决样本不均衡的问题?

  • 如果类别会变化如何设计文本分类架构?

  • More ......

【LLM面题精讲 - 分布式训练面】 查看答案
  • PS架构和Ring-AllReduce架构有何不同?

  • 什么是张量并行,如何使用集群计算超大矩阵?

  • ZeRO1、ZeRO2、ZeRO3分别做了哪些优化?

  • 用DeepSpeed进行训练时主要配置哪些参数?

  • More ......

【LLM面题精讲 - 大模型微调面】 查看答案
  • 如果想微调大模型本体参数,有哪些训练技巧?

  • 什么是BitFit微调?

  • 什么是LoRA微调?有哪些可配置的参数?

  • 从零训练一个大模型有哪几个核心步骤?

  • 如何将一个通用大模型训练成行业大模型?

  • 如何准备SFT阶段的训练数据?

  • More ......

【LLM面题精讲 - 大模型架构面】 查看答案
  • LLM架构对Transformer都有哪些优化?

  • 什么是旋转位置编码(RoPE)?

  • RoPE相对正弦位置编码有哪些优势?

  • RoPE如何进行外推?

  • LLM为何使用GQA代替MHA?

  • PreNorm和PostNorm有何不同?

  • 为何使用RMSNorm代替LayerNorm?

  • LLM使用SwiGLU相对于ReLU有什么好处?

  • More ......

【LLM面题精讲 - Transformer面】 查看答案
  • 自注意力层和全连接层有什么区别?

  • 多头注意力相对于单头注意力有什么优势?

  • Transformer中自注意力模块的计算过程?

  • 什么是缩放点积注意力,为什么要除以根号d?

  • BatchNorm和LayerNorm的区别?

  • 解码器为什么要使用Mask?是如何实现的?

  • More ......

【LLM面题精讲 - LSTM面】 查看答案
  • LSTM 如何缓解 RNN 梯度消失的问题?

  • LSTM中记忆单元的作用是什么?

  • LSTM有几个门,分别起什么作用?

  • LSTM的前向计算如何进行加速?

  • LSTM中的tanh和sigmoid分别用在什么地方?为什么?

  • More ......

【LLM面题精讲 - RNN面】 查看答案
  • RNN的输入输出分别是什么?

  • RNN是如何进行参数学习(反向传播)的?

  • 用RNN训练语言模型时如何计算损失?

  • RNN不能很好学习长期依赖的原因是什么?

  • 怎么解决RNN的梯度爆炸问题?

  • More ......

【LLM面题精讲 - Word2Vec面】 查看答案
  • 基于计数的表示方法存在哪些问题?

  • CBOW 和 Skip-gram 哪个模型的词嵌入更好?

  • Word2Vec的词向量存在哪些问题?

  • 为什么说Word2vec的词向量是静态的?

  • Word2Vec如何优化从中间层到输出层的计算?

  • More ......

【LLM面题精讲 - 分词面】 查看答案
  • 如何处理超出词表的单词(OVV)?

  • BPE 分词器是如何训练的?

  • WordPiece 分词器是如何训练的?

  • Unigram 分词器是如何训练的?

  • More ......

高频面题汇总

NLP 基础面 查看答案
  • 【NLP 面试宝典 之 模型分类】 必须要会的高频面题

  • 【NLP 面试宝典 之 神经网络】 必须要会的高频面题

  • 【NLP 面试宝典 之 主动学习】 必须要会的高频面题

  • 【NLP 面试宝典 之 超参数优化】 必须要会的高频面题

  • 【NLP 面试宝典 之 正则化】 必须要会的高频面题

  • 【NLP 面试宝典 之 过拟合】 必须要会的高频面题

  • 【NLP 面试宝典 之 Dropout】 必须要会的高频面题

  • 【NLP 面试宝典 之 早停法】 必须要会的高频面题

  • 【NLP 面试宝典 之 标签平滑】 必须要会的高频面题

  • 【NLP 面试宝典 之 Warm up 】 必须要会的高频面题

  • 【NLP 面试宝典 之 置信学习】 必须要会的高频面题

  • 【NLP 面试宝典 之 伪标签】 必须要会的高频面题

  • 【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题

  • 【NLP 面试宝典 之 交叉验证】 必须要会的高频面题

  • More ......

BERT 模型面 查看答案
  • 【NLP 面试宝典 之 BERT模型】 必须要会的高频面题

  • 【NLP 面试宝典 之 BERT变体】 必须要会的高频面题

  • 【NLP 面试宝典 之 BERT应用】 必须要会的高频面题

  • More ......

LLMs 微调面 查看答案
  • 【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题

  • 【NLP 面试宝典 之 Prompt】 必须要会的高频面题

  • 【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题

  • 【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题

  • More ......

二、项目实践

预训练模型
  • 【预训练模型实战(一)】文本分类任务

  • 【预训练模型实战(二)】序列标注任务

  • 【预训练模型实战(三)】文本摘要任务

  • 【预训练模型实战(四)】阅读理解任务

文本分类
  • 【文本分类 理论(一)】如何使用DL做文本分类任务?

  • 【文本分类 理论(二)】多标签分类和长文本分类如何做

  • 【文本分类 理论(三)】层次化多标签文本分类如何做?

  • 【文本分类 实战(一)】使用LSTM完成情感分析任务

  • 【文本分类 实战(二)】基于检索的多层次文本分类

  • 【文本分类 实战(三)】基于 Prompt 的小样本文本分类实践

LangChain
  • 【LangChain 实战(一)】LangChain 初见

  • 【LangChain 实战(二)】PDF 文档问答

  • 【LangChain 实战(三)】源码简读

  • More ......

动手学 RAG
  • 【RAG 项目实战 01】在 LangChain 中集成 Chainlit

  • 【RAG 项目实战 02】Chainlit 持久化对话历史

  • 【RAG 项目实战 03】优雅的管理环境变量

  • 【RAG 项目实战 04】添加多轮对话能力

  • More ......

三、算法理论

LLMs篇

  • 【分布式训练 学习笔记(一)】 流水线并行

  • 【分布式训练 学习笔记(二)】 DP和DDP

  • 【分布式训练 学习笔记(三)】 零冗余优化(ZeRO)

  • 【分布式训练 学习笔记(四)】 张量并行(TP)

  • 【分布式训练 学习笔记(五)】 Megatron 源码解读(上)

  • 【分布式训练 学习笔记(六)】 Megatron 源码解读(下)

  • 【PEFT 学习笔记(一)】PEFT技术综述

  • 【PEFT 学习笔记(二)】技术原理 - BitFit、Prefix Tuning、Prompt Tuning

  • 【PEFT 学习笔记(三)】技术原理 - P-Tuning、P-Tuning v2

  • 【PEFT 学习笔记(四)】技术原理 - Adapter Tuning及其变体

  • 【LoRA 学习笔记(一)】LoRA 原理篇

  • 【LoRA 学习笔记(二)】LoRA 源码篇

BERT篇

  • 【BERT 学习笔记(一)】论文精读

  • 【BERT 学习笔记(二)】源码解析 - 运行示例

  • 【BERT 学习笔记(三)】源码解析 - 模型架构

  • 【BERT 学习笔记(四)】源码解析 - 预训练

  • 【BERT 学习笔记(五)】源码解析 - 模型微调

  • More ......

Transformer

  • 【Transformer 学习笔记(一)】论文精读

  • 【Transformer 学习笔记(二)】核心机制 - 位置编码

  • 【Transformer 学习笔记(三)】核心机制 - 自注意力机制

  • 【Transformer 学习笔记(四)】核心机制 - 层归一化

  • More ......

NLP 基础

  • 【NLP 入门(一)】:自然语言处理概述

  • 【NLP 入门(二)】:中文分词概述

  • 【NLP 入门(三)】:词向量化概述

  • 【NLP 入门(四)】:Seq2Seq 模型概述

  • 【NLP 入门(五)】:Transformer 概述

四、面经分享

  • 双非研究生斩获大厂offer(百度、阿里、顺丰)

  • 六面!双非本科终斩腾讯NLP offer

  • 超详细!腾讯NLP算法岗面经(已offer)

  • 秋招算法面经集合 -- 华为、百度、腾讯、美团等

  • 算法岗通关宝典 -- 社招一年经验,字节5轮、阿里7轮

  • NLP面经集结 -- 达摩院、腾讯、微软、美团、百度

  • NLP面试复盘 -- 阿里、腾讯、头条、paypal、快手

  • More ......

五、大厂AI实践

阿里

  • 阿里小蜜智能服务技术实践及场景探索

  • 阿里云基于预训练模型、智能运维的QA生成算法落地

  • 情感计算在淘宝UGC的应用

  • AliceMind大规模预训练实践及AIGC在ModelScope中的应用

  • More ......

百度

  • 百度:大模型推动的人机交互对话

  • 百度:基于异构互联知识图谱的多模内容创作技术

  • 百度:如何从零样本做中文文本知识标注与挖掘?

  • 百度:文档智能技术与应用

  • 百度:文心开放域对话技术及其应用

  • More ......

腾讯

  • 腾讯:可控、可靠的数据到文本生成技术

  • 腾讯:微信搜一搜中的智能问答技术

  • 腾讯:QQ浏览器搜索中的智能问答技术

  • 腾讯:QQ音乐命名实体识别技术

  • More ......

美团

  • 美团:对话理解技术及实践

  • 美团:大众点评信息流基于文本生成的创意优化实践

  • 美团:对话摘要技术在美团的探索(SIGIR)

  • 美团:基于知识图谱的问答在美团智能交互场景中的应用和演进

  • 美团:美团搜索中查询改写技术实践

  • 美团:美团智能客服核心技术与实践

  • 美团:事件图谱在美团智能客服问答中的应用

  • 美团:小样本学习+自训练实战

  • More ......

小米

  • 小米:音乐垂域的自然语言理解

  • 小米:NLP技术在小米语音助手中的应用

  • More ......

其他

  • 飞猪:POI 识别在飞猪搜索的探索与实践

  • 京东:基于知识图谱的商品营销文案自动生成实践

  • 微软:基于预训练的自然语言生成在搜索与广告中的应用

  • More ......

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/964207.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[EAI-023] FAST,机器人动作专用的Tokenizer,提高VLA模型的能力和训练效率

Paper Card 论文标题:FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者:Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接&…

介绍一下Mybatis的底层原理(包括一二级缓存)

表面上我们的就是Sql语句和我们的java对象进行映射,然后Mapper代理然后调用方法来操作数据库 底层的话我们就涉及到Sqlsession和Configuration 首先说一下SqlSession, 它可以被视为与数据库交互的一个会话,用于执行 SQL 语句(Ex…

wx050基于django+vue+uniapp的傣族节日及民间故事推广小程序

开发语言:Python框架:djangouniappPython版本:python3.7.7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:PyCharm 系统展示 后台登录界面 管理员主界面 用户管理 …

hot100(6)

51.22.括号生成 字符串回溯的典型问题 char[] path;List<String> res;int n;public List<String> generateParenthesis(int n) {this.n n;path new char[2*n];res new ArrayList<>();dfs(0,0,0);return res;}public void dfs(int index,int left, int r…

【游戏设计原理】98 - 时间膨胀

从上文中&#xff0c;我们可以得到以下几个启示&#xff1a; 游戏设计的核心目标是让玩家感到“时间飞逝” 游戏的成功与否&#xff0c;往往取决于玩家的沉浸感。如果玩家能够完全投入游戏并感受到时间飞逝&#xff0c;说明游戏设计在玩法、挑战、叙事等方面达到了吸引人的平衡…

RocketMQ面试题:进阶部分

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…

Deepseek-R1 和 OpenAI o1 这样的推理模型普遍存在“思考不足”的问题

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

结构性多余到结构性消失的现象和案例

在碎片化的现象和案例中提取关联性的信息。 也就是废墟之上如何重生的问题。 碎片化无处不在&#xff0c;普通人无人可以幸免。 当AI能力越来越强大&#xff0c;如下这些都在变为现实。 生产力 98%的人是过剩劳动力 人在大规模地被废弃 当人是生产力主体的时候&#xff0c;如…

(脚本学习)BUU18 [CISCN2019 华北赛区 Day2 Web1]Hack World1

自用 题目 考虑是不是布尔盲注&#xff0c;如何测试&#xff1a;用"1^1^11 1^0^10&#xff0c;就像是真真真等于真&#xff0c;真假真等于假"这个测试 SQL布尔盲注脚本1 import requestsurl "http://8e4a9bf2-c055-4680-91fd-5b969ebc209e.node5.buuoj.cn…

【C++】P1957 口算练习题

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;题目描述输入格式&#xff1a;输出格式&#xff1a; &#x1f4af;我的做法代码实现&#xff1a; &#x1f4af;老师的做法代码实现&#xff1a; &#x1f4af;对比分析&am…

【Linux系统】信号:再谈OS与内核区、信号捕捉、重入函数与 volatile

再谈操作系统与内核区 1、浅谈虚拟机和操作系统映射于地址空间的作用 我们调用任何函数&#xff08;无论是库函数还是系统调用&#xff09;&#xff0c;都是在各自进程的地址空间中执行的。无论操作系统如何切换进程&#xff0c;它都能确保访问同一个操作系统实例。换句话说&am…

LabVIEW双光子成像系统:自主创新,精准成像,赋能科研

双光子成像系统&#xff1a;自主创新&#xff0c;精准成像&#xff0c;赋能科研 第一部分&#xff1a;概述 双光子成像利用两个低能量光子同时激发荧光分子&#xff0c;具有深层穿透、高分辨率、低光损伤等优势。它能实现活体深层组织的成像&#xff0c;支持实时动态观察&…

「全网最细 + 实战源码案例」设计模式——策略模式

核心思想 享元模式&#xff08;Flyweight Pattern&#xff09;是一种行为型设计模式&#xff0c;用于定义一系列算法或策略&#xff0c;将它们封装成独立的类&#xff0c;并使它们可以相互替换&#xff0c;而不影响客户端的代码&#xff0c;提高代码的可维护性和扩展性。 结构…

安全策略实验

安全策略实验 1.拓扑图 2.需求分析 需求&#xff1a; 1.VLAN 2属于办公区&#xff0c;VLAN 3属于生产区 2.办公区PC在工作日时间&#xff08;周一至周五&#xff0c;早8到晚6&#xff09;可以正常访问OA server其他时间不允许 3.办公区PC可以在任意时刻访问Web Server 4.生产…

一文了解边缘计算

什么是边缘计算&#xff1f; 我们可以通过一个最简单的例子来理解它&#xff0c;它就像一个司令员&#xff0c;身在离炮火最近的前线&#xff0c;汇集现场所有的实时信息&#xff0c;经过分析并做出决策&#xff0c;及时果断而不拖延。 1.什么是边缘计算&#xff1f; 边缘计算…

对象的实例化、内存布局与访问定位

一、创建对象的方式 二、创建对象的步骤: 一、判断对象对应的类是否加载、链接、初始化: 虚拟机遇到一条new指令&#xff0c;首先去检查这个指令的参数能否在Metaspace的常量池中定位到一个类的符号引用&#xff0c;并且检查这个符号引用代表的类是否已经被加载、解析和初始化…

Altium Designer绘制原理图时画斜线的方法

第一步&#xff1a;检查设置是否正确 打开preferences->PCB Editor ->Interactive Routing->Interactive Routing Options->Restrict TO 90/45去掉勾选项&#xff0c;点击OK即可。如下图所示&#xff1a; 然后在划线时&#xff0c;按下shift空格就能够切换划线…

【R语言】环境空间

一、环境空间的特点 环境空间是一种特殊类型的变量&#xff0c;它可以像其它变量一样被分配和操作&#xff0c;还可以以参数的形式传递给函数。 R语言中环境空间具有如下3个特点&#xff1a; 1、对象名称唯一性 此特点指的是在不同的环境空间中可以有同名的变量出现&#x…

NeuralCF 模型:神经网络协同过滤模型

实验和完整代码 完整代码实现和jupyter运行&#xff1a;https://github.com/Myolive-Lin/RecSys--deep-learning-recommendation-system/tree/main 引言 NeuralCF 模型由新加坡国立大学研究人员于 2017 年提出&#xff0c;其核心思想在于将传统协同过滤方法与深度学习技术相结…

【ChatGPT:开启人工智能新纪元】

一、ChatGPT 是什么 最近,ChatGPT 可是火得一塌糊涂,不管是在科技圈、媒体界,还是咱们普通人的日常聊天里,都能听到它的大名。好多人都在讨论,这 ChatGPT 到底是个啥 “神器”,能让大家这么着迷?今天咱就好好唠唠。 ChatGPT,全称是 Chat Generative Pre-trained Trans…