Skip to content

Latest commit

 

History

History
312 lines (226 loc) · 15.3 KB

README.md

File metadata and controls

312 lines (226 loc) · 15.3 KB

自然语言处理(大模型)算法工程师面试题目汇总(知识点总结)

项目简介

此项目创建的初衷是为了帮助人工智能、自然语言处理和大语言模型相关背景的同学找工作使用。项目将汇总并整理各类与自然语言处理(NLP)和大模型相关的面试题目(八股、知识点),包括但不限于以下内容:

  • 机器学习基础
  • 深度学习基础
  • 自然语言处理基础
  • Transformer、Bert、GPT系列模型
  • 大模型架构与大模型预训练
  • 大模型微调
  • 大模型训练与推理加速
  • 检索增强生成
  • 大模型评测
  • 大模型agent
  • pytorch基础
  • 其他问题

欢迎大家加入项目的建设和维护,共同完善和丰富题库内容。 目前主要针对文本模态,也欢迎多模态方向的同学加入。 答案来源于外部链接,如有侵权请联系删除,如有链接不可用请及时指出。

除八股外,也需要对自己的项目或研究方向深入准备,此不在本文档的讨论范围内。

目录

  1. 机器学习基础
  2. 深度学习基础
  3. 自然语言处理基础
  4. Transformer、Bert、GPT系列模型
  5. 大模型架构与大模型预训练
  6. 大模型微调
  7. 大模型训练与推理加速
  8. 大模型幻觉
  9. 大模型评测
  10. 大模型应用与大模型agent
  11. 其他问题
  12. pytorch基础
  13. 贡献指南

机器学习基础

机器学习基础知识

  1. 梯度裁剪目的、原理、示例代码
  2. 样本不均衡问题的解决
  3. 机器学习正则化
  4. 如何解决测试集和训练集分布差异问题
  5. 机器学习的分类(有监督无监督)
  6. 逻辑回归损失函数为什么用交叉熵不用MSE?
  7. 小样本学习
  8. 交叉熵损失的推导方式
  9. 集成学习
  10. 拒绝采样
  11. 查全率、查准率等指标的区别

深度学习基础

模型训练

  1. 模型显存占用分析
  2. weight_decay
  3. mse损失函数和cross entropy的区别
  4. 输入token太长了怎么办
  5. 怎么从0搭建一个深度学习模型
  6. 模型并行训练
  7. 大模型训练显存不够一般怎么解决
  8. gpu对深度学习的作用
  9. 学习率 warmup
  10. 数据清洗策略
  11. DP和DDP的区别
  12. 不同优化器的区别

模型推理

  1. 模型推理占用的显存
  2. DataParallel多卡推理

模型结构、损失函数

  1. 残差网络
  2. L1 loss和L2 loss的区别

自然语言处理基础

  1. Tokenizer详解Tokenizer-huggingface实战
  2. TF_IDF
  3. Bi-LSTM
  4. RMSNorm
  5. 独热编码和embedding的区别
  6. word2vec
  7. CNN处理文本
  8. bpe分词
  9. 不同的采样方法

Transformer、Bert、GPT系列模型

Transformer

  1. 一文读懂Transformer
  2. Transformer位置编码
  3. BatchNorm、LayerNorm以及GroupNorm
  4. transformers库的基本使用方式
  5. safetensor

Bert

  1. BERT详解:概念、原理与应用

GPT

  1. GPT-1
  2. GPT-2
  3. GPT-3、3.5、4

T5

  1. T5模型详解

模型比较

  1. GPT和BERT的区别
  2. 为什么现在的LLM大多都是decoder-only的架构?
  3. 不同位置编码的分析

大模型架构与大模型预训练

大模型预训练

  1. NLP分词算法(总结篇)
  2. 如何缓解LLM复读机问题?
  3. 对强化学习在LLM中的理解
  4. 大模型量化
  5. 大模型分布式训练
  6. 如何获得高质量的训练数据
  7. 大语言模型模型对齐的方法
  8. flash attention
  9. group query attention
  10. page attention
  11. 模型训练速度受哪些方面影响
  12. 偏好对齐的理解,有哪些方式
  13. 什么是scale law
  14. 大模型训练过程学习率一般如何变化的
  15. 预训练退火

ChatGPT

  1. 大语言模型的预训练RLHF

llama

  1. llama 3.1结构详解
  2. llama2
  3. llama

ChatGLM

  1. chatGLM
  2. chatGLM2
  3. chatGLM3

其他大模型(参考官网资料)

  1. 百川
  2. 千问
  3. 羊驼

长文本大模型技术

  1. 提示压缩技术
  2. 长文本技术策略
  3. long lora

其他大模型相关知识

  1. 大模型的温度系数
  2. 大模型上下文窗口
  3. 如何处理更长的文本
  4. prefix decoder和causal decoder的区别
  5. 大模型涌现能力
  6. 大模型若干参数的解析
  7. 大模型的性能和哪些因素有关
  8. 稀疏注意力机制
  9. 大模型提示学习
  10. 模型压缩与模型蒸馏

大模型微调

传统微调方法

  1. 全参数微调的显存占用
  2. 多轮对话任务如何微调

参数高效的微调方法

  1. lora微调的原理
  2. p-tuning微调的原理
  3. 不同微调方法的总结
  4. lora训练项目--IEPile:大规模信息抽取语料库
  5. peft库详解
  6. Qlora
  7. adapter
  8. 微调方法总结

SFT

  1. 什么是SFT?
  2. sft指令微调的数据如何构建
  3. 灾难性遗忘-增量预训练方法

微调数据集

  1. 微调需要多少条数据
  2. 大模型常用的微调数据集

强化学习

  1. DPO算法
  2. PPO算法
  3. dpo训完了一般输出长度会变化吗?如何解决这个问题

大模型训练与推理加速

  1. 混合专家系统MOE

大模型加速库

  1. 介绍一下deepspeed的三个zero的区别
  2. deepspeed的加速原理
  3. 介绍一下vllm
  4. deepspeed库的基本使用方式

cuda相关知识

  1. SM,SP,warp 等相关概念和关系
  2. cuda加速原理
  3. hopper架构

大模型训练加速

  1. 大模型训练并行策略
  2. 混合精度训练
  3. 量化技术
  4. 对于数据并行的理解

大模型推理加速

  1. k-v cache
  2. 大语言模型LLM基础:推理/不同模型/量化对显存、推理速度和性能的影响

大模型幻觉

大模型安全

  1. 大模型安全包含哪些方面的内容
  2. 有什么防护措施

大模型幻觉问题

  1. 大模型幻觉产生原因和解决方案

检索增强生成

  1. 检索增强生成算法介绍
  2. 有哪些检索方式
  3. RAG怎么提高召回率的?
  4. 文本向量模型BGE

大模型评测

大模型评测基准

  1. 常见的大模型评测基准
  2. 如何评测大模型
  3. 如何评估大模型指令跟随能力

大模型应用与大模型agent

大模型应用

  1. langchain中文文档
  2. huggingface TGI
  3. 大模型和推荐有什么结合方式?

其他问题

git版本控制

  1. git merge和git rebase的区别?
  2. git 冲突如何解决

其他计算机知识

  1. 流水线并行训练
  2. minhash原理
  3. all reduce
  4. 容灾

python基础

  1. python的迭代器和生成器的区别
  2. 装饰器
  3. *args、**kwargs的使用

pytorch基础

  • 注:可能会在面试过程中考察手撕代码,包括但不限于基本训练代码(MLP+梯度更新)、normalization、经典模型的forward、损失函数
  1. torchrun命令的使用

贡献指南

欢迎大家通过提交Issue或Pull Request来贡献题目和答案。在贡献之前,请确保您遵循以下指南:

  1. 确保提交的题目和答案清晰明了,并且经过验证。
  2. 在提交Pull Request之前,请检查是否有重复的题目。
  3. 请遵循Markdown格式,并保持项目的一致性。