大模型算法工程师面试宝典:deepseek全系列模型详解,揭秘RAG中embedding向量维度与切片语义处理!
DeepSeek公司推出了一系列高性能AI模型,涵盖语言理解、代码生成、数学推理、多模态处理等领域。核心模型包括DeepSeek LLM、Coder、Math、Chat、VL等,其中V3版本采用专家混合架构,性能媲美GPT-4o。在RAG应用中,embedding维度因模型而异(如OpenAI可达3072维),建议采用语义切片、句窗检索等策略解决语义不连续问题。此外,该公司还提供从入门到精通的大模
01.deepseek全系列模型介绍
DeepSeek 是一家人工智能公司,成立于 2023 年,致力于开发高性能、低成本的开源大型语言模型(LLM)。其模型系列涵盖通用语言理解、代码生成、数学推理、多模态处理等多个领域,广泛应用于科研、教育、企业开发等场景。以下是 DeepSeek 全系列模型的详细介绍、模型结构亮点:
🧠 DeepSeek 模型系列概览
1. DeepSeek LLM(大语言模型)
-
发布:2023 年 11 月
-
特点:基础模型,具备强大的文本生成、理解和对话能力,适用于聊天机器人、智能客服、文本摘要等应用场景。
2. DeepSeek Coder(代码生成模型)
-
发布:2023 年 10 月
-
特点:专注于代码生成和理解,支持多种编程语言的代码编写、调试和优化,适用于自动化编程、代码审查、编程教育等领域。
3. DeepSeek Math(数学推理模型)
-
发布:2024 年 2 月
-
特点:针对数学推理任务进行优化,适用于数学问题求解、公式推导、数学建模等任务,在数学竞赛基准测试中取得了 51.7% 的成绩,接近 GPT-4 的性能水平。
4. DeepSeek Chat(对话模型)
-
发布:2023 年 11 月
-
特点:专门针对对话任务优化,经过 RLHF(人类反馈强化学习)训练,提高对话的连贯性和可控性,适用于 AI 助手、智能客服、社交聊天等应用场景。
5. DeepSeek-VL(多模态模型)
-
发布:2024 年 3 月
-
特点:多模态 AI 模型,能够处理文本、图像等不同模态的数据,实现跨模态的理解与生成,适用于 AIGC(人工智能生成内容)、数字创意等领域。
6. DeepSeek-V2(专家混合模型)
-
发布:2024 年 5 月
-
特点:专家混合(MoE)语言模型,在每个任务中只激活其总参数的一小部分,从而大大降低了计算成本,同时保持高性能,在 MMLU 等基准测试中取得了优异成绩。
7. DeepSeek-V2.5(融合通用与代码能力的模型)
-
发布:2024 年 9 月
-
特点:在 DeepSeek Chat 的通用对话能力和 DeepSeek Coder 的强大代码处理能力的基础上,进一步对齐了人类偏好,提升了写作任务、指令跟随等能力,适用于更广泛的应用场景。
8. DeepSeek-R1(强化学习优化模型)
-
发布:2025 年 1 月
-
特点:在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,尤其在数学、代码、自然语言推理等任务上。
9. DeepSeek-V3(高性能 MoE 模型)
-
发布:2024 年 12 月
-
特点:高性能的 MoE 模型,拥有 671B 的总参数量和 37B 的激活参数,经过 14.8T token 的预训练,在百科知识、长文本处理、代码生成、数学推理和中文能力等方面表现优秀,超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上与 GPT-4o 和 Claude-3.5-Sonnet 不分伯仲。
10. DeepSeek-V3.1(升级版)
-
发布:2025 年 8 月
-
特点:在 DeepSeek-V3 的基础上,采用了混合推理结构,提升了处理速度和推理能力,增强了智能体的能力。
🧩 模型结构亮点
🔹 DeepSeek-V2 / V2.5 / V3 系列
-
Mixture-of-Experts(MoE)架构:DeepSeek-V2 采用 MoE 架构,在每个任务中只激活其总参数的一小部分,从而大大降低了计算成本,同时保持高性能。
-
Multi-head Latent Attention(MLA):DeepSeek-V2 引入 MLA 技术,通过低秩键值压缩,减少了推理时的键值缓存大小,提高了长上下文处理的效率。
-
FP8 混合精度训练:DeepSeek-V3 使用 FP8 混合精度训练,充分发挥硬件能力,提升训练效率。
-
多平面网络拓扑:DeepSeek-V3 采用多平面网络拓扑,减少集群级别的网络开销,提升训练效率。
🔹 DeepSeek-R1
-
强化学习优化:DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力,尤其在数学、代码、自然语言推理等任务上。
-
思维链生成:DeepSeek-R1 生成一个 token 的同时,能够生成思维链,提升推理能力。
DeepSeek 的模型系列在性能和效率上取得了显著的进展,为开发者和企业提供了多样化的选择。其开源策略和低成本优势,吸引了大量开发者和研究人员的关注。如果您有特定的应用需求,可以根据上述建议选择最适合的模型。
02.rag做embedding时向量的维度是多少?
在 RAG(Retrieval-Augmented Generation)中所使用的 embedding 向量维度并没有一个固定值,而是取决于你所采用的 具体 embedding 模型。以下是一些流行模型的向量维度:
常见 embedding 维度示例
-
OpenAI 系列:
-
-
早期模型 text-embedding-ada-002 的维度是 1536。
-
-
-
新一代模型 text-embedding-3-large 的输出维度是 3072,但支持通过 API 参数缩减输出维度,例如缩减至 256、1024 等。
-
-
常见 sentence-transformers:
-
-
MiniLM:通常是 384 维;
-
-
-
MPNet:常见的是 768 维。
-
影响选维的因素
-
维度越高,通常能更好地表达文本的语义,但检索效率、存储及计算成本也更高。
-
若系统或数据库支持有限(例如某些数据库上限为 1998 维),可以选择输出维度较低的模型或对输出进行降维。
总结一览

xiaobu-embedding-v2的Embedding vector length (dimensionality): 1792
03.RAG中做切片如果切片语义不连续怎么办?
把问题拆开看:语义不连续通常来自两处——切得不对(不在语义边界上断开)和取得不对(检索把“半段意思”取出来了)。对应地,解决方案也分为两层:改进切片与改进检索/拼接。
1) 先把“切”切对:避免在语义上断裂
-
语义切片(Semantic Chunking)
不用固定字数/字符数硬切,而是以句子为最小单位,基于句向量相似度自适应合并,只有在语义相似度降到阈值以下时才断开。这样每块更像一个“完整想法”。像 LlamaIndex 的 SemanticSplitter 就是按句嵌入的相邻相似度找断点;实践与研究均显示能提升检索质量。
-
主题/段落边界算法
经典的 TextTiling 会依据词汇共现模式在子主题边界上分段,适合长文档的“段落级”切片;在现代管线里可用向量替代传统词频相似度,得到更稳的主题块。
-
版面/结构感知切片
对 PDF/HTML/Markdown,优先按标题层级、列表、表格、代码块等结构分块,再做语义合并,避免把标题和其内容拆散;像 Unstructured 的“智能切片”与业界最佳实践都强调在逻辑边界切分而非纯字符窗。
-
层级/父子切片(Parent–Child)
存索引时用小块(子块)建向量,用时先命中子块,再回溯到更大的父块(整段/整节)一起喂给模型,既保留检索精度,又保住上下文。LangChain 的 ParentDocumentRetriever 就是这个套路。
经验提示:Chroma 的评测报告显示,不同切片策略对召回与最终答案质量影响显著,因此要把“如何切”作为可调参去评测,而不是一次性拍板。
2) 再把“取”和“拼”做好:即使块小,也要拿到完整语境
-
Sentence-Window Retrieval(句窗检索)
用很小的句/短句做精确检索,但在构建上下文时把命中的句子左右各扩 N 句拼进来(如 ±2~3 句,或限定到 ~150–300 tokens)。这类“先细取、后扩窗”的方法能显著缓解语义断裂。
-
邻接拼接(Neighbor Join / 同源并块)
对同一文档内相邻且相似的命中块按距离/相似度向两侧“吸附”,直到达到 token 上限或相似度跌破阈值;Parent–Child 本质上也是一种“命中即带父”的并块策略。
-
混合检索 + 重排,保证“取全”再“取准”
仅靠向量有时会漏掉关键字句,先用 BM25(稀疏检索)+ 向量检索做高召回,再用交叉编码器重排(如 BGE/Cohere Rerank)把最相关且上下文连续的片段排前。这是工业界常用的两阶段检索方案。
-
情境化/上下文嵌入(Contextual Retrieval)
在生成向量时把邻近句/标题当作上下文一并编码(或用“情境化嵌入”),能减少“孤立句子”被误取。微软的“Contextual Retrieval”文章提供了工程化做法。
3) 参数与落地建议(可直接照此起步)
1.切片器:语义切片(句级)→ 目标300–500 tokens一块;固定窗仅作为兜底,overlap 仅 10–20%。
2.主题边界:长文档(白皮书、手册)先跑 TextTiling/标题层级,再做语义合并。
3.父子切片:子块 150–300 tokens 建索引;命中后回溯到父块=整段/整小节。
4.句窗拼接:检索单位=句;上下文=命中句 ±2~3 句(或至 150–300 tokens)。
5.检索器:BM25 ∪ 向量 取 top-N(如各取 top-20 并集),再用 Cross-Encoder 重排取前 k。
6.评测:把“切片策略/窗口大小/是否回溯父块/是否重排”当实验因子,用 Recall@k / nDCG / 答案可溯源率做 A/B;Chroma 的评测框架和 RAG 评测指南可作参考。
4) 特殊文档的小技巧
表格/代码/法条:以单元格/函数/条款为原子块,再语义合并,避免跨单元/跨函数切。Unstructured 等工具支持保留这类结构信号。
跨语言或强术语场景:混合检索里提高 BM25 权重,或分语种建索引再路由查询。
5) 一张“排障清单”
-
命中片段读起来像从中间开始/戛然而止?→ 开启 句窗拼接 或 父子回溯。
-
关键词命中差、老漏信息点?→ 上 BM25+向量 的混合检索。
-
文档主题跨度大、段内跳跃?→ 用 TextTiling/标题层级 + 语义切片。
-
调了很久仍不稳?→ 引入 交叉编码器重排(BGE/Cohere),显著提升相关性排序。
一句话总结:先在语义/结构边界上切(语义切片 + 主题边界 + 父子切片),再在检索端用句窗扩展 + 混合检索 + 重排把上下文“缝”回来,并用离线评测把这些开关当超参调优——语义不连续的问题基本就能被压住。
04.AI大模型从0到精通全套学习大礼包
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!
01.从入门到精通的全套视频教程
包含提示词工程、RAG、Agent等技术点
02.AI大模型学习路线图(还有视频解说)
全过程AI大模型学习路线


03.学习电子书籍和技术文档
市面上的大模型书籍确实太多了,这些是我精选出来的

04.大模型面试题目详解


05.这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势,构建起"前沿课程+智能实训+精准就业"的高效培养体系。
课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事!

如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!
应届毕业生:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。
零基础转型:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界。
业务赋能 突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
更多推荐

所有评论(0)