DeepSeek扫盲1:不要混淆大模型与应用,谈一谈RAG应用框架

在这里插入图片描述

看到网上有人说DeepSeek没吹的那么神,用起来还不如豆包、Kimi之类,这其实是混淆了大语言模型与应用。由于DeepSeek的网站和APP也叫同名,所以更容易混淆。大语言模型要放在应用框架内,才能正常运行,通常用的是RAG框架,还会涉及到向量数据库,本文就来讲解一下这些基础概念。

先了解大语言模型与应用的区别

大语言模型(Large Language Model,英文缩写为LLM,以下均用缩写)本身是不能直接工作的,可以将它理解成核心处理模块,为了让它工作,还需要给它安上一些组件:

  • 人机对话界面:用于输入查询和输出结果
  • 资料检索(可选):输入查询后,有可能先去检索资料库,再交给LLM处理
  • 结果记忆(可选):结合之前的输出结果,对新问题进行处理,分成短期记忆和长期记忆

在这里插入图片描述

LLM的组件

当然也可以省去后两者,将查询(query)直接交给LLM处理。我们输入的查询包括问题或指令,都是自然语言的形式,可以是大白话,但为了让LLM更好地运行,这就需要在提示词(prompt)上做文章。可以人工进行转化,也可以借助专门的工具。

安上组件后,才算是围绕着LLM建立起应用,LLM才能正常工作。

LLM应用框架

稍微展开说一下资料库。首先,LLM在生成时采用的数据有时间节点,比如截止到2024年12月31日,因此在这之后的数据就没有了。其次,LLM一般都是通用大模型,缺少专项的资料。基于这两点,就需要准备检索资料库,与LLM搭配使用。

在这里插入图片描述

LLM应用框架

见上图,应用框架分成左右两部分,左边是查询及生成,右边是资料库准备(数据获取)。在搭建好应用框架后,就要开始建资料库,将txt、pdf、doc等格式的资料存储到数据库中,就做好了数据库准备。实际应用时,检索路由会根据输入的提示词进行判断,如果需要的话就会接入资料库,要么从数据库中检索数据,要么从网上检索数据,再将结果输入LLM,运行后得到结果。

现在可以了解RAG技术了

有了上面的简化说明,接下来就可以了解RAG技术了。RAG的全称是Retrieval-Augmented Generation,意思是增强的检索生成。RAG有什么用呢?简单说就是用来优化LLM的提示词,以便LLM输出的结果更高效、更精准。

在这里插入图片描述

RAG应用

RAG可不只是简单地对输入的问题(或指令)进行处理,而是靠三个利器:

  • 嵌入模型(Embedding Model):进行资料与向量的相互转换
  • 向量数据库(Vector Database):向量格式的数据库
  • 检索路由:判断是直接将提示词发给LLM,还是转入嵌入模型或连线网络

LLM所使用的资料库是一个向量数据库,它的配套工具是嵌入模型。我们日常使用的文本、图像等文档属于高维数据,很难直接进行检索,为了便于检索,就要将他们转换成低维度的向量数据,这个过程称为嵌入(embedding),就是通过嵌入模型进行的转换。

在这里插入图片描述

向量数据库

向量数据嵌入不是实时的,而是要提前生成向量数据库,将txt、doc、pdf等格式的文档传入,通过嵌入模型转换成向量数据,再存储到向量数据库并形成索引,这就是我们所说的本底资料库。应用的时候,我们输入的查询经过嵌入模型转换成向量数据,然后到向量数据库中进行检索,找到查询向量和相关向量,形成上下文(context)。再将上下文结合提示词输入给LLM,运行后就得到了最终结果。

最后

了解了RAG,我们就清楚了LLM应用的结果是否靠谱,不只取决于LLM本身,还跟RAG的向量数据库和检索有关,并且不同LLM对于提示词的处理也会有所区别。就拿DeepSeek来说,现在很多平台争相接入,但各平台的性能和产出质量有很大差别,就是因为硬件和RAG上的差别。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐