
DeepSeek扫盲1:不要混淆大模型与应用,谈一谈RAG应用框架
了解了RAG,我们就清楚了LLM应用的结果是否靠谱,不只取决于LLM本身,还跟RAG的向量数据库和检索有关,并且不同LLM对于提示词的处理也会有所区别。就拿DeepSeek来说,现在很多平台争相接入,但各平台的性能和产出质量有很大差别,就是因为硬件和RAG上的差别。读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用如果你是零基础小白,想快速入门大模型是可以考虑的。一方面是学习时间相对
DeepSeek扫盲1:不要混淆大模型与应用,谈一谈RAG应用框架
看到网上有人说DeepSeek没吹的那么神,用起来还不如豆包、Kimi之类,这其实是混淆了大语言模型与应用。由于DeepSeek的网站和APP也叫同名,所以更容易混淆。大语言模型要放在应用框架内,才能正常运行,通常用的是RAG框架,还会涉及到向量数据库,本文就来讲解一下这些基础概念。
先了解大语言模型与应用的区别
大语言模型(Large Language Model,英文缩写为LLM,以下均用缩写)本身是不能直接工作的,可以将它理解成核心处理模块,为了让它工作,还需要给它安上一些组件:
- 人机对话界面:用于输入查询和输出结果
- 资料检索(可选):输入查询后,有可能先去检索资料库,再交给LLM处理
- 结果记忆(可选):结合之前的输出结果,对新问题进行处理,分成短期记忆和长期记忆
LLM的组件
当然也可以省去后两者,将查询(query)直接交给LLM处理。我们输入的查询包括问题或指令,都是自然语言的形式,可以是大白话,但为了让LLM更好地运行,这就需要在提示词(prompt)上做文章。可以人工进行转化,也可以借助专门的工具。
安上组件后,才算是围绕着LLM建立起应用,LLM才能正常工作。
LLM应用框架
稍微展开说一下资料库。首先,LLM在生成时采用的数据有时间节点,比如截止到2024年12月31日,因此在这之后的数据就没有了。其次,LLM一般都是通用大模型,缺少专项的资料。基于这两点,就需要准备检索资料库,与LLM搭配使用。
LLM应用框架
见上图,应用框架分成左右两部分,左边是查询及生成,右边是资料库准备(数据获取)。在搭建好应用框架后,就要开始建资料库,将txt、pdf、doc等格式的资料存储到数据库中,就做好了数据库准备。实际应用时,检索路由会根据输入的提示词进行判断,如果需要的话就会接入资料库,要么从数据库中检索数据,要么从网上检索数据,再将结果输入LLM,运行后得到结果。
现在可以了解RAG技术了
有了上面的简化说明,接下来就可以了解RAG技术了。RAG的全称是Retrieval-Augmented Generation,意思是增强的检索生成。RAG有什么用呢?简单说就是用来优化LLM的提示词,以便LLM输出的结果更高效、更精准。
RAG应用
RAG可不只是简单地对输入的问题(或指令)进行处理,而是靠三个利器:
- 嵌入模型(Embedding Model):进行资料与向量的相互转换
- 向量数据库(Vector Database):向量格式的数据库
- 检索路由:判断是直接将提示词发给LLM,还是转入嵌入模型或连线网络
LLM所使用的资料库是一个向量数据库,它的配套工具是嵌入模型。我们日常使用的文本、图像等文档属于高维数据,很难直接进行检索,为了便于检索,就要将他们转换成低维度的向量数据,这个过程称为嵌入(embedding),就是通过嵌入模型进行的转换。
向量数据库
向量数据嵌入不是实时的,而是要提前生成向量数据库,将txt、doc、pdf等格式的文档传入,通过嵌入模型转换成向量数据,再存储到向量数据库并形成索引,这就是我们所说的本底资料库。应用的时候,我们输入的查询经过嵌入模型转换成向量数据,然后到向量数据库中进行检索,找到查询向量和相关向量,形成上下文(context)。再将上下文结合提示词输入给LLM,运行后就得到了最终结果。
最后
了解了RAG,我们就清楚了LLM应用的结果是否靠谱,不只取决于LLM本身,还跟RAG的向量数据库和检索有关,并且不同LLM对于提示词的处理也会有所区别。就拿DeepSeek来说,现在很多平台争相接入,但各平台的性能和产出质量有很大差别,就是因为硬件和RAG上的差别。
读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费
】🆓
更多推荐
所有评论(0)