大模型虽然厉害,但并非全能。它主要有三大局限性:知识的局限性、幻觉问题、数据安全问题。

这三大问题,导致通用大模型无法在实际的业务场景中帮助企业和公司解决具体问题。

知识的局限性,指的是模型自身的知识完全源于它的训练数据,而现有的主流大模型的训练都是基于网络公开的数据,对一些实时性的、非公开的数据是无法获取到的,这部分知识也就无从具备。

幻觉问题,所有的AI模型的底层原理都是基于数据概率,其模型输出实际上一系列数值计算,大模型也不例外,所以它有时候会一本正经地胡说八道,尤其是在大模型自身不具备某一方面的知识或不擅长的场景。

而这种幻觉问题的区分是比较困难的,因为它要求使用者具备相应领域的知识。

数据安全性,对于企业来说,数据安全至关重要,没有企业愿意承担数据泄露的风险,将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案,不得不在数据安全和效果方面进行取舍。

那么有什么方法可以帮助解决上述三个问题么?

当然有!它就是RAG技术,全称是:检索增强生成(Retrieval Augmented Generation),它是目前最火热的大模型应用方案之一,被很多企业和机构所使用。

这篇文章就来简单介绍一下这个技术。

01 RAG架构

RAG架构的本质,是通过检索获取相关的知识并将其融入Prompt,让大模型能够参考相应的知识从而给出合理回答。

简单来说,就是给大模型装一个“外脑”或者“外部数据库”,每次用户提问的时候,先去“外部知识库”里检索相应的文本,然后结合这些文本,通过Prompt一起喂给大模型,再生成答案。

因此,RAG技术也可以分解成“检索+生成”的技术。

检索部分,需要提前搭建好“外部知识库”,确定好检索策略,能够让用户提出的问题检索到相对应的文本片段。

生成部分,需要提前写好Prompt,把上面检索出来的文本片段放进Prompt里,进行上下文结合以及信息重排,给到大模型进行生成。

从零到一搭建完整的RAG架构,往往需要两个阶段:数据准备阶段,检索应用阶段。

02 RAG的数据准备阶段

在这个阶段的主要目标,是帮助大模型建立好一个“外脑”,具体需要以下四个步骤:数据提取、文本分割、向量化、数据入库。

第一步,数据提取,它是指确定好“外部数据库”所要包含的内容,比如对于一个企业来说,有销售数据、人力数据、行政数据、产品数据、合同数据等等。

公司的每个部门都有大量的历史数据,在数据提取部分,就是把这些数据给统一起来,比如那些PDF、Word、PPT、Excel、Txt等各种格式的数据,要进行统一处理,这个过程也可以分为三小步。

首先,数据加载。先找到多格式的数据源,然后根据数据自身情况,将数据处理为同一范式。

其次,数据处理。包含了数据的过滤、压缩以及格式化等,目的是为了让其更好地存入数据库中。

最后,元数据获取。它是指提取数据中的关键信息,比如文件名、Title、以及时间等信息。

第二步,文本分割。这一阶段非常重要,主要需要考虑两个因素,一个是embeddding模型的token限制情况,另一个是语义完整性对整体的检索效果的影响。

一些常见的文本分割方式主要包含两种,一种是按照句子分割,也就是依照“句”为颗粒度进行切分,保留一个句子的完整语义。常见的切分符包括:句号、问号、感叹号、换行符等。

在具体分割过程中,需要根据分割的实际情况,对分割策略进行迭代优化,它也可以叫做切片。有时候切的多,有时候切的少,都会影响最后的检索效果,所以需要不断去尝试,针对不同文本内容,采用不同切片策略。

第三步,向量化(embedding)。它是一个将文本数据转化为向量矩阵的过程,该过程会直接影响到后续的检索过程。一般会使用常见的embedding模型来完成这个动作、

这些embedding模型能够满足基本的大多数需求,但对于特殊场景或者想要进一步优化效果,则可以选择开源的embedding 模型微调或者训练成适合自身场景的embedding 模型。

第四步,数据入库。它是指数据向量化之后,构建索引并写入数据库的过程。一般适用于RAG场景的数据库包括:FAISS、Chromaadb、ES、milvus等。

这些数据库的选择,一般根据业务场景、硬件、性能需求等多因素考虑,选择最合适的数据库类型。

03 检索应用阶段

在应用阶段,可以根据用户的提问,通过高效的检索方法,召回与提问最相关的知识,并融入Prompt。大模型参考当前提问和相关知识,进而生成相应的答案。

这个阶段的关键环节包含两个:数据检索、Prompt注入。

第一步:数据检索。在这里需要用到一些数据检索方法,比如常见的:相似性检索、全文检索、混合检索等;根据检索效果,一般可以选择多种检索方式融合,提升召回率。

相似性检索,指的是计算查询向量与所有存储向量的相似性得分,返回得分高的记录。常见的相似性计算方法包括:余弦相似性、欧式距离、曼哈顿距离等。

全文检索,它是一种比较经典的检索方式,在数据存入时,通过关键词构建倒排索引;在检索时,通过关键词进行全文索引,找到对应的记录。

第二步:注入Prompt。Prompt作为大模型的直接输入,是影响模型输出准确率的关键因素之一。在RAG场景中,Prompt一般包括:任务描述、背景知识(检索得到)、任务指令(一般用户提问)等。

根据任务场景和大模型性能,也可以在Prompt中适当加入其它指令优化大模型的输出。比如下面是一个简单的知识场景Prompt示例:

❤️

【任务描述】

假如你是一个专业的客服机器人,请参考【背景知识】,回答【问题】

【背景知识】

{数据检索得到的相关文本内容}

【问题】

石头扫地机器人P10的续航时间是多久?

Prompt的设计只有方法,并没有语法,比较依赖于个人经验,在实际应用过程中,往往需要根据大模型的实际输出,进行针对性的Prompt调优。

尾声:

这就是RAG架构的简单介绍,它通过给大模型打造一个灵活的“外脑”,或者外部知识库,来减少自身局限性所带来的影响。

大模型的知识有局限性,那就给它加个新的知识库;大模型容易出现幻觉,那就告诉它如何在指定的范围内回答;大模型会有数据安全问题,那就把重要的知识,存在私域知识库中作为大模型的“外脑”。

这就是RAG能够成为大模型应用方案的最大原因,它通过两大阶段六个步骤,接近完美式地让大模型可以服务具体的业务应用场景。

两大阶段是数据准备阶段和应用阶段,六大步骤是:数据提取、文本分割、向量化、数据入库、数据检索、Prompt注入。

当然,RAG技术也在随着时间的发展而不断进化,今天介绍的这个RAG架构只是最基本最简单的技术,除此以外,还有更加复杂和灵活多变的RAG延伸技术,解决更加复杂的业务场景。

总之,虽然大模型有一些天生的bug,但是总会有相对应的解决方案去弥补它。

大模型能够真正改变和彻底影响人类的经济活动和日常生活的日子,已经越来越近了!

让我们一起做好准备,迎接未来!

AI大模型学习福利

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐