在这里插入图片描述

前言

最近几年,大模型和AI毫无疑问是最热的话题和方向。最初的OpenAI作为大语言模型技术的重要推动者,引领了本次技术变革。后期ChatGPT的发布引爆全球,影响力度大到国家战略层面,小到改变了个体的工作模式。而在近两年,为了追赶业界最先进的大模型,国内在大模型行业也在不断突破,这才有了我们比较熟知的腾讯元宝、文心一言、通义千问、豆包等等。当然,最火爆的还得是今年的 DeepSeek ,毫无疑问,DeepSeek的发布再次掀起了AI的浪潮。相信在未来,AI必然会颠覆性地改变甚至替代某些行业。但是同时我也相信AI最终并不会取代人,但是懂AI的人势必更具竞争力。那么,对于大模型,应该如何正确看待大模型?其实你只需要了解一点,没有万能的技术和模型,只有了解大模型的优势和弊端,才能知道如何更好地落地应用。同时也希望未来的我们成为能够驾驭AI的人,让AI可以释放人类更多的时间和精力去做更具有意义的事情。

人工智能技术的发展其实从很早就开始,早在20世纪50年代,香农和图灵先后提出的计算机博弈和图灵测试,让机器产生智能这一想法开始进入人们的视野。只是由于数据、算力、场景落地和投资回报等方面的原因未能形成AI产业的商业闭环,这才使得人工智能的发展看起来仿佛是最近才出现。只是到了近年, 基于大模型通用性、涌现性和强计算能力,大模型时代有可能形成商业闭环,当一个产品或者说一项科技有可能形成商业价值的时候,那么这项科技才会被更多的人熟知。从身边的环境变化来看,无论是资本对AI领域的投入,还是各大厂对大模型相关技术的资源和迭代频率,甚至是大模型岗位的需求和待遇,都可以看出来“全球对大模型赋能AI及其商业化具有很高的期待,在未来会有很多事情都会围绕AI展开”。

就比如我们身边的例子,近日,阿里巴巴CEO吴泳铭主张在阿里现有业务中全面实现“AI化”,2025年的绩效将通过如何利用AI促进增长来评估。淘宝和天猫在内的核心电子商务部门被鼓励采用更多的AI技术。并且吴泳铭还提到“未来三年,阿里巴巴将在AI和云计算基础设施、AI基础模型及应用、AI赋能现有业务三大领域加大投资,推动技术创新和商业增长。” 大模型掀起的AI浪潮是以技术驱动的创新,作为技术从业者我们深有感触,在日常工作中也有随处可见的用到 AI。但是AI在电商领域具体以什么样的产品模式、什么样的服务,能够为哪些方面带来突破性的革新仍是未知数。但是我相信,有大企业的牵头,在AI 领域不断地探索和尝试,沉淀宝贵的落地经验,更有别样化的AI 一定会呈现在我们面前。

既然说到了AI 说到了大模型,那么大模型是什么?

大模型

大模型是什么

大模型是什么?大模型(Large Language Model,LLM)是近年来人工智能领域的重大突破,指的是一种参数规模极大、能力高度通用的深度学习模型。它通过海量数据训练,能够理解、生成和推理人类语言,甚至完成跨领域的复杂任务(比如写代码、画图、分析数据等),用专业话术说就是展现出了类似人类的智能,比如 自然语言处理、计算机视觉、语音识别等能力。

小模型呢

那么既然有大模型,是否也有小模型呢?有的。小模型通常指参数较少、层数较浅的模型,它们具有轻量级、高效率、易于部署等优点,适用于数据量较小、计算资源有限的场景。我们也可以来问问DeepSeek ,感受一下来自科技的力量
在这里插入图片描述
而当模型的训练数据和参数不断扩大,直到达到一定的临界规模后,其表现出了一些未能预测的、更复杂的能力和特性,模型能够从原始训练数据中自动学习并发现新的、更高层次的特征和模式,这种能力被称为“涌现能力”。具备涌现能力的机器学习模型就被认为是独立意义上的大模型,这也是其和小模型最大意义上的区别。那么大模型和小模型有哪些区别呢?

大模型 小模型
定义 参数量相对较多的机器学习模型 参数量相对较少的机器学习模型
模型大小 参数量多,达到亿级别 参数量少,结构简单
硬件要求 需要高性能计算资源 无需高昂硬件配置,低端硬件可支持
训练时间 需要更长时间进行训练 训练速度较快
计算效率 计算复杂,推理速度相对较慢 计算简单,推理速度快
任务处理能力 处理复杂任务能力强,如自然语言理解、图像识别等 适用于简单任务,如推荐系统、简单语音识别等
数据需求 需要大量数据进行训练以提高准确性和泛化能力 可以在较少的数据下进行训练
应用场景 全能化、通用化,适用于多种任务 偏向于解决某一垂直领域中的具体问题
部署难度 在资源充足的环境中部署,如数据中心 在资源受限的环境中易于部署,如移动设备、嵌入式系统
成本 训练和维护成本较高 训练和维护成本较低
表达能力 更好,能够准确捕捉数据中的模式和特征 相对较弱
语义理解 能够理解更深层次的语义,在回答问题、机器翻译等任务中表现优秀 语义理解能力有限

大模型与AI呢

那么大模型与AI又该怎么看呢?大模型和AI并不能直接划等号。大模型是人工智能(AI)发展中的一种重要技术形态,可以看作AI在现阶段实现通用能力的关键工具。AI作为涵盖机器学习、推理、感知等领域的综合学科,旨在模拟人类智能,而大模型通过海量参数和数据的训练,显著提升了AI在语言理解、多模态交互、复杂推理等任务上的表现,甚至展现出类似“智能涌现”的特性。它既是AI技术进步的代表(如推动自然语言处理接近人类水平),也面临资源消耗、可解释性不足等挑战,体现了AI从专用窄域向通用广域探索的尝试,但并非AI的全部——其价值在于扩展能力边界,而AI的长期发展仍需结合多种技术路径。总之,大模型的出现和发展推动了AI技术的进步,但同时也带来了新的挑战和问题,需要科研人员、政策制定者和社会各界共同努力解决。

语言模型发展历程

最早的语言模型,可以说是人类的语言。人类通过语言进行日常交流与知识传递,那么为使计算机具备类似能力,研究人员致力于开发具有类人语言的人工智能算法,使得AI 也可以掌握以自然语言的形式进行沟通和交流。让机器也拥有人类的阅读、学习、创作能力。语言模型作为核心技术路径,尤其是大语言模型(LLM),通过海量数据学习逐步掌握语义理解、文本创作及逻辑推理等能力。类比人类成长过程,这类模型早期需广泛吸收通用知识(如婴儿至中学阶段),后期通过专业领域微调(类似大学专业教育)形成垂直领域专长,同时需遵循社会伦理规范。当然,为了实现最终通用型人工智能(AGI),除了当前的大语言模型之外,还需要与视觉大模型和多模态大模型进行融合,通过文本、图像等多源信息,更接近人类综合认知方式。

语言模型的研究工作可以分为四个主要发展阶段,每个阶段所具备的能力以及存在的问题也各不相同,也正是通过这种阶段性的研究,不断的攻克上一个阶段研究的问题,从而一步一步的走到现在的阶段,一个可以适用于广大技术的,非技术的普通民众的阶段
在这里插入图片描述

大模型技术

预训练技术

与传统预训练语言模型相比,大语言模型对训练数据的规模与多样性提出了更高要求。为实现对真实语言规律的深度理解,其训练数据需覆盖跨领域、多来源的知识体系,包含科学、文化、社会等多维度内容。当前主流的大语言模型普遍采用网页抓取文本、书籍知识、对话记录及开源代码库等复合型数据集,这类数据既包含百科知识的系统性表达,也融入日常语言的灵活性特征。以维基百科为代表的权威知识库与海量网络文本的结合,使模型既能学习规范化的专业表述,又能捕捉不同场景下的语言变体。这种多层次、跨主题的数据融合策略,显著增强了模型的语义泛化能力和多任务适应性,为后续领域专业化微调奠定了通用认知基础。

预训练方法

预训练是大语言模型构建的核心阶段,通过自监督学习从海量无标注数据中建立基础能力基座。此阶段需以大规模、高质量、跨领域的语料库为燃料,使模型在语言结构理解、语义关联推理及常识知识储备等维度实现跃升。当前主流技术通过语言建模(如自回归预测)、去噪自编码(如文本修复)以及混合任务框架,驱动模型从无序文本中抽取出语法规则、逻辑关系与知识图谱。高质量数据不仅需要覆盖网页、书籍、对话等多元场景,还需平衡专业性与普适性,确保模型既能捕捉日常表达的灵活性,又能理解特定领域的规范性。该阶段形成的通用能力为后续专业化微调提供了可迁移的认知范式,而在大预言模型中用到的参数量效比分析方法,则为工程实践中算力资源配置提供了量化依据。

PEFT

PEFT(Parameter-Efficient Fine-Tuning,参数高效微调)是一类针对大语言模型轻量化微调的技术,旨在通过仅优化极少量参数(通常不足模型总参数的1%),以低成本实现与全参数微调相当的性能表现。传统微调需调整模型全部参数,而PEFT通过冻结预训练模型主体参数,仅对插入的低秩适配矩阵(如LoRA)、任务特定前缀(如Prefix Tuning)或微型适配层(如Adapter)等轻量模块进行训练,既大幅降低算力消耗,又保留模型原有的通用知识。例如,LoRA利用大模型权重矩阵的低秩特性,通过旁路矩阵分解实现高效参数更新,成为工业界广泛应用的PEFT方案。这类技术尤其适合资源有限场景下的领域适配与任务迁移。

RAG

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索与文本生成的技术框架,旨在通过动态引入外部知识库提升大语言模型的生成质量与事实准确性。RAG像是一个会查资料的助手,RAG=搜索+LLM提示。RAG要求模型回答查询,并提供通过搜索算法找到的信息作为上下文,查询和检索到的上下文都被注入到发送给 LLM 的提示中。

其核心思想是:当模型需要回答问题时,先通过检索系统(如向量数据库)从海量文档中筛选相关背景信息,再将检索到的内容与原始输入整合,引导生成模型基于可信知识进行回答。这种“检索-生成”协同机制有效缓解了传统生成模型因依赖内部参数化知识而可能产生的“幻觉”或信息过时问题,尤其适用于需要实时数据或领域专有知识的场景(如医疗咨询、法律分析)。RAG的典型流程包含检索器(Retriever)和生成器(Generator)两个模块,前者负责精准定位知识片段,后者则基于上下文与检索结果进行逻辑推理与内容合成。

RLHF

基于人类反馈的强化学习(RLHF)是实现大语言模型价值对齐的核心技术,通过构建“人类偏好-奖励建模-策略优化”的闭环系统,使模型输出在实用性、真实性及安全性等维度契合社会伦理准则。该技术框架首先采集人类对多组模型生成结果的偏好标注数据,将其蒸馏为可量化的奖励模型,进而通过近端策略优化(PPO)等强化学习算法驱动语言模型迭代进化。整个系统由三大模块协同支撑:预训练语言模型作为基座能力载体,奖励模型充当人类价值观的数字化评估器,强化学习算法则负责将抽象价值信号转化为参数空间的优化路径。这种数据驱动的对齐机制,不仅解决了传统监督学习难以覆盖开放式场景的局限,更通过动态交互实现了模型行为与复杂人类认知标准的渐进式校准
在这里插入图片描述

提示学习

在完成预训练、指令微调、人类反馈和提示学习后,提示工程成为激活大语言模型任务解决能力的关键技术路径。其核心在于构建高效的自然语言指令,通过上下文编排将用户意图映射至模型的内部知识空间。当前主流方法聚焦两类范式:人工设计的启发式模板(如情境描述+示范样例)与基于梯度搜索/强化学习的自动化策略优化。针对未知任务挑战,上下文学习(In-Context Learning)通过在输入中植入任务描述及范例,显著提升模型的零样本泛化能力;而思维链(Chain-of-Thought)提示技术则通过暴露中间推理步骤,引导模型对复杂问题进行分阶段求解,有效突破逻辑推理瓶颈。这些技术通过参数空间扰动而非权重更新,实现任务能力的定向激发,为实际应用提供低成本的解决方案。

提示工程(Prompt Engineering),也就是常说的提示词,提示词主要包括以下要素:上下文信息(角色信息)、任务描述、输出格式、限制条件等,不同的大模型稍有不同。比如DeepSeek 的提示词则要有角色信息、做什么、限制条件等。这些要素并不是每个Prompt都必须包含的,但根据特定的需求和上下文,合适地结合这些要素可以提高LLM生成的文本质量和相关性。
在这里插入图片描述
下面我们可以看一下AI 帮我们生成的日记内容

2023年10月15日 星期日 晴

今天太阳公公笑眯眯的,天空蓝得像洗过的玻璃球,连一片云朵都舍不得挡住阳光。我穿上最喜欢的黄色卫衣,背着书包一蹦一跳地去小区广场找好朋友小林玩,连妈妈都说我像只“快乐的小麻雀”。

我们约好要比赛踢足球。我刚摆好架势,突然听见花坛边传来“唧唧”的细弱声音。扒开草丛一看,居然有只巴掌大的小奶猫!它浑身雪白,只有耳朵尖像蘸了巧克力,右后腿蜷着不敢碰地,蓝眼睛里汪着两包泪,看得我心里揪揪的。

“怎么办呀?”小林急得直挠头,“上次王奶奶说流浪猫妈妈搬家了。”我忽然想起自然课老师教过,遇到受伤小动物要先用干净布料包扎。我俩翻遍口袋,最后贡献出擦鼻涕的新手帕(还好没用过!),轻轻把小猫裹成个“白粽子”。小猫起初挣扎着要咬人,我学着妈妈哄弟弟的样子哼摇篮曲,它居然慢慢安静下来,还用小脑袋蹭我的手心!

正当我们商量要不要告诉保安叔叔时,住三楼的宠物医生张阿姨正好买菜回来。她检查后说只是轻微扭伤,还夸我们处理得专业。“现在它是你们的‘临时病号’啦。”张阿姨眨眨眼,把小猫连同铺着毛巾的纸箱交给我们照顾,说等腿好了再帮忙找领养家庭。

整个下午,我们轮流用吸管喂小猫喝温水,用棉签给它梳毛。它抱着我的手指头打呼噜的样子,让我想起弟弟撒娇的模样。回家前,小林掏出零花钱买了鱼罐头,我们拉钩约定每天放学都来当“猫护士”。

现在我的卫衣上还粘着几根猫毛,但妈妈没骂我,反而帮我找了旧毛衣给小猫当被子。今晚的日记本里夹着小林画的小猫康复日历,看着上面歪歪扭扭的太阳、小鱼和爱心,我觉得心里暖暖的——原来帮助小生命的感觉,比踢进十个球还快乐呀!

思维链

这里提到一个思维链,那么什么是思维链呢?

思维链(Chain-of-Thought,CoT) 是一种引导大语言模型进行复杂推理的提示技术,其核心在于通过 显式展示问题解决的中间步骤,模仿人类分阶段思考的过程。例如,直接提问“小明有5个苹果,吃掉2个后收到3个,现在有几个?”模型可能直接输出答案“6”;但若加入思维链提示:“首先,小明最初有5个苹果。吃掉2个后剩下5-2=3个。接着收到3个,最终数量是3+3=6个。”,模型会先分解问题,逐步推导,最终生成逻辑清晰的解答。这种方法尤其擅长解决数学计算、因果推理或多步骤决策任务,能显著减少模型“跳跃式错误”,提升答案的可解释性与准确性。
思维链体现在AI 上,那就是从文科生到文理兼备的升华。OpenAI的ChatGPT4及其之前的版本都属于“快思考模式”,强调知识的学习、检索、生成问题和对话的能力。GPT-o系列版本开始引入“慢思考模式”,转向逻辑思维链,通过多步&复杂的推理来解决更难的问题,这才是人的智力精华所在。通过让大模型逐步参与将一个复杂问题分解为一步步的子问题并依次进行求解的过程可以显著提升大模型的性能,这一系列推理的中间步骤就被称为 思维链 。区别于传统的Prompt从输入直接到输出的映射 output> 的方式,CoT完成了从输入到思维链再到输出的映射,即reasoning chain->output>。

比如现在有这样一个推理题:【河边有龟和鹤共52条腿,如果龟换成鹤,鹤换成龟,共有56条腿,原来龟和鹤各有多少只?】那么我们来看一下思维链的思考过程
在这里插入图片描述

嗯,这个问题看起来有点挑战性,不过我来慢慢思考一下。首先,题目是说河边有龟和鹤,它们的腿总共有52条。然后如果把龟换成鹤,鹤换成龟,腿的总数就变成了56条。问原来龟和鹤各有多少只。

首先,我需要明确龟和鹤的腿数。一般来说,龟有四条腿,鹤有两条腿。对吧?不过得确认一下,可能有些特殊情况,但通常应该是这样。所以假设每只龟有4条腿,每只鹤有2条腿。

接下来,设原来的龟的数量为x只,鹤的数量为y只。那么原来的总腿数应该是4x + 2y = 52条腿。这是第一个方程。

接下来,题目说如果龟和鹤互换,也就是龟变成鹤,鹤变成龟。这时候龟的数量变成y只,鹤的数量变成x只。那这时候的总腿数应该是4y(因为现在龟的数量是y,每只龟4条腿)加上2x(现在鹤的数量是x,每只鹤2条腿),也就是4y + 2x = 56条腿。这是第二个方程。

现在我有两个方程:

1. 4x + 2y = 52

2. 2x + 4y = 56

不过,这里可能需要检查第二个方程是否正确。因为题目说“龟换成鹤,鹤换成龟”,所以原来的龟变成鹤,原来的鹤变成龟。因此,互换后的龟的数量是原来的鹤的数量y,而鹤的数量是原来的龟的数量x。所以腿数应该是4y(龟的腿数)加上2x(鹤的腿数),对吗?所以第二个方程应该是4y + 2x = 56,没错。

接下来,我需要解这两个方程。为了简化,可能可以将第一个方程和第二个方程联立起来,或者用代数方法解。

首先,我可以将两个方程都除以2,简化一下:

1. 2x + y = 26

2. x + 2y = 28

现在方程组变成:

2x + y = 26

x + 2y = 28

接下来,可以用代入法或者消元法来解。比如用消元法,把第二个方程乘以2,得到:

2x + 4y = 56

然后用这个新的方程减去第一个方程:

(2x + 4y) - (2x + y) = 56 - 26

即3y = 30,所以y = 10

然后代入y=10到第一个简化的方程2x + y =26:

2x +10 =26 → 2x=16 →x=8

所以原来的龟有8只,鹤有10只。这时候检查一下是否符合原来的总腿数:

龟:8×4=32条腿

鹤:10×2=20条腿

总腿数32+20=52,符合第一个条件。

然后互换后,龟的数量变成10只,鹤的数量变成8只:

龟腿数:10×4=40

鹤腿数:8×2=16

总腿数40+16=56,符合第二个条件。

看来这样解是对的。不过让我再仔细检查一遍,确保没有计算错误。

是的,步骤正确,答案也符合两个条件。所以原来的龟有8只,鹤有10只。

模型压缩

尽管通过预训练、参数高效微调(PEFT)和基于人类反馈的强化学习(RLHF)已构建出兼具任务泛化能力与价值对齐性的大语言模型,但其海量参数在生成式推理阶段引发的显存瓶颈仍构成严峻挑战。以GPT-3(1750亿参数)为例,仅模型权重加载便需占用320GB显存(FP16精度),若采用张量并行策略实现推理,至少需5块80GB显存的A100 GPU协同工作,硬件成本与能耗远超多数应用场景的承受阈值。这种“能力-成本剪刀差”催生了模型压缩技术的迫切需求,目标是通过量化、蒸馏、低秩分解等方法重构模型存储与计算范式,在保持核心性能的前提下,将模型部署成本压缩至消费级硬件可承载范围,真正打通大模型从实验室到产业落地的最后一公里。

最后总结

到这里,在身处AI浪潮之中的我们,也算对这个主角有了一个大概的了解。对于大家来说,AI 大模型的出现,势必会改变现有的工作模式,影响各自的业务场景,对于各自业务场景下能发生多大的改变、取得怎样的效果都仍在路上。但是,具体未来大模型在搜广推的应用,是嵌入到各层中,还是重构整个架构,还是个值得期待的事情。

随着大模型在各行各业的不断探索,大模型+医疗,大模型+智能化研发,大模型在诸如PPT等办公提效方面的落地案例。在这场大模型+AI的技术革新浪潮中,我们必须积极拥抱大模型,取其精华并知其弊端,将AI技术更好地结合在自己的领域中,这样你才有机会超越同行。未来的人工智能将会融入我们每个人的生活,变得无处不在。虽然任何技术的发展都是有高峰和低谷,人工智能的发展也不例外。但是身处人工智能发展的急速浪潮中,我们需要积极学习,学会接纳融合新技术,在保持乐观态度的同时,也要保留理智,不过分夸大其作用,盲目从众。真正将人工智能的长处发挥出来,改善人类生活,助力经济发展。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐