大模型最近几年非常火,了解、掌握、并使用大模型解决行业相关问题,或者在具体场景上落地,是一个发展趋势。本篇博客,主要介绍大模型相关的基础概念,方便大家对大模型有个基本的了解和认识。

AI基本概念

在计算机领域,AI(人工智能)指的是让计算机具备像人类一样的智慧和行动能力,包括自主思考、决策,完成一系列任务等。

从概念的范围上来说,人工智能>机器学习>深度学习>大模型

人工智能

其中,人工智能有很多实现方式,也包括很多对象。例如可以让机器、机械臂拥有智能。在具体的实现方式上,包括粒子群算法、启发式算法、专家系统、机器学习等。

机器学习

是人工智能中的一个分支。让机器自动从数据中学习的方式和方法,包括支持向量机、逻辑回归、卷积神经网络等算法。

深度学习

是机器学习其中的一个分支。深度学习模仿人脑的工作原理,是一种利用神经网络自动从数据中进行学习的方法,其核心组成部分是神经网络,由许多人工神经元组成,这些神经元通过学习算法来调整它们之间的连接权重。

大模型

是深度学习其中的一个分支。指深度学习中的大型神经网络模型,它们通常包含数亿甚至数十亿个参数,可以处理海量的数据,并且具有强大的特征表达和推理能力。大模型通过吸收海量的互联网文本数据进行训练,具备跨领域的知识理解和生成能力

AI的概念,其实上个世纪五十年代就有了,神经网络,也在很早之前就出现了,那为什么大语言模型之前都不温不火?最近这几年突然爆发呢?

核心原因在于大模型需要大量的数据、算力和算法支持,如果不满足相关要素,发展就很缓慢。最近几年,因为移动互联网的加持,产生了大量数据;同时因为GPU\TPU相关显卡的发展,算力越来越强;还有Transformer架构(大模型内部采用的架构)的创新,带来了算法上的更新,促成了这次大模型的热潮。

什么是大模型

大模型全称是大语言模型,是让模型通过大量的语料学习,实现理解人类语言,并进行生成的一种方法。你可以理解为一个文曲星,花费大量时间,把全世界的书籍、知识库、文档等资料,都拿过来学习了一遍,学会了所有公开的知识,于是你问他所有问题, 他都会回答你。大模型的三个特点:
1)数据大
大模型的训练,需要用到大量的语料数据。

2)规模大
大模型本身就有大量的参数,占用空间大。

3)算力大
大模型的训练,需要用到大量的显卡,耗费大量时间和电力(这一点在deepseek出来后有所缓解)

大语言模型有什么用

大语言模型的发展,能够在多个场景中进行运用,帮助人们降本提效。
例如,以前我们有问题会去问百度,但是搜索出来的结果,还需要人工一个一个去总结和提炼,最后汇总成答案。但是现在有了大模型以后,可以直接向大模型问问题,大模型会根据自己学习的知识(可能结合搜索结果),给出最终的答案,大大节约了自己搜索、总结、提炼的时间。

在医疗领域,可以基于大模型,结合医疗相关知识,制作AI数字医生,帮助用户解答各种问题,同时还能培养相关的医学生。

在教育领域,可以基于大模型,结合老师的专业知识,制作AI数字教师,帮助学生解答各种问题,批改作业,制定个性化辅导方案等。

国内外常见的大模型

国内外常见的大语言模型情况

模型名称 背后公司 开源还是闭源 特色/备注
deepseek 深度求索 开源 多模态与推理强
通义千问 阿里巴巴 开源 模型类型多
智谱清言 智谱科技 开源 聚焦中文场景
豆包 字节跳动 开源 多轮对话能力强
kimi 月之暗面 开源 提供高效的文本生成和理解能力
GPT OpenAI 闭源 支持多语言
Claude Anthropic 闭源 安全可靠的文本生成
LLama Meta 开源 支持多种语言任务

大模型的应用场景

大模型因为具备大量的知识,且具备文本、图片、视频生成能力,天然适用于需要多次文本交互场景。例如智能客服、智能营销文本生成、智能搜索(现在很多软件都是)。
在不同的场景,还会有不同的落地情景。例如在电商领域,有数字人直播带货,带货文案/图片/视频生成等。

大模型的挑战

虽然大模型很火,但是也涉及到一些安全、伦理、隐私上的问题。
例如,不法分子可能会用大模型去生成数字人进行行骗;一些涉密机构的数据直接使用大模型会存在隐私泄露问题;如何规范和管理AI生成的内容,例如AI生成的相关谣言如何识别;大模型训练的资源消耗问题如何解决等。这些都是需要思考并解决的。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐