DeepSeek简介和本地搭建

一、前言

年前DeepSeek就火起来的,说是最聪明的模型大脑;
可以问答,推理,可以一键生成各种world、Excel、PPT文档,可以生成图片、视频等等功能;
但是它是怎么来的,具体有多少功能,如何强大,很多人估计都不清楚。

本文进行简单揭秘一下。并且简单介绍本地模型搭建过程。

二、DeepSeek简介

1、发展背景

DeepSeek 是杭州深度求索人工智能基础技术研究有限公司推出的一系列人工智能产品及相关技术的统称。
公司背景:成立于 2023 年 7 月 17 日,由知名私募巨头幻方量化孕育而生。

2、发展历程

2024 年 1 月 5 日,发布 DeepSeek LLM。
1 月 25 日,发布 DeepSeek-Coder。
2 月 5 日,发布 DeepSeek Math。
3 月 11 日,发布 DeepSeek-VL。
5 月 7 日,发布 DeepSeek-V2。
9 月 5 日,更新 API 支持文档,宣布合并 DeepSeek Coder V2 和 DeepSeek V2 Chat,推出 DeepSeek V2.5。
12 月 26 日晚,正式上线 DeepSeek-V3 首个版本并同步开源。

发展并崛起是真的快。2025年1月至今爆火。

3、技术特点

(1)采用先进技术:

采用了混合专家模型(MoE)和多头潜注意力(MLA)等先进技术。

MoE 技术可让模型在处理任务时调用最合适的 “专家” 模块,提升效率和性能;
MLA 技术能优化模型对信息的注意力分配,使模型更精准地捕捉关键信息,提升处理复杂任务的能力。
(2)训练数据丰富:
DeepSeek 的模型通常在大规模的数据集上进行训练,如 DeepSeek LLM 包含 670 亿参数,
在一个包含 2 万亿 token 的数据集上进行了训练,数据集涵盖中英文。

DeepSeek Coder 的每个模型也从零开始在 2 万亿 token 上训练,
数据集包含 87% 的代码和 13% 的中英文自然语言。

4、应用场景

(1)自然语言处理领域:
能进行高质量的文本分析、翻译、摘要生成等任务,
可根据给定的主题、风格和要求,快速生成高质量文案,
在科技、学术等专业领域的文本生成和分析中,能提供更准确深入的内容。
(2)图像与视频分析领域:
在图像识别、视频内容分析等方面具有高精度,
能实现物体检测、场景理解、面部识别等功能。
语音交互领域:能准确识别和合成语音,支持多语言和方言,
可应用于语音助手、语音输入等场景。
(3)编程辅助领域:
可以根据程序员描述的功能需求,生成相应的代码框架或完整代码片段,
还能在编写代码过程中根据上下文自动补全代码,
帮助开发者快速理解代码逻辑,检测出代码中的潜在错误和漏洞,
辅助进行调试和优化。
(4)推理:
根据当时情况,推理出一些结论

其实国内的AI软件都有上面的功能,DeepSeek最出彩的好像是推理。

4、模型系列

(1)DeepSeek-R1:
英伟达称其是最先进的大语言模型,在推理任务上表现出色,秉承开放精神,完全开源。
2025 年 1 月推出基于该模型的聊天机器人,
上线后超越 ChatGPT 成为美国 iOS App Store 上下载量最高的免费软件。
(2)DeepSeek-V3:
在知识类任务上相比前代 DeepSeek-V2.5 显著提升,
接近当前表现较好的 Claude-3.5-Sonnet-1022。
生成吐字速度达 60tps,相比 V2.5 模型实现了 3 倍的提升。

(3)DeepSeek-Coder:
由一系列代码语言模型组成,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
DeepSeek-Coder-V2 将支持的编程语言从 86 种扩展到 338 种,
并将上下文长度从 16k 扩展到 128k,超越了 GPT4-Turbo 等闭源模型。

如果只是看上面官方说明,估计一脸懵逼,我来简单解释一下:

目前大多用的是r1模型,推理模型。
其实最多用的就是R1模型和V3模型,相当于人体的左右脑;
R1 是左脑,主要做思考的,V3 是右脑,主要是行为动作的。

R1模型、V3的主要场景举例:

DeepSeek-R1 :数学推理、代码生成、逻辑推理。
DeepSeek-V3 :多语言翻译、内容生成、长文本处理、图像生成和 AI 绘画。

用R1的推理问题举例:
1、我是40岁程序员如何用业余时间每月挣一万块;
2、普通人如何在40岁实现财富自由;
它会分析思考后,一步步给你参考答案。

用V3的推理问题举例:
1、给我把:"我要去拉萨玩两天两夜"翻译成英文;
2、生成一篇,一家人周末去西湖游玩的美文;
3、生成一张陈圆X和赵丽X类似的美女图片;
这些简单的问题,它就会直接给你答案,不需要推理。

三、DeepSeek 本地搭建

本地搭建网上已经很多文章了,不想多说了。
可以看到我之前写的一个:
https://blog.csdn.net/wenzhi20102321/article/details/145796381

可能不是很详细;也可以看看其他人写的:

https://blog.csdn.net/weixin_49684553/article/details/145537728

晚上看了挺多文章,多是写得比较啰嗦的。

1、主要步骤:

下载Ollama 软件(装AI的盒子),有Window、Linux、Apple版本
2、在DeepSeek官网查看模型配置的命令
3、在cmd窗口用Ollama选择要安装配置的模型,DeepSeek-R1 是目前最新的模型安装模型

之后在cmd窗口用run命令就可以进行DeepSeek问答了。

2、配置前最好先设置一下两个环境变量的值:

OLLAMA_HOST=0.0.0.0
OLLAMA_MODELS=D:\model\ollama

虽然我不知道它是否有用,但是网上都是说要配置的。

4、具体步骤示例

1、电脑高级属性,新建配置两个环境变量值

2、下载ollama网址:
官网(需要翻墙,国内不能访问):https://ollama.com/
gitcode(国内可以访问):https://gitcode.com/gh_mirrors/oll/ollama

3、cmd窗口下载配置 deepseek 模型
ollama pull deepseek-r1:7b

4、cmd窗口ollama run 模型,进行问题
ollama run deepseek-r1:7b

看起来是没啥难度,就是要点时间,
网速很好也要一个小时搞完,网速不好估计要半天了。

3、DeepSeek 问答示例

在这里插入图片描述

上面可以看到提问后,是可以得到答案的;
本地搭建后,断开网络也是可以正常提问的。

四、其他

1、Deepseek 使用小结

(1) 网页版本可以简单使用进行对话

https://chat.deepseek.com/

(2) 手机下载的版本也可以简单使用进行对话

(3) window电脑下载

1、下载安装 ollama.exe 软件
2、cmd窗口下载模型,大概16G内存
ollama pull deepseek-r1:7b //deepSeek-r1模型

3、使用
ollama list //查看模型,如果有才能run
ollama run deepseek-r1:7b

本地搭建后使用的好处就是,可以不联网,
免费进行翻译推理创造问答,但是无法同步获取网上新的数据内容。

2、各个超级大厂集成 Deepseek 网址 集合

腾讯元宝:
https://yuanbao.tencent.com/chat
阿里:
https://www.aliyun.com/product/tongyi
百度:
https://chat.baidu.com/search
华为:
https://siliconflow.cn/zh-cn/
360 纳米AI:
https://metaso.cn/

各大厂身价都上千亿,都有自己的大模型,为啥都集成DeepSeek 模型,估计是为了维持热度,并且兼容客户需求吧。

如果使用在线DeepSeek 使用卡顿,就可以用360的超级纳米AI服务器,基本不会卡;
专业人士说是DeepSeek一直被美国工具,但是360目前防护很好,不会受到攻击;
也有可能有其他原因,比如本身服务器用户超多受限等。

3、DeepSeek 各个模型需要的内存

模型配置的命令:

ollama pull deepseek-r1:7b

其中这里的 “7b” 就是和内存关联的,是可以根据自己电脑配置修改的,模型越大跑得越快。

下面是DeepSeek 几个模型对内存要求:

(1)DeepSeek-R1 系列
1.5B:内存 8GB+
7B、8B:内存 16GB+
14B:内存 32GB+
32B:内存 64GB+
70B:内存 128GB+
671B:内存 512GB+
(2)DeepSeek-V3 系列
1.5B:内存 12GB
3B:内存 16GB
7B:内存 32GB
10B:内存 48GB
13B:内存 64GB

DeepSeek-Code 和V3 是一样的。
主要这里的内存并不是磁盘大小,而是电脑内存条的内存大小。

同时可以看到R1推理的大模型671B,需要只是512G的内存才能跑起来。

大部分的电脑估计就是16G的内存,跑个1.5b/7b版本已经是够顶了。

并不是选择下载配置的模型越大越好,还是要根据自己的电脑配置进行选择,不然会很慢或者跑不起来。

配置v3模型和code模型也是类似的:

ollama pull deepseek-v3:7b
ollama pull deepseek-coder:7b

最后面的内存大小也是自适配的。

4、DeepSeek 其他应用场景

网上说的那些快速生成world、PPT、视频怎么用?

其实DeepSeek本身无法生成PPT、视频!
要生成PPT或者视频,都是要其他软件本身支持该功能的;
即使不用DeepSeek,它们也是可以正常使用的。

DeepSeek 只是帮助生成更好的描述,方便生成更优质的文件;

这个就要大伙自己摸索了,大部分都是要收费的;有的是暂时免费而已。

有些虽然是收费的,但是使用确认非常方便:
有些时候即使收费,为了高效工作,也是值得的。

下面介绍七款非常有用的AI软件工具:

(1)AI品牌生成工具:

标小智(网页端(logosc.cn/)/小程序)

根据语言描述生成自己的logo,创建公司可以用。

(2)数字分身-必火AI
最真实的AI数字人
形象克隆
声音克隆
视频合成(文本/声音)
多国语言
双模型品质(1080/4K)

这样主要用于生成演讲视频或者带货视频。
输入文字,就可以一键生成多国语言的视频。

(3)智能剪辑-开拍APP
最好用的口播剪辑
一键去气口
一键剪辑
超多模板
AI封面


带货或者视频号那些吧,一个图片就可以自动说话。

(4)海报制作-即梦AI
最好用的AI海报制作
文字生图片
图片生图片
一键生成海报
AI生成视频
AI生成音乐

(5)视频制作-可灵AI
最容易用的AI视频制作
文生视频
图生视频
视频生视频
全能数字人

带货或者视频号那些比较有用吧。

(6)会议纪要-通义效率
最好用的会议纪要
音频转文字
智能总结

开会前打开软件,开会结束后,一键生成总结报告就行;
省去了手写的麻烦。

(7)视频通话-靠谱清言
最好用的AI视频通话
视频通话
英语口音

和美国佬对话,进行了实时翻译,你直接就能听到他说的中文,他也能直接听到你说的英文。
可以不用翻译了!

(8)WPS AI

WPS 新版本,右上角有个WPS AI 按钮,
在不同文件类型下,点击就会有提示不同的AI功能。
旧版本的WPA 有的也有WPS AI按钮,但是我点了下会消失,重新下载新的就好了。

在这里插入图片描述
只要输入一句话,比如“当下市场的化妆品调研”,几分钟内就生成一个PPT;
并且一键替换背景,各种一键优化;输入大纲也可以一键生成ppt。

下面是WPA AI的主要功能介绍:

1、写作方面
快速起草:输入主题或关键词,即可生成文章大纲、段落甚至完整文章草稿,适用于工作报告、论文、演讲稿等多种文档撰写。

2、AI 帮我改
续写:写作思路受阻时,选中段落点击 “续写”,AI 能基于前文给出自然流畅的续写内容。
润色:可优化文本,使工作报告更专业、教案更生动,突出重点,提升语言吸引力。
扩写与缩写:能为长篇报告等补充细节、拓展观点,也可对冗长内容提炼缩写,让重点更突出。

3、AI 伴写:基于 AI Agent 范式,无需提示词,输入标题后 0.5 秒就能理解意图并续写,生成涉及数据等内容时还能标注引用来源。

4、阅读方面
文档解析:帮助用户梳理文档结构,清晰呈现各部分内容逻辑关系。
总结提炼:快速总结长文核心内容,提取关键信息,便于用户快速了解文档主旨。
问答互动:针对文档内容,回答用户提出的相关问题,辅助理解文档。

5、数据处理方面
智能计算:在表格中可通过聊天操作表格,根据用户自然语言需求自动生成函数公式,完成数据计算。
数据分析:快速处理和分析数据,自动选择合适图表类型生成柱状图、折线图、饼图等,实现数据可视化。
智能抽取与转换:在多维表格中,可进行文本中特定信息的提取,如日期提取、文本分类提取等,还能对数据格式进行转换,如将非标准日期转换为标准格式。

6、设计方面
一键生成 PPT:根据主题自动生成幻灯片,导入文档也可一键转为 PPT。
自动美化排版:对演示文稿进行自动美化,包括字体、颜色、布局等方面的优化,使其更美观专业。
生成演讲稿备注:为 PPT 生成相应的演讲稿备注,辅助演讲。

7、其他功能
智能校对纠错:检查文档语法、拼写、标点等错误,提供词汇和句式改进建议。
模板范文推荐:根据文档类型和需求,推荐合适的模板和范文,提供格式和结构参考。
语音输入与识别:支持语音输入文本,也可将文本转换为语音,方便听读。
多语言翻译:快速翻译文档中的文本,便于处理多语言文档。

登录后可以试用,之后是收费的。

上面很多软件估计现在用不到,但是以后工作生活可能用到,可以先收藏备用。

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐