DeepSeek简介与使用教程

DeepSeek 是深度求索（北京）科技有限公司开发的前沿人工智能模型，在自然语言处理和多模态交互领域具有显著影响力。它基于 Transformer 架构构建，以推动 AI 技术的普及和应用为目标，通过技术创新与开源策略，在全球 AI 生态中扮演着重要角色。

m0_73885944

1351人浏览 · 2025-02-25 19:39:46

m0_73885944 · 2025-02-25 19:39:46 发布

一、简介

简述

特点

（一）先进架构设计

混合专家模型（MoE）架构：采用 MoE 架构，利用稀疏激活机制，在大幅减少计算量的同时，维持模型的高性能表现。这一机制使得模型在处理大规模数据时，能够智能地分配计算资源，仅激活处理特定任务所需的 “专家” 模块，避免了不必要的计算开销，显著提升了运算效率。
多头潜在注意力机制（MLA）：通过低秩键值联合压缩以及解耦旋转位置嵌入技术，MLA 有效提高了计算效率。低秩键值联合压缩减少了数据存储和计算的维度，而解耦旋转位置嵌入则优化了模型对输入序列中位置信息的处理，使模型在处理长序列数据时表现更为出色。

（二）高效训练技术

多 tokens 预测（MTP）技术：MTP 技术允许模型同时预测多个连续位置的 token，这一创新极大地提高了训练效率。相比传统的逐个 token 预测方式，MTP 能够在一次计算中处理多个 token，加速了训练过程，减少了训练所需的时间和资源。
低精度训练：DeepSeek V3 原生支持 FP8 混合精度训练，显著降低了计算和存储需求。在保证模型性能的前提下，FP8 混合精度训练减少了数据存储所需的空间，同时降低了计算过程中的能耗，使得在资源有限的环境下也能高效训练大规模模型。

（三）强大多模态能力

DeepSeek 具备处理文本、图像、音频等多种数据类型的能力，能够适应复杂的多模态任务。无论是从文本生成图像，还是从图像、音频中提取信息并与文本进行关联分析，DeepSeek 都能凭借其多模态融合技术，实现不同类型数据之间的协同处理，为用户提供更加全面和智能的服务。

（四）多样化模型发布

DeepSeek - R1：2025 年 1 月发布，性能与 OpenAI 的 o1 正式版相当，且开源供全球开发者使用。该模型在多模态任务方面表现出色，如文本生成、图像描述生成等，为开发者在相关领域的创新应用提供了有力支持。
DeepSeek - V3：2024 年 12 月发布，总参数达 6710 亿，采用 MoE 架构和 FP8 混合精度训练。其训练成本仅为 557.6 万美元，以较低的成本实现了高性能，为大规模模型的训练和应用提供了经济高效的解决方案。
Janus - Pro：2025 年 1 月发布，在文生图、图生文等多模态任务上性能超越 DALL - E 3。它能够生成高质量的图像和文本，为创意设计、内容创作等领域带来了更强大的工具。

（五）广泛应用领域

自然语言处理：在智能客服、文本生成、翻译、摘要等任务中发挥重要作用。智能客服利用 DeepSeek 的自然语言理解和生成能力，能够快速准确地回答用户问题；文本生成可用于创作文章、故事等；翻译和摘要功能则帮助用户快速处理不同语言的文本信息。
多模态任务：适用于图像生成、图像理解、音频处理等场景。例如，根据文本描述生成逼真的图像，对图像内容进行准确理解和标注，以及对音频进行分析、转换等操作。
代码生成与调试：支持多种编程语言的代码生成和调试，提高开发者的编程效率。它可以根据功能需求自动生成代码框架，甚至帮助查找和修复代码中的错误。
金融领域：用于投资研究、产品销售和客户服务。在投资研究中，分析市场数据、预测趋势；在产品销售中，精准推荐金融产品；在客户服务中，快速解答客户疑问。
教育领域：提升教育产品的智能化水平，如智能辅导系统、个性化学习推荐等，为学生提供更优质的学习体验。
娱乐购物：在音乐推荐、内容创作等方面提供个性化服务。根据用户的兴趣爱好推荐音乐，辅助创作者生成创意内容；在购物场景中，通过分析用户行为和偏好，提供精准的商品推荐。
智能制造：可用于工艺优化、设备维护、知识管理等。通过分析生产数据，优化工艺流程；预测设备故障，提前进行维护；管理和利用企业的知识资源，提高生产效率和质量。

二、使用教程

版本

（一）区别

DeepSeek有手机版和网页版本，以下是它们的主要区别：
1.核心功能差异：
        网页版：支持多维度功能，如文本、文件上传和代码生成，适合复杂任务，如长文档撰写和代码调试。
        手机版：主要支持基础文本交互，部分应用可能简化多模态功能，适合移动使用，如即时问答和语音交互。
2.细分场景推荐：
        复杂任务处理：优先使用网页版，适合需要深度工作的场景，如科研和编程。
        移动便携需求：优先使用手机版，适合户外办公和碎片化学习。
3.其他差异化细节：
        性能表现：网页版受浏览器性能限制，可能有延迟；手机版在移动端设备上经过优化，响应速度更快。
        功能迭代：网页版通常率先上线新功能；手机版的功能审核周期较长。
        资源占用：网页版不占用本地存储，但高负载任务可能卡顿；手机版需安装包空间，但可管理缓存。
4.选择建议：
        如果需要处理复杂任务且不依赖移动端功能，选择网页版。如果需要便携性和即时交互，选择手机版。实际体验前，建议查阅官方(https://github.com/deepseekgaung)说明确认具体功能限制。总之，两者的核心AI能力一致，但网页版更适合深度工作，手机版则更注重移动便捷性。根据需求选择合适的版本。

（二）安装教程

手机版：手机应用商店下载deepseek即可。

网页版本地部署：

1.系统要求

硬件方面
1. GPU：若使用 7B 模型，推荐 NVIDIA RTX 3060，需要 10-12GB 显存；14B 模型推荐 RTX 3090，需 20-24GB 显存；32B 模型推荐 RTX 4090，需 40-48GB 显存4。
2. CPU：建议选择 Intel Core i7 或 AMD Ryzen 7 以上的处理器。
3. 内存：7B 模型建议 16GB 及以上，14B 模型建议 32GB 及以上，32B 模型建议 64GB 及以上4。
4. 存储：至少 256GB 的固态硬盘（SSD）。
软件方面
1. 操作系统：推荐 Linux（如 Ubuntu 20.04 及以上版本）或 Windows 系统4。
2. Python：需要安装 Python 3.8 及以上版本345。
3. 其他依赖：CUDA 11.2 及以上版本、CUDNN 8.1 及以上版本。

2.部署步骤

常规部署方式
1. 更新系统（以 Linux 为例）：执行命令sudo apt-get update。
2. 安装必要依赖：执行sudo apt-get install -y python3-pip python3-dev python3-venv git。
3. 创建并激活虚拟环境：运行python3 -m venv deepseek-env，然后source deepseek-env/bin/activate。
4. 安装 PyTorch：根据 CUDA 版本选择合适命令，如 CUDA 11.2 对应pip install torch torchvision torchaudio --extra-index-url
5. 克隆 DeepSeek 代码库：使用git clone https://github.com/deepseek-ai/deepseek.git，再cd deepseek。
6. 安装项目依赖：pip install -r requirements.txt。
7. 下载并放置预训练模型：从官方链接下载权重，用wget (官方链接) -O models/deepseek_model.pth命令放在models/目录下。
8. 配置环境变量：export MODEL_PATH=models/deepseek_model.pth，export CUDA_VISIBLE_DEVICES=0。
9. 运行模型：python run.py --model_path $MODEL_PATH --input "你的输入文本"。
使用 LM Studio 部署
1. 下载安装 LM Studio：在官网 lmstudio.ai 下载对应操作系统的安装包，双击运行并按提示完成安装。
2. 启动 LM Studio 并设置语言：安装完成后启动，点击右下角设置图标将语言改为简体中文。
3. 加载模型：可自行下载模型到本地后点击左上方文件夹图标选择模型目录导入；也可在 LM Studio 设置里选中 “Use LM Studio's Hugging Face” 复选框，然后点击左上方搜索图标搜索 deepseek 下载模型。
使用 Ollama 部署
1. 下载安装 Ollama：在 Ollama 官网https://ollama.com下载对应系统版本安装。
3. 检查Ollama是否安装成功：Windows+R，输入CMD进入命令窗口
5. 输入：ollama -v 有版本号就说明安装好了，在任务栏右下角有个羊驼的图标。
6. 下载 DeepSeek-R1：进入 Ollama 官网找到 Models，选择 DeepSeek-R1 的对应模型版本，复制命令在命令行终端粘贴执行进行下载。
8. 安装 Chatbox：访问 Chatbox 官网Chatbox AI官网：办公学习的AI好助手，全平台AI客户端，官方免费下载下载客户端安装，打开 Chatbox 选择设置 —>Ollama API，选择已安装的 DeepSeek-R1 模型保存，即可在 Chatbox 页面对话。

到了这里，我们进行提问，可能会遇到报错。

　　这里我们点击我的电脑，右键属性-->高级系统设置-->环境变量

　　新建两个环境变量

　　OLLAMA_HOST：0.0.0.0

　　OLLAMA_ORIGING：*

　　设置完环境变量后退出一下Ollama，然后重新启动下Ollama。

　　重启Ollama

开始提问

　　回到ChatBox，到这里就可以开始提问啦，但是我下载的这个是最小的模型，貌似知识库有点旧，我问了今天是几月几日，他回答是2023年1月27日，实际今天是2025年2月25日，实际推理能力我没测试，大家可以试试。

　　到这里就完成全部本地化部署了，感谢大家观看！

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

2025年程序员转行大模型全攻略：职业前景、热门岗位与选择策略解析！

DeepSeek技术社区

一文搞懂 Deepseek

DeepSeek技术社区

HAproxy服务器带日志

我现在有两台WindowsAD域控 10.10.10.1 和10.10.10.2，我现在有一个准入系统10.10.11.100需要提供ldap认证，我现在想搭建一个haproxy服务器IP 10.10.10.200做ldap业务的负载均衡，这样在准入系统上只要填haproxy服务器地址即可，所有通过haproxy服务器获取ladp的信息在haproxy需要有日志，haproxy服务已经安装，配置