一、简介

简述

        DeepSeek 是深度求索(北京)科技有限公司开发的前沿人工智能模型,在自然语言处理和多模态交互领域具有显著影响力。它基于 Transformer 架构构建,以推动 AI 技术的普及和应用为目标,通过技术创新与开源策略,在全球 AI 生态中扮演着重要角色。

特点

(一)先进架构设计
  1. 混合专家模型(MoE)架构:采用 MoE 架构,利用稀疏激活机制,在大幅减少计算量的同时,维持模型的高性能表现。这一机制使得模型在处理大规模数据时,能够智能地分配计算资源,仅激活处理特定任务所需的 “专家” 模块,避免了不必要的计算开销,显著提升了运算效率。

  2. 多头潜在注意力机制(MLA):通过低秩键值联合压缩以及解耦旋转位置嵌入技术,MLA 有效提高了计算效率。低秩键值联合压缩减少了数据存储和计算的维度,而解耦旋转位置嵌入则优化了模型对输入序列中位置信息的处理,使模型在处理长序列数据时表现更为出色。

(二)高效训练技术
  1. 多 tokens 预测(MTP)技术:MTP 技术允许模型同时预测多个连续位置的 token,这一创新极大地提高了训练效率。相比传统的逐个 token 预测方式,MTP 能够在一次计算中处理多个 token,加速了训练过程,减少了训练所需的时间和资源。

  2. 低精度训练:DeepSeek V3 原生支持 FP8 混合精度训练,显著降低了计算和存储需求。在保证模型性能的前提下,FP8 混合精度训练减少了数据存储所需的空间,同时降低了计算过程中的能耗,使得在资源有限的环境下也能高效训练大规模模型。

(三)强大多模态能力

        DeepSeek 具备处理文本、图像、音频等多种数据类型的能力,能够适应复杂的多模态任务。无论是从文本生成图像,还是从图像、音频中提取信息并与文本进行关联分析,DeepSeek 都能凭借其多模态融合技术,实现不同类型数据之间的协同处理,为用户提供更加全面和智能的服务。

(四)多样化模型发布
  1. DeepSeek - R1:2025 年 1 月发布,性能与 OpenAI 的 o1 正式版相当,且开源供全球开发者使用。该模型在多模态任务方面表现出色,如文本生成、图像描述生成等,为开发者在相关领域的创新应用提供了有力支持。

  2. DeepSeek - V3:2024 年 12 月发布,总参数达 6710 亿,采用 MoE 架构和 FP8 混合精度训练。其训练成本仅为 557.6 万美元,以较低的成本实现了高性能,为大规模模型的训练和应用提供了经济高效的解决方案。

  3. Janus - Pro:2025 年 1 月发布,在文生图、图生文等多模态任务上性能超越 DALL - E 3。它能够生成高质量的图像和文本,为创意设计、内容创作等领域带来了更强大的工具。

(五)广泛应用领域
  1. 自然语言处理:在智能客服、文本生成、翻译、摘要等任务中发挥重要作用。智能客服利用 DeepSeek 的自然语言理解和生成能力,能够快速准确地回答用户问题;文本生成可用于创作文章、故事等;翻译和摘要功能则帮助用户快速处理不同语言的文本信息。

  2. 多模态任务:适用于图像生成、图像理解、音频处理等场景。例如,根据文本描述生成逼真的图像,对图像内容进行准确理解和标注,以及对音频进行分析、转换等操作。

  3. 代码生成与调试:支持多种编程语言的代码生成和调试,提高开发者的编程效率。它可以根据功能需求自动生成代码框架,甚至帮助查找和修复代码中的错误。

  4. 金融领域:用于投资研究、产品销售和客户服务。在投资研究中,分析市场数据、预测趋势;在产品销售中,精准推荐金融产品;在客户服务中,快速解答客户疑问。

  5. 教育领域:提升教育产品的智能化水平,如智能辅导系统、个性化学习推荐等,为学生提供更优质的学习体验。

  6. 娱乐购物:在音乐推荐、内容创作等方面提供个性化服务。根据用户的兴趣爱好推荐音乐,辅助创作者生成创意内容;在购物场景中,通过分析用户行为和偏好,提供精准的商品推荐。

  7. 智能制造:可用于工艺优化、设备维护、知识管理等。通过分析生产数据,优化工艺流程;预测设备故障,提前进行维护;管理和利用企业的知识资源,提高生产效率和质量。

二、使用教程

版本

(一)区别

DeepSeek有手机版和网页版本,以下是它们的主要区别:
1.核心功能差异:
        网页版:支持多维度功能,如文本、文件上传和代码生成,适合复杂任务,如长文档撰写和代码调试。
        手机版:主要支持基础文本交互,部分应用可能简化多模态功能,适合移动使用,如即时问答和语音交互。
2.细分场景推荐:
        复杂任务处理:优先使用网页版,适合需要深度工作的场景,如科研和编程。
        移动便携需求:优先使用手机版,适合户外办公和碎片化学习。
3.其他差异化细节:
        性能表现:网页版受浏览器性能限制,可能有延迟;手机版在移动端设备上经过优化,响应速度更快。
        功能迭代:网页版通常率先上线新功能;手机版的功能审核周期较长。
        资源占用:网页版不占用本地存储,但高负载任务可能卡顿;手机版需安装包空间,但可管理缓存。
4.选择建议:
        如果需要处理复杂任务且不依赖移动端功能,选择网页版。如果需要便携性和即时交互,选择手机版。实际体验前,建议查阅官方(https://github.com/deepseekgaung)说明确认具体功能限制。总之,两者的核心AI能力一致,但网页版更适合深度工作,手机版则更注重移动便捷性。根据需求选择合适的版本。

(二)安装教程

手机版:手机应用商店下载deepseek即可。

网页版本地部署:

1.系统要求
  1. 硬件方面
    1. GPU:若使用 7B 模型,推荐 NVIDIA RTX 3060,需要 10-12GB 显存;14B 模型推荐 RTX 3090,需 20-24GB 显存;32B 模型推荐 RTX 4090,需 40-48GB 显存4。

    2. CPU:建议选择 Intel Core i7 或 AMD Ryzen 7 以上的处理器。

    3. 内存:7B 模型建议 16GB 及以上,14B 模型建议 32GB 及以上,32B 模型建议 64GB 及以上4。

    4. 存储:至少 256GB 的固态硬盘(SSD)。

  2. 软件方面
    1. 操作系统:推荐 Linux(如 Ubuntu 20.04 及以上版本)或 Windows 系统4。

    2. Python:需要安装 Python 3.8 及以上版本345。

    3. 其他依赖:CUDA 11.2 及以上版本、CUDNN 8.1 及以上版本。

2.部署步骤

  1.  常规部署方式
    1. 更新系统(以 Linux 为例):执行命令sudo apt-get update

    2. 安装必要依赖:执行sudo apt-get install -y python3-pip python3-dev python3-venv git

    3. 创建并激活虚拟环境:运行python3 -m venv deepseek-env,然后source deepseek-env/bin/activate

    4. 安装 PyTorch:根据 CUDA 版本选择合适命令,如 CUDA 11.2 对应pip install torch torchvision torchaudio --extra-index-url 

    5. 克隆 DeepSeek 代码库:使用git clone https://github.com/deepseek-ai/deepseek.git,再cd deepseek

    6. 安装项目依赖pip install -r requirements.txt

    7. 下载并放置预训练模型:从官方链接下载权重,用wget (官方链接) -O models/deepseek_model.pth命令放在models/目录下。

    8. 配置环境变量export MODEL_PATH=models/deepseek_model.pthexport CUDA_VISIBLE_DEVICES=0

    9. 运行模型python run.py --model_path $MODEL_PATH --input "你的输入文本"

  2. 使用 LM Studio 部署
    1. 下载安装 LM Studio:在官网 lmstudio.ai 下载对应操作系统的安装包,双击运行并按提示完成安装。

    2. 启动 LM Studio 并设置语言:安装完成后启动,点击右下角设置图标将语言改为简体中文。

    3. 加载模型:可自行下载模型到本地后点击左上方文件夹图标选择模型目录导入;也可在 LM Studio 设置里选中 “Use LM Studio's Hugging Face” 复选框,然后点击左上方搜索图标搜索 deepseek 下载模型。

  3. 使用 Ollama 部署
    1. 下载安装 Ollama:在 Ollama 官网https://ollama.com下载对应系统版本安装。                        

    2. 检查Ollama是否安装成功:Windows+R,输入CMD进入命令窗口

    3. 输入ollama -v  有版本号就说明安装好了,在任务栏右下角有个羊驼的图标。

    4. 下载 DeepSeek-R1:进入 Ollama 官网找到 Models,选择 DeepSeek-R1 的对应模型版本,复制命令在命令行终端粘贴执行进行下载。

    5. 安装 Chatbox:访问 Chatbox 官网Chatbox AI官网:办公学习的AI好助手,全平台AI客户端,官方免费下载下载客户端安装,打开 Chatbox 选择设置 —>Ollama API,选择已安装的 DeepSeek-R1 模型保存,即可在 Chatbox 页面对话。 

到了这里,我们进行提问,可能会遇到报错。

  这里我们点击我的电脑,右键属性-->高级系统设置-->环境变量

   新建两个环境变量

  OLLAMA_HOST:0.0.0.0

  OLLAMA_ORIGING:*

  设置完环境变量后退出一下Ollama,然后重新启动下Ollama。

   重启Ollama

  • 开始提问

  回到ChatBox,到这里就可以开始提问啦,但是我下载的这个是最小的模型,貌似知识库有点旧,我问了今天是几月几日,他回答是2023年1月27日,实际今天是2025年2月25日,实际推理能力我没测试,大家可以试试。

   到这里就完成全部本地化部署了,感谢大家观看!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐