DeepSeek基础知识

DeepSeek 模型诞生背景

  • 公司定位:中国人工智能实验室,专注大语言模型研发,开源路线与技术创新。
  • 成立时间:2023年7月,总部位于浙江杭州。
  • 目标:通过技术民主化推动AI普惠发展。

DeepSeek模型发展历程

DeepSeek LLM(V1)

  • 发布时间:2023年11月29日
  • 核心能力:文本生成、理解、对话交互。
  • 架构:基于LLaMA的Transformer架构(6.7B/67B参数)。
关键技术
  • 数据:使用24GB多语言语料训练分词器,词汇表大小102,400
  • 模型结构
    • Pre-Norm + RMSNorm
    • SwiGLU激活函数(FFN中间层维度8/3)。
    • RoPE旋转位置编码(优化推理成本)。
    • 分组查询注意力(GQA)(67B模型)。
  • 超参数
    • 三阶段学习率调度(预热→稳态→分步退火)。
    • 优化器:AdamW(β1=0.9, β2=0.95, weight_decay=0.1)。
模型效果
  • 67B模型在MATH、GSM8K、HumanEval等任务上显著优于LLaMA2 70B
  • 中文任务表现突出(LLaMA2中文数据仅占0.13%)。

DeepSeekMath

  • 定位:专注数学推理任务的优化模型。
  • 训练策略
    • 两阶段训练
      1. 代码预训练(DeepSeek-Coder-Base-v1.5)。
      2. 数学任务微调(结合代码与数学推理能力)。
    • 强化学习算法GRPO(去价值函数,降低资源消耗)。
模型效果
  • 7B模型在MATH基准测试中达51.7%,接近GPT-4和Gemini Ultra。

DeepSeek V2

  • 发布时间:2024年5月
  • 核心创新
    1. MLA注意力机制(压缩KV Cache,推理效率提升)。
    2. 稀疏MOE架构(细粒度专家分割 + 共享专家隔离)。
MLA关键改进
  • 通过低秩压缩减少KV缓存(存储量降至原始维度的1/10)。
  • 位置编码解耦,保留多头计算效果。
模型效果
  • 英文、数学、编码任务优于Qwen1.5 72B,中文任务逊于Qwen。
  • 推理成本显著低于Mixtral8x22B。

DeepSeek V3

  • 发布时间:2024年12月
  • 核心创新
    1. 无辅助损失负载均衡策略(缓解MOE专家冗余)。
    2. 多令牌预测(MTP):级联预测多个Token(仅训练使用,推理仍为Next-token)。
    3. 训练成本极低:671B参数MoE模型成本557.6万美元(对比Llama3 405B成本数倍降低)。
模型效果
  • 性能对标GPT-40、Claude-Sonnet-3.5,中文事实知识超越闭源模型。

DeepSeek R1

  • 发布时间:2025年1月
  • 核心模型
    1. DeepSeek-R1-Zero:直接通过**强化学习(GRPO)**训练,无需监督微调。
    2. DeepSeek-R1:结合冷启动数据(CoT微调)与强化学习,优化可读性。
关键技术
  • 奖励机制:基于规则(准确性 + 格式) + 语言一致性奖励。
  • 蒸馏能力:将推理能力迁移至小模型(如Qwen、Llama)。
模型效果
  • 推理性能接近OpenAI-01-1217,支持全场景强化学习与安全优化。

总结

  • 技术演进:从LLM基础架构到MLA、MOE、GRPO等创新,持续优化推理效率与多任务能力。
  • 性能优势:中文任务、数学推理、低成本训练为核心竞争力。
  • 开源战略:推动技术民主化,成为开源领域SOTA模型

DeepSeek 模型部署概述

DeepSeek-R1 及其变体支持开源合作和商业使用,包括模型蒸馏。这有助于降低人工智能模型开发的门槛,并促进创新。可以通过以下三种方式使用 DeepSeek:

官方Web访问

  • 平台:DeepSeek聊天平台提供了一个友好的用户界面,允许用户无需任何设置即可与DeepSeek-R1进行互动。
  • 步骤
    1. 访问 https://chat.deepseek.com/sign_in 进行登录。
    2. 登录后,可以直接在聊天框中进行对话交流。
    3. 也可以选择“深度思考”模式,体验DeepSeek-R1的逐步推理功能。

通过DeepSeek API访问

  • 兼容性:DeepSeek提供了与OpenAI格式兼容的API,方便开发者将其嵌入各种应用程序中进行程序化访问。
  • 用途:适用于希望将DeepSeek集成到现有系统中的开发者。

本地部署DeepSeek-R1

  • 硬件需求
    • 完整模型:需要较强的硬件支持。推荐使用具有大量视频内存(VRAM)的GPU,例如Nvidia RTX 3090或更高级别。如果使用CPU,至少需要48GB的RAM和250GB的磁盘空间,但不使用GPU加速会导致性能显著下降。
    • 蒸馏模型:对于硬件要求较低的本地部署,DeepSeek提供了参数范围从15亿到700亿的蒸馏版本。例如,一个7B参数的模型可以在至少拥有6GB VRAM的GPU上运行,或在大约4GB RAM的CPU上运行(GGML/GGUF格式)。

具体部署步骤

下载安装Ollama

  • 主页https://ollama.com/ 支持macOS、Linux和Windows系统。
  • 安装:如果是macOS、Linux系统,直接安装使用即可。

验证Ollama安装情况

  • 命令:在终端或命令提示符中输入以下命令验证安装是否成功:
    ollama --version
    
    如果显示版本号,说明安装成功;否则,请重新安装。
下载DeepSeek R1
  • 命令:通过Ollama下载DeepSeek R1非常便捷。只需在终端中执行以下命令:
    ollama run deepseek-r1:1.5b
    
    默认版本是7B模型(CPU大概需要4G内存,1.5B大概需要1.7G内存)。DeepSeek R1的参数范围从1.5B到671B,可以根据自己的硬件配置选择合适的模型版本。
基于Python调用DeepSeek R1
  • 方式1

    import ollama
    
    response = ollama.chat(model='deepseek-r1', messages=[{'role': 'user', 'content': '为什么天空是蓝色的?'}])
    print(response['message']['content'])
    
  • 方式2

    from ollama import Client
    
    client = Client(host='http://127.0.0.1:11434')
    response = client.chat(model='deepseek-r1', messages=[{'role': 'user', 'content': '为什么天空是蓝色的?'}])
    print(response['message']['content'])
    
  • Hugging Face部署

    from transformers import AutoModelForCausalLM, AutoTokenizer
    
    model = AutoModelForCausalLM.from_pretrained("deepseek-ai/DeepSeek-R1")
    tokenizer = AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-R1")
    
    input_text = "请解释一下量子力学的基本原理。"
    inputs = tokenizer(input_text, return_tensors="pt")
    outputs = model.generate(**inputs, max_length=100)
    print(tokenizer.decode(outputs[0], skip_special_tokens=True))
    

总结

  • 灵活性:DeepSeek提供了多种使用方式,包括Web访问、API集成和本地部署,满足不同场景的需求。
  • 硬件适应性:提供了从大规模模型到轻量级蒸馏模型的不同版本,适应不同的硬件配置。
  • 易用性:通过Ollama工具可以方便地下载和启动模型,并且提供了详细的Python调用示例,便于开发者快速上手。

如果您有进一步的问题或需要更详细的解释,请随时告诉我!

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐