小李哥将会在本文中介绍关于如何在亚马逊云科技AWS上,部署DeepSeek AI模型的8大方法汇总,涵盖无服务器、CPU和GPU不同部署选项,并进行推理和微调。

DeepSeek-R1基本介绍

DeepSeek-R1 是一款突破性的生成式AI基础模型,结合了强化学习(Reinforcement Learning)和高效的专家混合(Mixture of Experts, MoE)架构,以较低的成本提供高水平的推理性能。该模型在保持推理、数学和编程能力的同时,也展现出了卓越的资源利用率和低推理成本。

本文章介绍了如何在亚马逊云科技环境中,通过最佳实践以不同的部署方式部署该模型的不同版本,包含详细教程和代码示例。

使用Amazon Bedrock自定义模型功能导入进行无服务器推理

DeepSeek-R1推出了兼容Llama的分组查询注意力(GQA)架构的精简版模型,这几个模型分别为DeepSeek-R1-Distill-Llama-8B和DeepSeek-R1-Distill-Llama-70B。因此大家可以导出这些模型的权重,并使用Amazon Bedrock自定义模型导入(Custom Model Import)功能导入模型。这一流程允许大家利用Bedrock的无服务器架构基础设施、统一API和如Guardrails这样的AI责任保护机制。

采用该方式的另一个优势是成本效益,计费方式为按5分钟为单位收费,计费模型根据服务推理请求所需的自定义模型单元(CMU)收费:

  • 8B参数模型使用2个CMU
  • 70B参数模型使用8个CMU

导入模型可能需要30分钟,冷启动延迟约10 秒。下图介绍了整个模型导入的整个流程

使用AWS Graviton和Amazon SageMaker AI进行CPU实时推理

通过量化(Quantization)技术,大家可以在无需GPU的情况下部署DeepSeek-R1进行实时推理。为此大家需要将模型转换为支持CPU推理的框架(如 Llama.cpp)。通常4-bit或5-bit的量化方式可以提供最佳的速度/准确率平衡。虽然大家可以自行量化模型,但开源社区已经在Hugging Face上发布了许多已量化版本的模型,例如:

  • bartowski/DeepSeek-R1-Distill-Llama-70B-GGUF(LMStudio 团队发布)
  • collections/unsloth/deepseek-r1-all-versions(Unsloth 团队发布)

了解更多教程:

  • DeepSeek-R1 Distill模型在AWS Graviton4上的CPU 部署(Vincent Wang和Yudho Ahmad Diponegoro)
  • 使用Amazon SageMaker和AWS Graviton低成本部署小型语言模型(Andrew Smith)
  • 在Amazon SageMaker实时推理节点上通过CPU运行LLMs(Alex Tasarov, Aleksandra Jovovic, Karan Thanvi)

 

使用Amazon Bedrock Marketplace进行GPU实时推理

对于要求更高或大规模应用场景,可以使用Amazon Bedrock Marketplace部署DeepSeek-R1模型。Amazon Bedrock Marketplace提供100多个流行、前沿和专业的AI基础模型,大家可以在Amazon Bedrock上使用当前的行业最领先模型。通过Bedrock Marketplace,大家只需几次点击即可将模型自动化部署到托管端点。

  • 推荐实例大小(671B参数模型): p5e.48xlarge
  • 推荐实例大小(Distill精简版): 详细信息在AWS控制台进行部署时将自动显示

详细信息可查看以下文章: DeepSeek-R1现已在Amazon Bedrock Marketplace和Amazon SageMaker JumpStart上提供(Vivek Gangasani, Niithiyn Vijeaswaran, Jonathan Evans, Banu Nagasundaram)

使用 Amazon SageMaker AI 进行 GPU 实时推理

对于更高级和/或大规模的使用场景,或大家要求更高的部署灵活性,大家可以在Amazon SageMaker AI上部署DeepSeek-R1,以在GPU实例上进行实时推理。在这里SageMaker提供了一个针对推理优化的技术栈,包含大模型推理(LMI)容器,并支持诸如vLLM和NVIDIA的Tensor-RT LLM等流行的推理优化库。SageMaker始终致力于优化AI应用的可扩展性和效率,并通过容器缓存和可降至0的扩展(在re:Invent 2024上宣布)进一步提升性能。根据模型的规模,大家需要申请并选择合适的GPU实例大小,以及适当的配置,如张量并行(TP)和高吞吐批处理。不同的计算资源大小对应的成本如下表:

*注意:实例和成本仅为估算值。如需了解更多信息,请联系亚马逊云科技专门的支持团队。

详情请参考以下文章:

  • 示例Jupyter Notebook(Vivek Gangasani)
  • 在Amazon SageMaker部署DeepSeek-R1(Davide Gallitelli)
  • AWS开源示例deepseek-on-sagemaker(Sungmin Kim)

 

使用AWS Trainium进行GPU推理

除了NVIDIA的GPU,AWS还提供了AWS自研的Trainium AI推理加速芯片,适用于特定的生成式 AI工作负载。可以通过AWS Neuron SDK进行推理。虽然流行的开源推理库vLLM支持AWS Neuron,但目前可能尚未具备与 (NVIDIA) GPU相同的全面推理优化能力和多样化功能。例如截至本文撰写时,AWS Neuron目前对于其vLLM工具支持情况的官方说明如下:

目前我们在NxD Inference vLLM工具的集成中支持连续批处理(continuous batching)和流式生成(streaming generation)。我们正在与vLLM社区合作,以支持PagedAttention和 Chunked Prefill等其他vLLM功能,并计划在未来的NxD Inference版本中推出这些优化。

详细细节请查看文章:使用AWS Inferentia和Trainium部署DeepSeek-R1

 

使用Ray on EKS或Amazon EKS Auto Mode部署模型进行实时可拓展推理

如果大家熟悉Kubernetes,并希望更灵活地控制AI模型托管基础设施,可以使用Kubernetes进行模型的部署:

  • Amazon EKS Auto Mode(re:Invent 2024 发布):全自动管理Kubernetes集群的计算、存储和网络。通过此方式,大家可以使用vLLM等库设置AI推理容器,并通过Kubernetes管理AI推理服务的扩展性。
  • Ray on EKS:一个用于AI任务扩展和管理的开源框架

详细了解参考文章:

  • 使用Ray on EKS扩展DeepSeek(Vincent Wang, Faisal Masood)
  • 在Amazon EKS托管DeepSeek-R1(Tiago Reichert, Lucas Duarte)

从Hugging Face部署和微调DeepSeek-R1

DeepSeek-R1的开源模式使其在AI领域迅速崭露头角。在AI模型的代码仓库:Hugging Face上,发布仅几天,就已有500多个衍生模型。Hugging Face正与亚马逊云科技合作,使开发者更容易在 亚马逊云科技云平台上上部署和微调最新的Hugging Face模型,并支持Hugging Face Text Generation Inference(TGI)容器托管模型。

详细信息请了解: 如何在AWS上部署和微调DeepSeek模型(Hugging Face 官方教程)

在Amazon SageMaker上进行微调

DeepSeek-R1的高效、低成本架构使其成为进行模型微调的最佳基础模型,可以根据具体任务和业务场景进行模型定制化。在亚马逊云科技上可使用SageMaker进行微调,并支持如下热门的微调工具:

  • PyTorch FSDP(数据并行)
  • QLoRA(降低内存占用)

支持微调的模型示例:

  • Fine-tune DeepSeek-R1-Distill-Qwen-32B
  • Fine-tune DeepSeek-R1-Distill-Llama-70B
  • Fine-tune DeepSeek-R1-Distill-Llama-8B

 

总结

DeepSeek的开源模型近年来在AI和初创企业生态中引起了广泛关注,主要得益于其强大的推理能力、高效性能以及低成本。这为希望利用AI构建解决方案的开发者提供了更多模型选择,并凸显了AI应用设计需要适应不断发展的AI行业趋势是多么重要。在这一过程中,评估工具(evals)和开源工具(如Promptfoo用于离线评估,LangFuse用于可观测性)可以为模型性能提示提供帮助。

值得注意的是,DeepSeek模型具有两种不同的架构:

  • DeepSeek-R1-Distill模型,包含LLama和Qwen变体。这些变体采用分组查询注意力(GQA) 架构,可以直接在亚马逊云科技上使用。
  • DeepSeek-R1,一个671B参数规模的模型,采用全新的创新架构。如果要充分利用其模型高效性,需要特定的推理优化方案措施(详见文章:DeepSeek Model Optimizations on SGLang)。
推荐方案
  • 初期开发: 采用DeepSeek Distill或量化版本进行测试,评估其性价比
  • 大规模应用: 对于DeepSeek-R1 671B超大模型,建议在Amazon Bedrock Marketplace部署
  • 企业级优化: 联系亚马逊云科技的专业技术支持团队,获取优化支持

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐