使用deepSeek-8B-Transformers开发本地接口

本地运行大模型：专注于在本地计算机（支持 macOS/Linux/Windows）快速部署和运行开源大语言模型（如 Llama 3、Mistral、Gemma 等）。AI 开源生态平台：提供模型仓库（如 Transformers、Diffusers）、数据集、推理 API（Inference API）和云服务（Spaces）。使用最新开源模型（如 Llama 3） ✅ 官方优化版本，性能较好 ✅

qq_32335393

635人浏览 · 2025-04-25 16:31:17

qq_32335393 · 2025-04-25 16:31:17 发布

1.使用 Hugging Face Transformers代码案例（首次加载模型较慢（约 5-10 分钟）。）

import torch
print(torch.__version__)  # 例如 2.0.1
print(torch.cuda.is_available())  # 必须返回 True

# 使用 Hugging Face（需GPU）
model_name = "app/utils/DeepSeek-R1-Distill-Llama-8B"
from transformers import pipeline,BitsAndBytesConfig
from flask import Flask, request, jsonify
from transformers import pipeline
import torch

app = Flask(__name__)

# 全局初始化模型（服务启动时仅加载一次）
GENERATOR = pipeline(
    "text-generation",
    model=model_name,
    device="cuda",
    torch_dtype=torch.float16,
)

@app.route('/generate', methods=['POST'])
def generate():
    """ 生成文本接口 """
    try:
        data = request.get_json()
        text = data.get('text', '')
        
        # 调用全局模型
        result = GENERATOR(text,max_length=200)
        
        return jsonify({
            "result": result[0]['generated_text'],
            "status": "success"
        })
    
    except Exception as e:
        return jsonify({"error": str(e)}), 500

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

2.Ollama和Hugging Face对比以及优劣势

Ollama 和 Hugging Face 是两个不同定位的工具，选择哪个更好用取决于你的具体需求。以下是它们的对比分析，帮助你做出选择：

1. 核心定位

Ollama

本地运行大模型：专注于在本地计算机（支持 macOS/Linux/Windows）快速部署和运行开源大语言模型（如 Llama 3、Mistral、Gemma 等）。

轻量化管理：通过命令行工具一键下载、运行模型，适合开发者和隐私敏感场景。

无依赖云服务：完全离线运行，适合需要数据隐私或网络受限的环境。

Hugging Face

AI 开源生态平台：提供模型仓库（如 Transformers、Diffusers）、数据集、推理 API（Inference API）和云服务（Spaces）。

云端/本地均可：既能在 Hugging Face 的云平台运行模型，也能通过 transformers 库在本地调用。

广泛的模型支持：覆盖 NLP、CV、语音等多领域，支持超过 50 万种开源模型。

2. 使用场景对比

3. 易用性

Ollama

优点：安装简单（一条命令），模型下载自动化，适合快速本地测试。

缺点：模型选择有限（仅支持部分开源模型），功能单一（仅推理）。

Hugging Face

优点：功能全面（从训练到部署），社区活跃，文档丰富。

缺点：本地部署需配置 Python 环境，部分大模型需要高性能硬件。

4. 性能与硬件

Ollama：对模型做了轻量化优化（如量化版），适合消费级硬件（如 MacBook）。

Hugging Face：本地运行需自行优化（如使用 bitsandbytes 量化），显存不足时需依赖云服务。

5.对比两种方法

方法优点缺点

Ollama 安装简单，API 调用方便依赖 Ollama 服务

Hugging Face 直接控制模型，适合开发需高显存，加载慢

3. 使用 Hugging Face Transformers

使用 Hugging Face Transformers（适合开发者）

1. 安装依赖

pip install torch transformers accelerate

2. 下载模型 DeepSeek-R1 8B

3.注意：

需 NVIDIA GPU + CUDA，显存 ≥16GB。(版本 CUDA 11.8 )

cuDNN和CUDA兼容版本的显存下载地址：

https://developer.nvidia.com/rdp/cudnn-archive

5.DeepSeek-R1-Distill 模型下载

https://huggingface.co/deepseek-ai/DeepSeek-R1