通义千问3-Reranker-0.6B详细步骤：API服务封装为RESTful接口

本文介绍了如何在星图GPU平台上自动化部署通义千问3-Reranker-0.6B镜像，并将其封装为RESTful API服务。该模型能够智能计算查询与文档的语义相关性，典型应用于提升搜索引擎结果的质量和精准度，为信息检索场景提供高效的排序解决方案。

Fitz Hoo

13人浏览 · 2026-03-20 01:16:39

Fitz Hoo · 2026-03-20 01:16:39 发布

通义千问3-Reranker-0.6B详细步骤：API服务封装为RESTful接口

1. 模型介绍与环境准备

Qwen3-Reranker-0.6B 是阿里云通义千问团队推出的新一代文本重排序模型，专门为文本检索和排序任务设计。这个模型能够精准计算查询语句与候选文档之间的语义相关性，为搜索结果、文档推荐等场景提供智能排序能力。

1.1 核心特性优势

特性	说明	实际价值
语义重排序	深度理解查询意图，精准计算相关性	提升搜索结果质量
多语言支持	支持中英文等100多种语言	国际化应用无障碍
长文本处理	支持32K上下文长度	处理长文档无压力
轻量高效	仅0.6B参数，推理速度快	节省计算资源成本
指令感知	支持自定义指令优化	适配特定业务场景

1.2 环境要求与安装

在开始封装API服务之前，确保您的环境满足以下要求：

# 系统要求
Ubuntu 18.04+ / CentOS 7+
Python 3.8+
CUDA 11.7+ (GPU环境)
至少8GB内存

# 安装依赖
pip install torch transformers fastapi uvicorn python-multipart
pip install "fastapi[all]"  # 包含所有可选依赖

2. 基础模型加载与测试

2.1 模型初始化代码

首先让我们编写模型加载的基础代码，这是后续API封装的基础：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import logging

# 配置日志
logging.basicConfig(level=logging.INFO)
logger = logging.getLogger(__name__)

class QwenReranker:
    def __init__(self, model_path="/opt/qwen3-reranker/model/Qwen3-Reranker-0.6B"):
        """初始化重排序模型"""
        logger.info("正在加载Qwen3-Reranker模型...")
        
        # 加载tokenizer和模型
        self.tokenizer = AutoTokenizer.from_pretrained(
            model_path, 
            padding_side='left',
            trust_remote_code=True
        )
        
        self.model = AutoModelForCausalLM.from_pretrained(
            model_path,
            torch_dtype=torch.float16,
            device_map="auto",
            trust_remote_code=True
        ).eval()
        
        logger.info("模型加载完成！")

    def calculate_score(self, query, document, instruction=None):
        """计算查询与文档的相关性分数"""
        # 构建输入文本
        if instruction is None:
            instruction = "Given a query, retrieve relevant passages"
        
        text = f"<Instruct>: {instruction}\n<Query>: {query}\n<Document>: {document}"
        
        # Tokenize
        inputs = self.tokenizer(text, return_tensors="pt").to(self.model.device)
        
        # 推理
        with torch.no_grad():
            logits = self.model(**inputs).logits[:, -1, :]
            # 计算相关性分数
            score = torch.softmax(
                logits[:, [self.tokenizer.convert_tokens_to_ids("no"), 
                         self.tokenizer.convert_tokens_to_ids("yes")]], 
                dim=1
            )[:, 1].item()
        
        return round(score, 4)

2.2 基础功能测试

在封装API之前，先测试模型的基本功能：

# 测试代码
if __name__ == "__main__":
    # 初始化模型
    reranker = QwenReranker()
    
    # 测试用例
    test_cases = [
        {
            "query": "什么是机器学习？",
            "document": "机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习并改进，而无需明确编程。"
        },
        {
            "query": "Python的特点",
            "document": "Python是一种高级编程语言，以其简洁的语法和强大的库生态系统而闻名。"
        }
    ]
    
    for i, case in enumerate(test_cases):
        score = reranker.calculate_score(case["query"], case["document"])
        print(f"测试用例 {i+1}: 分数 = {score}")

3. RESTful API服务封装

3.1 FastAPI应用架构设计

现在我们来构建完整的RESTful API服务：

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
from typing import List, Optional
import uvicorn
import asyncio
from concurrent.futures import ThreadPoolExecutor

# 定义请求响应模型
class RerankRequest(BaseModel):
    query: str
    documents: List[str]
    instruction: Optional[str] = None
    top_k: Optional[int] = None

class RerankResponse(BaseModel):
    scores: List[float]
    ranked_documents: List[str]
    ranked_indices: List[int]

class DocumentScore(BaseModel):
    document: str
    score: float
    rank: int

class DetailedResponse(BaseModel):
    query: str
    results: List[DocumentScore]
    top_k: int

# 初始化FastAPI应用
app = FastAPI(
    title="Qwen3-Reranker API",
    description="通义千问3重排序模型RESTful API服务",
    version="1.0.0"
)

# 全局变量
reranker = None
executor = ThreadPoolExecutor(max_workers=4)

@app.on_event("startup")
async def startup_event():
    """应用启动时加载模型"""
    global reranker
    reranker = QwenReranker()
    logger.info("API服务启动完成")

@app.on_event("shutdown")
async def shutdown_event():
    """应用关闭时清理资源"""
    executor.shutdown()
    logger.info("API服务已关闭")

@app.get("/")
async def root():
    """根端点，返回服务信息"""
    return {
        "service": "Qwen3-Reranker API",
        "version": "1.0.0",
        "status": "running"
    }

@app.get("/health")
async def health_check():
    """健康检查端点"""
    return {"status": "healthy", "model_loaded": reranker is not None}

3.2 核心API端点实现

@app.post("/rerank", response_model=DetailedResponse)
async def rerank_documents(request: RerankRequest):
    """
    重排序API端点
    - query: 查询语句
    - documents: 候选文档列表
    - instruction: 自定义指令（可选）
    - top_k: 返回前K个结果（可选）
    """
    if not request.documents:
        raise HTTPException(status_code=400, detail="文档列表不能为空")
    
    if reranker is None:
        raise HTTPException(status_code=503, detail="模型未加载完成")
    
    try:
        # 并行计算所有文档的分数
        loop = asyncio.get_event_loop()
        scores = []
        
        # 为每个文档计算分数
        for doc in request.documents:
            score = await loop.run_in_executor(
                executor, 
                reranker.calculate_score, 
                request.query, doc, request.instruction
            )
            scores.append(score)
        
        # 组合文档和分数
        doc_scores = list(zip(request.documents, scores, range(len(scores))))
        
        # 按分数排序
        doc_scores.sort(key=lambda x: x[1], reverse=True)
        
        # 处理top_k参数
        if request.top_k is not None and request.top_k > 0:
            doc_scores = doc_scores[:request.top_k]
        
        # 构建响应
        results = []
        for rank, (doc, score, orig_idx) in enumerate(doc_scores, 1):
            results.append({
                "document": doc,
                "score": score,
                "rank": rank
            })
        
        return DetailedResponse(
            query=request.query,
            results=results,
            top_k=request.top_k or len(request.documents)
        )
        
    except Exception as e:
        logger.error(f"重排序处理失败: {str(e)}")
        raise HTTPException(status_code=500, detail=f"处理失败: {str(e)}")

@app.post("/score")
async def get_single_score(query: str, document: str, instruction: Optional[str] = None):
    """获取单个查询-文档对的相关性分数"""
    if reranker is None:
        raise HTTPException(status_code=503, detail="模型未加载完成")
    
    try:
        loop = asyncio.get_event_loop()
        score = await loop.run_in_executor(
            executor,
            reranker.calculate_score,
            query, document, instruction
        )
        
        return {
            "query": query,
            "document": document,
            "score": score,
            "instruction": instruction
        }
        
    except Exception as e:
        logger.error(f"分数计算失败: {str(e)}")
        raise HTTPException(status_code=500, detail=f"计算失败: {str(e)}")

3.3 批量处理端点

@app.post("/batch_rerank")
async def batch_rerank(requests: List[RerankRequest]):
    """批量重排序处理"""
    if not requests:
        raise HTTPException(status_code=400, detail="请求列表不能为空")
    
    if reranker is None:
        raise HTTPException(status_code=503, detail="模型未加载完成")
    
    results = []
    loop = asyncio.get_event_loop()
    
    for req in requests:
        try:
            # 处理单个请求
            scores = []
            for doc in req.documents:
                score = await loop.run_in_executor(
                    executor,
                    reranker.calculate_score,
                    req.query, doc, req.instruction
                )
                scores.append(score)
            
            # 排序
            ranked_docs = sorted(
                zip(req.documents, scores, range(len(scores))),
                key=lambda x: x[1],
                reverse=True
            )
            
            if req.top_k:
                ranked_docs = ranked_docs[:req.top_k]
            
            results.append({
                "query": req.query,
                "results": [
                    {"document": doc, "score": score, "original_index": idx}
                    for doc, score, idx in ranked_docs
                ]
            })
            
        except Exception as e:
            results.append({
                "query": req.query,
                "error": str(e)
            })
    
    return {"batch_results": results}

4. 服务部署与配置

4.1 配置文件与启动脚本

创建配置文件 config.py：

import os

# API配置
API_CONFIG = {
    "host": "0.0.0.0",
    "port": 8000,
    "reload": False,
    "workers": 2,
    "log_level": "info"
}

# 模型配置
MODEL_CONFIG = {
    "model_path": "/opt/qwen3-reranker/model/Qwen3-Reranker-0.6B",
    "device": "auto",
    "dtype": "float16"
}

# 服务配置
SERVICE_CONFIG = {
    "max_workers": 4,
    "timeout": 30,
    "max_batch_size": 50
}

创建启动脚本 start_server.py：

import uvicorn
from config import API_CONFIG

if __name__ == "__main__":
    uvicorn.run(
        "main:app",
        host=API_CONFIG["host"],
        port=API_CONFIG["port"],
        reload=API_CONFIG["reload"],
        workers=API_CONFIG["workers"],
        log_level=API_CONFIG["log_level"]
    )

4.2 Docker容器化部署

创建 Dockerfile：

FROM python:3.9-slim

WORKDIR /app

# 安装系统依赖
RUN apt-get update && apt-get install -y \
    git \
    && rm -rf /var/lib/apt/lists/*

# 复制代码
COPY requirements.txt .
COPY . .

# 安装Python依赖
RUN pip install --no-cache-dir -r requirements.txt

# 创建模型目录
RUN mkdir -p /opt/qwen3-reranker/model

# 暴露端口
EXPOSE 8000

# 启动命令
CMD ["python", "start_server.py"]

创建 docker-compose.yml：

version: '3.8'

services:
  qwen-reranker-api:
    build: .
    ports:
      - "8000:8000"
    environment:
      - MODEL_PATH=/opt/qwen3-reranker/model/Qwen3-Reranker-0.6B
    volumes:
      - ./models:/opt/qwen3-reranker/model
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities: [gpu]
    restart: unless-stopped

5. 客户端调用示例

5.1 Python客户端示例

import requests
import json

class QwenRerankerClient:
    def __init__(self, base_url="http://localhost:8000"):
        self.base_url = base_url
    
    def rerank(self, query, documents, instruction=None, top_k=None):
        """调用重排序API"""
        payload = {
            "query": query,
            "documents": documents,
            "instruction": instruction,
            "top_k": top_k
        }
        
        response = requests.post(
            f"{self.base_url}/rerank",
            json=payload,
            headers={"Content-Type": "application/json"}
        )
        
        if response.status_code == 200:
            return response.json()
        else:
            raise Exception(f"API调用失败: {response.text}")
    
    def batch_rerank(self, requests_list):
        """批量重排序"""
        response = requests.post(
            f"{self.base_url}/batch_rerank",
            json=requests_list,
            headers={"Content-Type": "application/json"}
        )
        
        if response.status_code == 200:
            return response.json()
        else:
            raise Exception(f"批量API调用失败: {response.text}")

# 使用示例
if __name__ == "__main__":
    client = QwenRerankerClient()
    
    # 单次重排序
    result = client.rerank(
        query="人工智能的应用领域",
        documents=[
            "人工智能在医疗诊断中的应用",
            "机器学习算法优化",
            "深度学习在图像识别中的进展",
            "自然语言处理技术发展"
        ],
        top_k=3
    )
    
    print("重排序结果:")
    for item in result["results"]:
        print(f"排名 {item['rank']}: 分数={item['score']:.4f}")
        print(f"文档: {item['document']}")
        print("-" * 50)

5.2 curl命令示例

# 健康检查
curl http://localhost:8000/health

# 单次重排序
curl -X POST "http://localhost:8000/rerank" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "机器学习算法",
    "documents": [
        "监督学习算法介绍",
        "无监督学习应用",
        "深度学习神经网络",
        "强化学习原理"
    ],
    "top_k": 2
}'

# 获取单个分数
curl -X POST "http://localhost:8000/score?query=深度学习&document=神经网络模型"

6. 性能优化与监控

6.1 性能优化策略

# 在QwenReranker类中添加缓存机制
from functools import lru_cache

class OptimizedQwenReranker(QwenReranker):
    def __init__(self, model_path, max_cache_size=1000):
        super().__init__(model_path)
        self._calculate_score_cached = lru_cache(maxsize=max_cache_size)(self._calculate_score_uncached)
    
    def _calculate_score_uncached(self, query, document, instruction):
        """不带缓存的分数计算"""
        return super().calculate_score(query, document, instruction)
    
    def calculate_score(self, query, document, instruction=None):
        """带缓存的分数计算"""
        cache_key = f"{query}|{document}|{instruction}"
        return self._calculate_score_cached(cache_key)

6.2 监控端点添加

from prometheus_client import Counter, Histogram, generate_latest
from fastapi import Response

# 监控指标
REQUEST_COUNT = Counter('rerank_requests_total', 'Total rerank requests')
REQUEST_LATENCY = Histogram('rerank_request_latency_seconds', 'Request latency')

@app.middleware("http")
async def monitor_requests(request, call_next):
    """监控中间件"""
    if request.url.path in ["/rerank", "/score", "/batch_rerank"]:
        REQUEST_COUNT.inc()
        start_time = time.time()
        response = await call_next(request)
        latency = time.time() - start_time
        REQUEST_LATENCY.observe(latency)
        return response
    return await call_next(request)

@app.get("/metrics")
async def metrics():
    """Prometheus监控端点"""
    return Response(generate_latest(), media_type="text/plain")