Qwen3-Reranker-0.6B实战：从环境搭建到API调用的完整教程

本文介绍了如何在星图GPU平台上自动化部署通义千问3-Reranker-0.6B镜像，并实现其核心应用。该模型是一个轻量级重排序模型，能够智能评估文档与查询的相关性，典型应用场景是为智能搜索或问答系统提供精准的文档排序，从而提升信息检索质量与用户体验。

八位数花园

392人浏览 · 2026-03-14 00:03:27

八位数花园 · 2026-03-14 00:03:27 发布

Qwen3-Reranker-0.6B实战：从环境搭建到API调用的完整教程

1. 快速上手：理解重排序模型能做什么

如果你正在构建一个搜索系统或者智能问答应用，可能会遇到这样的问题：用户输入一个问题，你的系统从数据库里找到了几十条相关的文档，但怎么知道哪一条最符合用户的心意呢？这就是重排序模型要解决的核心问题。

想象一下，你在网上搜索“如何做番茄炒蛋”，搜索引擎会返回一大堆结果。传统的搜索系统可能只是根据关键词匹配度来排序，但一个好的重排序模型能理解你的真实意图，把最详细、最权威的菜谱排在最前面，而不是把那些只是简单提到“番茄”和“鸡蛋”的文章放在前面。

Qwen3-Reranker-0.6B就是这样一个专门做“精排”工作的模型。它只有6亿参数，体积小巧，但能力却不弱。它能理解超过100种语言，能处理长达3.2万个字符的文本，而且对硬件要求相对友好，特别适合想要快速搭建智能搜索系统的开发者。

今天我就带你从零开始，一步步把这个模型跑起来，并把它集成到你的应用里。整个过程就像搭积木一样简单，即使你之前没接触过AI模型部署，也能跟着做下来。

2. 环境准备：搭建你的AI工作台

在开始之前，我们需要先准备好运行环境。别担心，这个过程就像安装一个普通软件一样简单。

2.1 检查你的电脑配置

首先确认一下你的电脑是否满足基本要求：

操作系统：Windows 10/11、macOS 10.15+、或者Ubuntu 18.04+都可以
Python版本：需要Python 3.8或更高版本，我推荐用Python 3.10，稳定性最好
内存：至少8GB，如果同时运行其他程序，建议16GB以上
硬盘空间：模型文件大约需要1.2GB空间
GPU（可选）：有NVIDIA显卡的话速度会快很多，没有的话用CPU也能跑

怎么检查你的Python版本呢？打开命令行（Windows上是CMD或PowerShell，macOS/Linux上是终端），输入：

python --version
# 或者
python3 --version

如果显示的是3.8、3.9、3.10这样的版本号，那就没问题。如果版本太低或者没有安装Python，可以去Python官网下载安装最新版本。

2.2 安装必需的软件包

接下来安装模型运行需要的各种“零件”。我建议先创建一个独立的“工作空间”，这样不会和你电脑上其他项目冲突。

# 创建一个专门的文件夹来放这个项目
mkdir qwen3-reranker-project
cd qwen3-reranker-project

# 创建虚拟环境（相当于一个独立的工具箱）
python3.10 -m venv qwen-env

# 激活虚拟环境
# 在Windows上：
qwen-env\Scripts\activate
# 在macOS/Linux上：
source qwen-env/bin/activate

# 安装核心依赖包
pip install torch==2.0.0 transformers==4.51.0 gradio==4.0.0
pip install accelerate safetensors sentencepiece

# 验证安装是否成功
python -c "import torch; print('Torch安装成功，版本：', torch.__version__)"

如果一切顺利，你会看到Torch的版本号显示出来。这里有个小技巧：如果你有NVIDIA显卡并且安装了CUDA，Torch会自动使用GPU加速。如果没有显卡，它也会正常工作，只是速度会慢一些。

3. 获取模型：两种简单方法任选

模型文件就像这个AI系统的“大脑”，我们需要先把它下载到本地。这里给你两种方法，选你觉得方便的就行。

3.1 方法一：用代码自动下载（推荐）

如果你能正常访问网络，这是最简单的方法。创建一个Python脚本，让它自动从网上下载所有需要的文件。

# download_model.py
from transformers import AutoModel, AutoTokenizer
import os

# 指定模型名称
model_name = "Qwen/Qwen3-Reranker-0.6B"

# 指定保存路径
save_path = "./qwen3-reranker-model"

print("开始下载模型，这可能需要几分钟时间...")
print("模型大小约1.2GB，请确保网络连接稳定")

try:
    # 下载模型
    model = AutoModel.from_pretrained(model_name)
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    
    # 保存到本地
    model.save_pretrained(save_path)
    tokenizer.save_pretrained(save_path)
    
    print(f"✓ 模型下载完成！保存在：{save_path}")
    print(f"✓ 模型文件大小：{sum(os.path.getsize(os.path.join(save_path, f)) for f in os.listdir(save_path) if os.path.isfile(os.path.join(save_path, f))) / 1024**3:.2f} GB")
    
except Exception as e:
    print(f"下载失败：{e}")
    print("请检查网络连接，或者使用方法二手动下载")

运行这个脚本：

python download_model.py

下载过程中你会看到进度条，整个过程大概需要5-10分钟，取决于你的网速。

3.2 方法二：手动下载和放置

如果自动下载不成功，你可以手动下载模型文件。模型文件通常包括：

config.json - 模型配置文件
model.safetensors - 主要的模型权重文件
tokenizer.json - 分词器配置
tokenizer_config.json - 分词器设置

把这些文件放在同一个文件夹里，比如 ./qwen3-reranker-model，确保文件夹结构是这样的：

qwen3-reranker-model/
├── config.json
├── model.safetensors
├── tokenizer.json
├── tokenizer_config.json
└── (其他相关文件)

4. 启动Web服务：一键开启AI能力

模型下载好后，我们就可以启动一个Web服务，这样就能通过浏览器或者代码来使用它了。

4.1 创建启动脚本

我们先创建一个简单的启动脚本，这样以后每次启动就方便了。

# app.py - 主程序文件
import gradio as gr
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import torch
import time

# 加载模型和分词器
print("正在加载模型，请稍候...")
start_time = time.time()

model_path = "./qwen3-reranker-model"  # 修改为你的模型路径

# 加载模型
model = AutoModelForSequenceClassification.from_pretrained(
    model_path,
    torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
    device_map="auto"
)

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)

load_time = time.time() - start_time
print(f"✓ 模型加载完成！耗时：{load_time:.1f}秒")
print(f"✓ 使用设备：{'GPU' if torch.cuda.is_available() else 'CPU'}")

def rerank_documents(query, documents_text, instruction="", batch_size=8):
    """
    重排序文档的主函数
    """
    # 把文本分割成文档列表
    documents = [doc.strip() for doc in documents_text.strip().split('\n') if doc.strip()]
    
    if not documents:
        return "请至少输入一个文档"
    
    # 准备输入
    pairs = [[query, doc] for doc in documents]
    
    try:
        # 编码输入
        inputs = tokenizer(
            pairs,
            padding=True,
            truncation=True,
            max_length=512,
            return_tensors="pt"
        )
        
        # 移动到模型所在的设备
        inputs = {k: v.to(model.device) for k, v in inputs.items()}
        
        # 推理
        with torch.no_grad():
            outputs = model(**inputs)
            scores = outputs.logits[:, 0].cpu().numpy()
        
        # 按分数排序
        sorted_indices = scores.argsort()[::-1]  # 从高到低排序
        sorted_docs = [documents[i] for i in sorted_indices]
        sorted_scores = [float(scores[i]) for i in sorted_indices]
        
        # 格式化输出
        result = "重排序结果：\n\n"
        for i, (doc, score) in enumerate(zip(sorted_docs, sorted_scores), 1):
            result += f"{i}. [分数：{score:.4f}] {doc}\n"
        
        return result
        
    except Exception as e:
        return f"处理出错：{str(e)}"

# 创建Gradio界面
demo = gr.Interface(
    fn=rerank_documents,
    inputs=[
        gr.Textbox(label="查询问题", placeholder="输入你要搜索的问题..."),
        gr.Textbox(label="候选文档", placeholder="每行输入一个文档...", lines=10),
        gr.Textbox(label="任务指令（可选）", placeholder="例如：Given a web search query, retrieve relevant passages..."),
        gr.Slider(minimum=1, maximum=32, value=8, step=1, label="批处理大小")
    ],
    outputs=gr.Textbox(label="排序结果", lines=15),
    title="Qwen3-Reranker-0.6B 文档重排序",
    description="输入查询问题和候选文档，模型会按相关性重新排序",
    examples=[
        [
            "What is the capital of China?",
            "Beijing is the capital of China.\nGravity is a force that attracts two bodies.\nThe sky appears blue because of Rayleigh scattering.",
            "Given a web search query, retrieve relevant passages",
            8
        ],
        [
            "解释量子力学",
            "量子力学是物理学的一个分支，主要研究微观粒子的运动规律。\n今天天气很好，适合外出游玩。\n苹果是一种常见的水果，富含维生素。",
            "Given a query, retrieve relevant passages in Chinese",
            8
        ]
    ]
)

# 启动服务
if __name__ == "__main__":
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False
    )

4.2 创建便捷的启动脚本

为了让启动更简单，我们再创建一个启动脚本：

# start.sh (macOS/Linux)
#!/bin/bash

echo "=== Qwen3-Reranker-0.6B 启动脚本 ==="
echo ""

# 检查Python版本
echo "检查Python版本..."
python3 --version

echo ""
echo "检查依赖包..."
pip list | grep -E "(torch|transformers|gradio)" || echo "部分依赖未找到，请先安装"

echo ""
echo "启动Web服务..."
echo "服务将在 http://localhost:7860 启动"
echo "按 Ctrl+C 停止服务"
echo ""

python3 app.py

:: start.bat (Windows)
@echo off
echo === Qwen3-Reranker-0.6B 启动脚本 ===
echo.

echo 检查Python版本...
python --version

echo.
echo 检查依赖包...
pip list | findstr "torch transformers gradio" || echo 部分依赖未找到，请先安装

echo.
echo 启动Web服务...
echo 服务将在 http://localhost:7860 启动
echo 按 Ctrl+C 停止服务
echo.

python app.py

给启动脚本添加执行权限（macOS/Linux）：

chmod +x start.sh

4.3 启动服务

现在一切就绪，启动服务：

# 确保你在虚拟环境中
source qwen-env/bin/activate  # macOS/Linux
# 或者
qwen-env\Scripts\activate     # Windows

# 启动服务
./start.sh  # macOS/Linux
# 或者
start.bat   # Windows

你会看到类似这样的输出：

=== Qwen3-Reranker-0.6B 启动脚本 ===

检查Python版本...
Python 3.10.12

检查依赖包...
torch                         2.0.0
transformers                  4.51.0
gradio                        4.0.0

启动Web服务...
服务将在 http://localhost:7860 启动
按 Ctrl+C 停止服务

正在加载模型，请稍候...
✓ 模型加载完成！耗时：45.3秒
✓ 使用设备：GPU
Running on local URL:  http://0.0.0.0:7860

第一次启动时，模型加载可能需要30-60秒，这是正常的。加载完成后，打开浏览器访问 http://localhost:7860，你就能看到Web界面了。

5. 实际使用：从简单到复杂的例子

现在服务已经跑起来了，让我们看看怎么用它来解决实际问题。

5.1 基础使用：Web界面操作

打开浏览器访问 http://localhost:7860，你会看到一个简洁的界面：

在“查询问题”框里输入你要搜索的问题
在“候选文档”框里输入多个文档，每行一个
（可选）在“任务指令”框里输入特定的指令
点击“提交”按钮

让我们试几个例子：

例子1：简单的问答排序

查询问题：什么是人工智能？

候选文档：
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
机器学习是人工智能的一个分支，它使计算机能够在没有明确编程的情况下学习。
Python是一种高级编程语言，广泛用于数据科学和人工智能领域。
深度学习使用神经网络来模拟人脑的工作方式，是机器学习的一个子领域。

点击提交后，模型会重新排序这些文档，把最相关的放在最前面。你会看到类似这样的结果：

重排序结果：

1. [分数：0.9521] 人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
2. [分数：0.8314] 机器学习是人工智能的一个分支，它使计算机能够在没有明确编程的情况下学习。
3. [分数：0.7892] 深度学习使用神经网络来模拟人脑的工作方式，是机器学习的一个子领域。
4. [分数：0.1235] Python是一种高级编程语言，广泛用于数据科学和人工智能领域。

例子2：多语言支持

这个模型支持100多种语言，试试中文：

查询问题：如何学习编程？

候选文档：
学习编程首先要选择一门合适的语言，比如Python或JavaScript。
每天坚持练习是提高编程技能的关键。
阅读优秀的开源代码可以帮助你学习最佳实践。
编程不仅仅是写代码，还包括调试、测试和文档编写。

5.2 进阶技巧：使用任务指令

任务指令就像给模型一个“提示”，告诉它应该以什么标准来排序。不同的指令可以让模型更好地适应特定场景。

网页搜索场景：

任务指令：Given a web search query, retrieve relevant passages that answer the query

学术文献检索：

任务指令：Given an academic query, retrieve relevant research papers and scholarly articles

代码搜索：

任务指令：Given a code query, retrieve relevant code snippets and programming solutions

客服问答：

任务指令：Given a customer question, retrieve the most helpful and accurate answers from knowledge base

试试这个例子：

查询问题：Python中如何读取文件？

候选文档：
在Python中，可以使用open()函数打开文件。
使用pandas库可以方便地处理数据。
文件读取后要记得关闭，或者使用with语句自动管理。
JavaScript是另一种流行的编程语言。

任务指令：Given a programming query, retrieve relevant code examples and explanations

加了指令后，模型会更关注编程相关的解释和代码示例。

6. 编程调用：把AI能力集成到你的应用

Web界面适合测试和演示，但真正的威力在于通过API把它集成到你的应用里。下面我教你几种编程调用的方法。

6.1 基础API调用

最简单的方式是使用HTTP请求调用我们的Web服务：

# api_client.py
import requests
import json
from typing import List, Optional

class QwenRerankerClient:
    def __init__(self, base_url: str = "http://localhost:7860"):
        """
        初始化客户端
        """
        self.base_url = base_url
        self.api_url = f"{base_url}/api/predict"
    
    def rerank(self, 
               query: str, 
               documents: List[str], 
               instruction: str = "",
               batch_size: int = 8) -> Optional[List[dict]]:
        """
        调用重排序API
        
        参数：
        - query: 查询文本
        - documents: 文档列表
        - instruction: 任务指令（可选）
        - batch_size: 批处理大小
        
        返回：
        - 排序后的文档列表，每个文档包含内容和分数
        """
        # 准备请求数据
        payload = {
            "data": [
                query,
                "\n".join(documents),
                instruction,
                batch_size
            ]
        }
        
        try:
            # 发送请求
            response = requests.post(
                self.api_url,
                json=payload,
                timeout=30  # 30秒超时
            )
            response.raise_for_status()  # 检查HTTP错误
            
            # 解析响应
            result = response.json()
            return self._parse_response(result)
            
        except requests.exceptions.RequestException as e:
            print(f"API调用失败: {e}")
            return None
        except json.JSONDecodeError as e:
            print(f"响应解析失败: {e}")
            return None
    
    def _parse_response(self, response_data):
        """
        解析API响应
        """
        # 这里根据实际的API响应格式进行调整
        # 假设响应是排序后的文本
        if isinstance(response_data, str):
            # 解析文本格式的响应
            lines = response_data.strip().split('\n')
            results = []
            for line in lines:
                if line.startswith(('1.', '2.', '3.', '4.', '5.')):
                    # 解析格式： "1. [分数：0.9521] 文档内容"
                    parts = line.split('] ', 1)
                    if len(parts) == 2:
                        score_text = parts[0].split('[分数：')[1]
                        score = float(score_text)
                        content = parts[1]
                        results.append({
                            'content': content,
                            'score': score,
                            'rank': len(results) + 1
                        })
            return results
        elif isinstance(response_data, dict):
            # 如果是JSON格式的响应
            return response_data.get('data', [])
        else:
            return []
    
    def print_results(self, results: List[dict]):
        """
        漂亮地打印结果
        """
        if not results:
            print("没有结果")
            return
        
        print(f"\n找到 {len(results)} 个文档，按相关性排序：")
        print("-" * 80)
        
        for i, item in enumerate(results, 1):
            content = item['content']
            score = item.get('score', 0)
            
            # 截断过长的内容
            if len(content) > 100:
                display_content = content[:97] + "..."
            else:
                display_content = content
            
            print(f"{i:2d}. [分数：{score:.4f}] {display_content}")

# 使用示例
if __name__ == "__main__":
    # 创建客户端
    client = QwenRerankerClient()
    
    # 测试查询
    query = "什么是机器学习？"
    documents = [
        "机器学习是人工智能的一个分支，让计算机通过数据自动学习改进。",
        "Python是一种流行的编程语言，广泛用于数据科学和机器学习。",
        "深度学习是机器学习的一个子领域，使用神经网络处理复杂模式。",
        "统计学是数学的一个分支，涉及数据收集、分析和解释。",
        "数据库是存储和管理数据的系统。"
    ]
    
    print(f"查询：{query}")
    print(f"候选文档：{documents}")
    print("\n正在调用重排序API...")
    
    # 调用API
    results = client.rerank(query, documents)
    
    # 显示结果
    if results:
        client.print_results(results)
    else:
        print("API调用失败")

运行这个脚本：

python api_client.py

你会看到排序后的结果，最相关的文档排在最前面。

6.2 直接调用模型（不通过Web服务）

如果你需要在Python项目中直接使用模型，而不是通过HTTP API，可以这样：

# direct_usage.py
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from typing import List, Tuple

class DirectReranker:
    def __init__(self, model_path: str = "./qwen3-reranker-model"):
        """
        直接加载模型使用
        """
        print("加载模型中...")
        
        # 检查是否有GPU
        self.device = "cuda" if torch.cuda.is_available() else "cpu"
        print(f"使用设备：{self.device}")
        
        # 加载模型和分词器
        self.model = AutoModelForSequenceClassification.from_pretrained(
            model_path,
            torch_dtype=torch.float16 if self.device == "cuda" else torch.float32,
            device_map="auto"
        )
        self.tokenizer = AutoTokenizer.from_pretrained(model_path)
        
        # 设置为评估模式
        self.model.eval()
        print("模型加载完成！")
    
    def rerank(self, 
               query: str, 
               documents: List[str],
               batch_size: int = 8) -> List[Tuple[str, float]]:
        """
        直接使用模型进行重排序
        
        返回：
        - 列表，每个元素是(文档内容, 分数)的元组，按分数从高到低排序
        """
        if not documents:
            return []
        
        # 准备查询-文档对
        pairs = [[query, doc] for doc in documents]
        
        all_scores = []
        
        # 分批处理
        for i in range(0, len(pairs), batch_size):
            batch_pairs = pairs[i:i + batch_size]
            
            # 编码
            inputs = self.tokenizer(
                batch_pairs,
                padding=True,
                truncation=True,
                max_length=512,
                return_tensors="pt"
            )
            
            # 移动到正确的设备
            inputs = {k: v.to(self.model.device) for k, v in inputs.items()}
            
            # 推理
            with torch.no_grad():
                outputs = self.model(**inputs)
                batch_scores = outputs.logits[:, 0].cpu().numpy()
                all_scores.extend(batch_scores)
        
        # 组合结果并排序
        results = list(zip(documents, all_scores))
        results.sort(key=lambda x: x[1], reverse=True)
        
        return results
    
    def rerank_with_scores(self, query: str, documents: List[str]) -> List[dict]:
        """
        返回更详细的结果
        """
        ranked = self.rerank(query, documents)
        
        results = []
        for rank, (doc, score) in enumerate(ranked, 1):
            results.append({
                'rank': rank,
                'content': doc,
                'score': float(score),
                'relevance': self._score_to_relevance(score)
            })
        
        return results
    
    def _score_to_relevance(self, score: float) -> str:
        """
        将分数转换为可读的相关性描述
        """
        if score > 0.9:
            return "高度相关"
        elif score > 0.7:
            return "相关"
        elif score > 0.5:
            return "一般相关"
        elif score > 0.3:
            return "略微相关"
        else:
            return "不相关"

# 使用示例
if __name__ == "__main__":
    # 初始化重排序器
    reranker = DirectReranker()
    
    # 测试数据
    test_query = "如何学习Python编程？"
    test_docs = [
        "Python是一种易于学习的编程语言，适合初学者。",
        "学习编程需要掌握算法和数据结构。",
        "可以通过在线课程、书籍和实践项目来学习Python。",
        "Java是另一种流行的编程语言。",
        "Python有丰富的库，适合数据科学和Web开发。"
    ]
    
    print(f"查询：{test_query}")
    print(f"候选文档数量：{len(test_docs)}")
    print("\n开始重排序...")
    
    # 执行重排序
    results = reranker.rerank_with_scores(test_query, test_docs)
    
    # 显示结果
    print("\n重排序结果：")
    print("=" * 80)
    for item in results:
        print(f"{item['rank']:2d}. [{item['relevance']}] (分数：{item['score']:.4f})")
        print(f"    {item['content']}")
        print()

这种方法的好处是延迟更低，不需要网络请求，适合对性能要求高的场景。

7. 实战应用：把重排序用到实际项目中

现在你知道了怎么使用这个模型，让我们看看它能用在哪些实际场景中。

7.1 场景一：智能搜索系统

假设你正在构建一个文档搜索系统，用户输入问题，系统从大量文档中找出最相关的答案。

# search_system.py
import json
from typing import List, Dict
from direct_usage import DirectReranker  # 使用上面定义的类

class SmartSearchSystem:
    def __init__(self, knowledge_base_path: str = "knowledge_base.json"):
        """
        智能搜索系统
        """
        # 加载知识库
        with open(knowledge_base_path, 'r', encoding='utf-8') as f:
            self.knowledge_base = json.load(f)
        
        # 初始化重排序模型
        self.reranker = DirectReranker()
        
        print(f"知识库加载完成，共 {len(self.knowledge_base)} 条记录")
    
    def search(self, query: str, top_k: int = 10) -> List[Dict]:
        """
        搜索知识库
        """
        # 第一步：粗筛（这里简化处理，实际可以用更复杂的检索方法）
        # 简单的关键词匹配
        candidate_docs = []
        for item in self.knowledge_base:
            doc_text = f"{item['title']}。{item['content']}"
            # 简单的关键词匹配作为初筛
            if any(keyword in doc_text for keyword in query.split()):
                candidate_docs.append(doc_text)
        
        if not candidate_docs:
            # 如果没有匹配的，返回所有文档
            candidate_docs = [f"{item['title']}。{item['content']}" 
                             for item in self.knowledge_base[:50]]  # 限制数量
        
        print(f"初筛得到 {len(candidate_docs)} 个候选文档")
        
        # 第二步：精排（使用重排序模型）
        if len(candidate_docs) > 1:
            ranked_results = self.reranker.rerank(query, candidate_docs)
            # 取前top_k个
            ranked_docs = ranked_results[:top_k]
        else:
            ranked_docs = [(candidate_docs[0], 0.5)] if candidate_docs else []
        
        # 第三步：格式化结果
        results = []
        for i, (doc_text, score) in enumerate(ranked_docs, 1):
            # 从文档文本中提取标题和内容
            if "。" in doc_text:
                title, content = doc_text.split("。", 1)
            else:
                title, content = doc_text, ""
            
            results.append({
                'rank': i,
                'title': title,
                'content': content,
                'score': float(score),
                'relevance': self._get_relevance_label(score)
            })
        
        return results
    
    def _get_relevance_label(self, score: float) -> str:
        """根据分数获取相关性标签"""
        if score > 0.8:
            return "★★★★★ 高度相关"
        elif score > 0.6:
            return "★★★★☆ 相关"
        elif score > 0.4:
            return "★★★☆☆ 一般相关"
        elif score > 0.2:
            return "★★☆☆☆ 略微相关"
        else:
            return "★☆☆☆☆ 不相关"
    
    def print_search_results(self, query: str, results: List[Dict]):
        """打印搜索结果"""
        print(f"\n搜索查询：{query}")
        print(f"找到 {len(results)} 个相关结果")
        print("=" * 80)
        
        for result in results:
            print(f"{result['rank']:2d}. {result['relevance']}")
            print(f"    标题：{result['title']}")
            
            # 截断过长的内容
            content = result['content']
            if len(content) > 150:
                content = content[:147] + "..."
            
            print(f"    内容：{content}")
            print(f"    分数：{result['score']:.4f}")
            print()

# 创建示例知识库
def create_sample_knowledge_base():
    """创建示例知识库"""
    knowledge_base = [
        {
            "id": 1,
            "title": "Python基础语法",
            "content": "Python使用缩进来表示代码块，不需要大括号。变量不需要声明类型，可以直接赋值。"
        },
        {
            "id": 2,
            "title": "Python函数定义",
            "content": "使用def关键字定义函数，可以指定参数和返回值。函数可以返回多个值。"
        },
        {
            "id": 3,
            "title": "Python列表操作",
            "content": "列表是Python中最常用的数据结构，可以存储任意类型的元素，支持索引和切片。"
        },
        {
            "id": 4,
            "title": "机器学习简介",
            "content": "机器学习是人工智能的一个分支，让计算机从数据中学习模式，而不是明确编程。"
        },
        {
            "id": 5,
            "title": "深度学习基础",
            "content": "深度学习使用神经网络模拟人脑，在图像识别、自然语言处理等领域表现出色。"
        }
    ]
    
    # 保存到文件
    with open("knowledge_base.json", 'w', encoding='utf-8') as f:
        json.dump(knowledge_base, f, ensure_ascii=False, indent=2)
    
    return knowledge_base

# 使用示例
if __name__ == "__main__":
    # 创建示例知识库
    create_sample_knowledge_base()
    
    # 创建搜索系统
    search_system = SmartSearchSystem("knowledge_base.json")
    
    # 测试搜索
    test_queries = [
        "Python怎么定义函数",
        "什么是机器学习",
        "列表怎么使用"
    ]
    
    for query in test_queries:
        results = search_system.search(query, top_k=3)
        search_system.print_search_results(query, results)

7.2 场景二：智能客服问答排序

在客服系统中，用户的问题可能对应多个可能的答案，重排序可以帮助找到最合适的回答。

# customer_service.py
class CustomerServiceReranker:
    def __init__(self):
        """智能客服重排序器"""
        self.reranker = DirectReranker()
        
        # 示例FAQ库
        self.faq_database = [
            {
                "question": "如何重置密码？",
                "answer": "请访问登录页面，点击'忘记密码'链接，按照提示操作。",
                "category": "账户问题"
            },
            {
                "question": "产品怎么退货？",
                "answer": "在订单页面选择要退货的商品，填写退货原因，我们会安排快递上门取件。",
                "category": "售后问题"
            },
            {
                "question": "运费是多少？",
                "answer": "普通地区运费10元，偏远地区15元，满99元包邮。",
                "category": "运费问题"
            },
            # ... 更多FAQ
        ]
    
    def find_best_answer(self, user_question: str) -> dict:
        """
        为用户问题找到最佳答案
        """
        # 提取所有答案作为候选
        candidate_answers = [item["answer"] for item in self.faq_database]
        candidate_questions = [item["question"] for item in self.faq_database]
        
        # 组合问题和答案作为文档
        candidate_docs = [
            f"问题：{q}。答案：{a}"
            for q, a in zip(candidate_questions, candidate_answers)
        ]
        
        # 使用重排序
        ranked_results = self.reranker.rerank(user_question, candidate_docs)
        
        if not ranked_results:
            return {"answer": "抱歉，我暂时无法回答这个问题。", "confidence": 0.0}
        
        # 获取最佳答案
        best_doc, best_score = ranked_results[0]
        
        # 解析文档，提取答案
        if "答案：" in best_doc:
            answer = best_doc.split("答案：")[1]
        else:
            answer = best_doc
        
        return {
            "answer": answer,
            "confidence": float(best_score),
            "source": "FAQ知识库"
        }
    
    def handle_customer_query(self, query: str):
        """处理客户查询"""
        print(f"客户问题：{query}")
        print("正在搜索最佳答案...")
        
        result = self.find_best_answer(query)
        
        print(f"\n最佳答案（置信度：{result['confidence']:.2%}）：")
        print(f"{result['answer']}")
        print(f"来源：{result['source']}")
        
        # 根据置信度决定是否转人工
        if result['confidence'] < 0.3:
            print("\n⚠️  置信度较低，建议转人工客服")
        
        return result

# 使用示例
if __name__ == "__main__":
    service = CustomerServiceReranker()
    
    test_queries = [
        "我忘记密码了怎么办？",
        "想退货怎么操作？",
        "快递要多少钱？"
    ]
    
    for query in test_queries:
        print("\n" + "="*60)
        service.handle_customer_query(query)
        print("="*60)

8. 性能优化和问题解决

在实际使用中，你可能会遇到一些性能问题或者错误。这里是一些常见问题的解决方法。

8.1 调整批处理大小提升速度

批处理大小会影响推理速度和内存使用。你可以根据你的硬件调整这个参数：

# 根据你的硬件选择合适的批处理大小
HARDWARE_CONFIG = {
    "high_end_gpu": {  # 高端GPU (24GB+ 显存)
        "batch_size": 32,
        "use_half_precision": True
    },
    "mid_range_gpu": {  # 中端GPU (8-16GB 显存)
        "batch_size": 16,
        "use_half_precision": True
    },
    "low_end_gpu": {  # 低端GPU (4-8GB 显存)
        "batch_size": 8,
        "use_half_precision": True
    },
    "cpu_only": {  # 仅CPU
        "batch_size": 4,
        "use_half_precision": False
    }
}

def get_optimal_config():
    """获取最优配置"""
    import torch
    
    if torch.cuda.is_available():
        gpu_memory = torch.cuda.get_device_properties(0).total_memory / 1024**3  # GB
        
        if gpu_memory >= 24:
            return HARDWARE_CONFIG["high_end_gpu"]
        elif gpu_memory >= 8:
            return HARDWARE_CONFIG["mid_range_gpu"]
        else:
            return HARDWARE_CONFIG["low_end_gpu"]
    else:
        return HARDWARE_CONFIG["cpu_only"]

# 使用最优配置
config = get_optimal_config()
print(f"推荐配置：批处理大小={config['batch_size']}, 半精度={config['use_half_precision']}")

8.2 常见错误和解决方法

错误1：内存不足

RuntimeError: CUDA out of memory

解决方法：

减小批处理大小
使用CPU模式（速度会慢一些）
关闭其他占用显存的程序

# 强制使用CPU
model = AutoModelForSequenceClassification.from_pretrained(
    model_path,
    device_map="cpu"  # 使用CPU
)

错误2：端口被占用

OSError: [Errno 98] Address already in use

解决方法：

# 查找占用7860端口的进程
lsof -i :7860  # macOS/Linux
# 或
netstat -ano | findstr :7860  # Windows

# 停止该进程，或换一个端口
python app.py --port 7861

错误3：模型加载失败

OSError: Unable to load weights from pytorch checkpoint file

解决方法：

检查模型文件是否完整
确保transformers版本 >= 4.51.0
重新下载模型文件

# 升级transformers
pip install transformers --upgrade

# 验证文件完整性
import os
model_path = "./qwen3-reranker-model"
required_files = ["config.json", "model.safetensors", "tokenizer.json"]
for file in required_files:
    file_path = os.path.join(model_path, file)
    if os.path.exists(file_path):
        print(f"✓ {file} 存在")
    else:
        print(f"✗ {file} 缺失")

8.3 监控和日志

在生产环境中，添加监控和日志很重要：

# monitoring.py
import time
import logging
from functools import wraps

# 配置日志
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('reranker.log'),
        logging.StreamHandler()
    ]
)
logger = logging.getLogger(__name__)

def log_performance(func):
    """性能监控装饰器"""
    @wraps(func)
    def wrapper(*args, **kwargs):
        start_time = time.time()
        
        try:
            result = func(*args, **kwargs)
            elapsed_time = time.time() - start_time
            
            # 记录性能指标
            logger.info(f"{func.__name__} 执行时间: {elapsed_time:.3f}秒")
            
            # 如果有文档数量信息，记录更多指标
            if 'documents' in kwargs:
                doc_count = len(kwargs['documents'])
                logger.info(f"处理文档数: {doc_count}, 平均每文档: {elapsed_time/max(doc_count, 1):.3f}秒")
            
            return result
            
        except Exception as e:
            logger.error(f"{func.__name__} 执行失败: {str(e)}")
            raise
    
    return wrapper

# 使用装饰器
@log_performance
def rerank_with_monitoring(query, documents):
    """带监控的重排序函数"""
    # 这里调用实际的重排序逻辑
    # ...
    pass

# 定期检查资源使用
def monitor_resources():
    """监控资源使用情况"""
    import psutil
    import torch
    
    # CPU使用率
    cpu_percent = psutil.cpu_percent(interval=1)
    
    # 内存使用
    memory = psutil.virtual_memory()
    
    # GPU内存（如果可用）
    gpu_memory = None
    if torch.cuda.is_available():
        gpu_memory = torch.cuda.memory_allocated() / 1024**3  # GB
    
    logger.info(f"CPU使用率: {cpu_percent}%")
    logger.info(f"内存使用: {memory.percent}%")
    if gpu_memory:
        logger.info(f"GPU内存使用: {gpu_memory:.2f}GB")
    
    return {
        'cpu_percent': cpu_percent,
        'memory_percent': memory.percent,
        'gpu_memory_gb': gpu_memory
    }