通义千问3-Reranker-0.6B部署教程：10分钟搞定智能代码检索

本文介绍了如何在星图GPU平台上自动化部署通义千问3-Reranker-0.6B镜像，快速搭建智能代码检索系统。该平台简化了部署流程，用户可轻松启动一个能理解代码语义的智能助手，应用于在大型项目代码库中精准定位特定功能模块，从而显著提升开发者的搜索效率。

老光私享

362人浏览 · 2026-03-20 00:05:00

老光私享 · 2026-03-20 00:05:00 发布

通义千问3-Reranker-0.6B部署教程：10分钟搞定智能代码检索

1. 为什么你需要一个懂代码的智能助手？

想象一下这个场景：你正在维护一个超过10万行代码的微服务项目，突然接到一个紧急需求——需要修改用户登录时的安全验证逻辑。你隐约记得几个月前有同事写过相关的工具类，但具体在哪个模块、哪个文件里，完全想不起来。用IDE的全局搜索功能，输入“安全验证”，结果返回了87个文件，从SecurityConfig.java到UserValidator.java，再到各种AuthFilter、PermissionChecker，你只能一个个点开查看，半小时过去了，还没找到真正需要的那段核心代码。

这就是传统代码搜索的困境：它只能做字符串匹配，无法理解你的真实意图。你输入“安全验证”，它不知道你其实想找的是“处理JWT令牌刷新时防止重放攻击”的具体实现。这种低效的搜索方式，每天都在消耗着开发者的宝贵时间。

通义千问3-Reranker-0.6B就是为了解决这个问题而生的。它不是一个简单的文本匹配工具，而是一个真正理解代码语义的智能助手。当你输入“如何防止JWT重放攻击”时，它能从海量代码中精准定位到那个实现了ReplayAttackProtector的类，并且告诉你这个类在security/token目录下，最近一次修改是在两周前，被三个其他模块调用过。

更关键的是，这个模型只有0.6B参数，1.2GB大小，在一台普通的开发笔记本上就能流畅运行。你不需要准备昂贵的GPU服务器，不需要复杂的部署流程，甚至不需要深度学习背景。接下来，我就带你用10分钟时间，从零开始部署这个智能代码检索系统。

2. 环境准备：比你想的还要简单

很多人一听到“AI模型部署”就觉得头大，担心需要配置复杂的CUDA环境、安装各种依赖、解决版本冲突问题。但通义千问3-Reranker-0.6B的设计理念就是“开箱即用”，整个部署过程比安装一个IDE插件还要简单。

2.1 硬件要求：你的笔记本就够用

首先看看你需要准备什么：

CPU：现代多核处理器即可（Intel i5/Ryzen 5以上）
内存：8GB以上（推荐16GB）
存储：至少5GB可用空间（用于存放模型文件）
GPU（可选）：如果有NVIDIA显卡（GTX 1060 6GB或以上），速度会快很多；没有GPU也能用CPU运行，只是稍微慢一点
操作系统：Linux、macOS、Windows WSL都可以

我是在一台ThinkPad T14（i7-1165G7，16GB内存，无独立显卡）上完成的所有测试，完全没问题。如果你有RTX 3060或以上的显卡，那体验会更好，但绝对不是必须的。

2.2 软件环境：一行命令搞定

确保你的系统已经安装了Python 3.8或更高版本。打开终端，创建一个专门的虚拟环境（这能避免包版本冲突）：

# 创建虚拟环境
python -m venv qwen_reranker_env

# 激活虚拟环境
# Linux/macOS
source qwen_reranker_env/bin/activate
# Windows
qwen_reranker_env\Scripts\activate

# 升级pip
pip install --upgrade pip

现在安装核心依赖，只需要这一条命令：

pip install torch transformers gradio accelerate

这里有个小技巧：如果你有NVIDIA显卡，建议安装带CUDA支持的PyTorch，这样推理速度会快很多。访问PyTorch官网获取适合你系统的安装命令。比如对于CUDA 11.8：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

如果没有GPU或者不确定，直接用上面的pip install torch就行，它会安装CPU版本。

安装完成后，用下面的代码测试一下环境是否正常：

import torch
print(f"PyTorch版本: {torch.__version__}")
print(f"CUDA是否可用: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"GPU型号: {torch.cuda.get_device_name(0)}")

如果看到CUDA可用（有GPU时）或者版本信息正常输出，说明环境准备就绪。整个过程通常不超过5分钟。

3. 三步部署：启动你的智能代码搜索引擎

环境准备好了，现在开始真正的部署。通义千问3-Reranker-0.6B提供了两种启动方式：一种是直接运行Python脚本，另一种是用官方的一键启动脚本。我推荐后者，因为它更简单，而且包含了所有必要的配置。

3.1 第一步：获取模型文件

首先需要下载模型文件。模型托管在Hugging Face上，我们可以用git命令直接克隆（需要先安装git）：

# 创建项目目录
mkdir qwen-reranker-demo
cd qwen-reranker-demo

# 下载模型（如果网络较慢，可以加上代理参数）
git lfs install
git clone https://huggingface.co/Qwen/Qwen3-Reranker-0.6B

如果下载速度慢或者遇到网络问题，也可以从镜像站下载。模型大小约1.2GB，下载时间取决于你的网络速度。下载完成后，目录结构应该是这样的：

qwen-reranker-demo/
└── Qwen3-Reranker-0.6B/
    ├── config.json
    ├── model.safetensors
    ├── tokenizer.json
    ├── tokenizer_config.json
    └── ...

3.2 第二步：编写启动脚本

在项目根目录创建一个app.py文件，这是我们的主程序：

import gradio as gr
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
import time

# 模型加载函数
def load_model():
    print("正在加载模型，请稍候...")
    start_time = time.time()
    
    # 指定模型路径（修改为你的实际路径）
    model_path = "./Qwen3-Reranker-0.6B"
    
    # 加载分词器
    tokenizer = AutoTokenizer.from_pretrained(
        model_path,
        trust_remote_code=True,
        padding_side='left'
    )
    
    # 加载模型
    model = AutoModelForCausalLM.from_pretrained(
        model_path,
        torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
        device_map="auto",
        trust_remote_code=True
    ).eval()
    
    # 获取yes/no的token ID
    token_yes_id = tokenizer.convert_tokens_to_ids("yes")
    token_no_id = tokenizer.convert_tokens_to_ids("no")
    
    load_time = time.time() - start_time
    print(f"模型加载完成，耗时: {load_time:.2f}秒")
    print(f"设备: {model.device}")
    
    return tokenizer, model, token_yes_id, token_no_id

# 重排序函数
def rerank_documents(query, documents, instruction="", batch_size=8):
    """
    对文档进行智能重排序
    
    Args:
        query: 查询文本
        documents: 文档列表（每行一个）
        instruction: 任务指令（可选）
        batch_size: 批处理大小
    """
    # 确保文档是列表格式
    if isinstance(documents, str):
        documents = [doc.strip() for doc in documents.split('\n') if doc.strip()]
    
    # 构建系统提示
    system_prompt = "<|im_start|>system\nJudge whether the Document meets the requirements based on the Query and the Instruct provided. Note that the answer can only be \"yes\" or \"no\".<|im_end|>\n<|im_start|>user\n"
    
    # 准备输入
    inputs = []
    for doc in documents:
        formatted_input = f"<Instruct>: {instruction}\n<Query>: {query}\n<Document>: {doc}"
        inputs.append(system_prompt + formatted_input + "<|im_end|>\n<|im_start|>assistant\n<think>\n\n</think>\n\n")
    
    # 分批处理
    scores = []
    for i in range(0, len(inputs), batch_size):
        batch_inputs = inputs[i:i+batch_size]
        
        # 编码
        encoded = tokenizer(
            batch_inputs,
            padding=True,
            truncation=True,
            max_length=8192,
            return_tensors="pt"
        )
        
        # 推理
        with torch.no_grad():
            encoded = encoded.to(model.device)
            outputs = model(**encoded)
            logits = outputs.logits[:, -1, :]
            
            # 计算yes的概率
            yes_logits = logits[:, token_yes_id]
            no_logits = logits[:, token_no_id]
            batch_scores = torch.nn.functional.softmax(
                torch.stack([no_logits, yes_logits], dim=1),
                dim=1
            )[:, 1].cpu().tolist()
        
        scores.extend(batch_scores)
    
    # 组合结果
    results = []
    for doc, score in zip(documents, scores):
        results.append({
            "document": doc,
            "score": score,
            "relevance": "高" if score > 0.7 else "中" if score > 0.3 else "低"
        })
    
    # 按分数排序
    results.sort(key=lambda x: x["score"], reverse=True)
    return results

# 创建Gradio界面
def create_interface():
    with gr.Blocks(title="通义千问3-Reranker-0.6B 代码搜索演示") as demo:
        gr.Markdown("# 🚀 通义千问3-Reranker-0.6B 智能代码搜索")
        gr.Markdown("输入你的查询和候选代码片段，系统会自动排序，把最相关的放在最前面")
        
        with gr.Row():
            with gr.Column(scale=1):
                query_input = gr.Textbox(
                    label="查询语句",
                    placeholder="例如：如何安全地解析JSON输入",
                    lines=2
                )
                
                instruction_input = gr.Textbox(
                    label="任务指令（可选）",
                    placeholder="例如：Given a Java code query, retrieve relevant code snippets",
                    value="Given a code query, retrieve relevant code snippets that implement the required functionality"
                )
                
                documents_input = gr.Textbox(
                    label="候选代码片段",
                    placeholder="每行输入一个代码片段\n例如：\npublic class JsonParser { ... }\nString json = \"{\\\"name\\\":\\\"test\\\"}\";\nObjectMapper mapper = new ObjectMapper();",
                    lines=10
                )
                
                batch_size_slider = gr.Slider(
                    minimum=1,
                    maximum=32,
                    value=8,
                    step=1,
                    label="批处理大小"
                )
                
                submit_btn = gr.Button("开始排序", variant="primary")
            
            with gr.Column(scale=2):
                output_table = gr.Dataframe(
                    label="排序结果",
                    headers=["文档", "相关性分数", "相关性等级"],
                    datatype=["str", "number", "str"],
                    interactive=False
                )
                
                with gr.Accordion("查看原始输出", open=False):
                    json_output = gr.JSON(label="详细结果")
        
        # 示例按钮
        with gr.Row():
            gr.Examples(
                examples=[
                    [
                        "如何安全地解析JSON输入",
                        "Given a Java code query, retrieve relevant code snippets that implement the required functionality",
                        "public class SafeJsonParser {\n    public static Object parse(String json) throws JsonParseException {\n        // 安全的JSON解析实现\n    }\n}\n\npublic class JsonUtils {\n    public static String toJson(Object obj) {\n        // 对象转JSON\n    }\n}\n\npublic class StringUtils {\n    public static boolean isEmpty(String str) {\n        return str == null || str.trim().isEmpty();\n    }\n}"
                    ]
                ],
                inputs=[query_input, instruction_input, documents_input],
                label="点击加载示例"
            )
        
        # 绑定事件
        submit_btn.click(
            fn=rerank_documents,
            inputs=[query_input, documents_input, instruction_input, batch_size_slider],
            outputs=[output_table, json_output]
        )
    
    return demo

# 主程序
if __name__ == "__main__":
    print("=" * 50)
    print("通义千问3-Reranker-0.6B 代码搜索系统")
    print("=" * 50)
    
    # 加载模型
    tokenizer, model, token_yes_id, token_no_id = load_model()
    
    # 创建界面
    demo = create_interface()
    
    # 启动服务
    print("\n服务启动中...")
    print("本地访问: http://localhost:7860")
    print("远程访问: http://你的服务器IP:7860")
    print("\n按 Ctrl+C 停止服务")
    
    demo.launch(
        server_name="0.0.0.0",
        server_port=7860,
        share=False
    )

这个脚本做了几件重要的事情：

自动检测是否有GPU，并选择合适的精度（有GPU用float16，没有用float32）
创建了一个美观的Web界面，你可以在浏览器里直接使用
实现了批处理功能，可以一次处理多个文档
添加了示例数据，方便你快速体验

3.3 第三步：一键启动服务

为了让启动更简单，我们再创建一个start.sh脚本（Windows用户可以用start.bat）：

#!/bin/bash
# start.sh - 一键启动脚本

echo "正在启动通义千问3-Reranker-0.6B代码搜索服务..."
echo ""

# 检查Python环境
if ! command -v python3 &> /dev/null; then
    echo "错误: 未找到python3，请先安装Python 3.8或更高版本"
    exit 1
fi

# 检查虚拟环境
if [ ! -d "qwen_reranker_env" ]; then
    echo "检测到未创建虚拟环境，正在创建..."
    python3 -m venv qwen_reranker_env
    source qwen_reranker_env/bin/activate
    pip install --upgrade pip
    pip install torch transformers gradio accelerate
    echo "虚拟环境创建完成"
else
    source qwen_reranker_env/bin/activate
fi

# 检查模型文件
if [ ! -d "Qwen3-Reranker-0.6B" ]; then
    echo "警告: 未找到模型文件"
    echo "请先下载模型: git clone https://huggingface.co/Qwen/Qwen3-Reranker-0.6B"
    echo "或从镜像站下载模型文件到当前目录"
    read -p "是否继续？(y/n): " -n 1 -r
    echo
    if [[ ! $REPLY =~ ^[Yy]$ ]]; then
        exit 1
    fi
fi

# 启动服务
echo "启动Web服务..."
echo "访问地址: http://localhost:7860"
echo "按 Ctrl+C 停止服务"
echo ""

python app.py

给脚本添加执行权限并运行：

# Linux/macOS
chmod +x start.sh
./start.sh

# Windows (用PowerShell)
# 创建start.bat文件，内容如下：
# @echo off
# python app.py
# 然后双击运行

看到“访问地址: http://localhost:7860”的提示后，打开浏览器访问这个地址，你就看到了一个完整的代码搜索界面。

4. 实战演练：从模糊搜索到精准定位

现在系统已经跑起来了，让我们用几个真实的代码搜索场景，看看它能做什么。

4.1 场景一：在大型项目中找特定功能

假设你正在开发一个电商系统，需要找一个“计算商品折扣价格”的函数。你记得这个功能存在，但不确定具体在哪个Service里。

在查询框输入：

计算商品折扣后的价格，考虑会员等级和促销活动

在文档框输入几个候选代码片段（每行一个）：

public class PriceCalculator {
    public BigDecimal calculate(BigDecimal originalPrice) {
        return originalPrice.multiply(new BigDecimal("0.95"));
    }
}

public class DiscountService {
    public BigDecimal applyDiscount(BigDecimal price, User user, Promotion promotion) {
        BigDecimal memberDiscount = getMemberDiscount(user.getLevel());
        BigDecimal promoDiscount = promotion.getDiscountRate();
        return price.multiply(BigDecimal.ONE.subtract(memberDiscount))
                   .multiply(BigDecimal.ONE.subtract(promoDiscount));
    }
}

public class OrderUtils {
    public static boolean validateOrder(Order order) {
        return order.getItems().size() > 0 && order.getTotalAmount().compareTo(BigDecimal.ZERO) > 0;
    }
}

public class Product {
    private String name;
    private BigDecimal price;
    // getters and setters
}

点击“开始排序”，你会看到结果：

文档	相关性分数	相关性等级
`public class DiscountService { ... }`	0.92	高
`public class PriceCalculator { ... }`	0.45	中
`public class Product { ... }`	0.12	低
`public class OrderUtils { ... }`	0.08	低

模型准确识别出DiscountService是最相关的，因为它不仅计算折扣，还考虑了会员等级和促销活动——这正是你查询中提到的关键点。而PriceCalculator虽然也计算价格，但逻辑太简单，没有考虑多种折扣因素。

4.2 场景二：理解代码的深层意图

有时候我们搜索的不是具体的关键词，而是某种设计模式或架构思想。比如你想找“使用观察者模式实现的事件通知系统”。

查询输入：

观察者模式，事件通知，当状态变化时自动通知所有监听器

文档输入：

// 简单的回调接口
public interface Callback {
    void execute();
}

// 使用Spring的事件机制
@Component
public class EventPublisher {
    @Autowired
    private ApplicationEventPublisher publisher;
    
    public void publishEvent(String message) {
        publisher.publishEvent(new CustomEvent(this, message));
    }
}

// 经典的观察者模式实现
public class Subject {
    private List<Observer> observers = new ArrayList<>();
    
    public void addObserver(Observer o) {
        observers.add(o);
    }
    
    public void notifyObservers() {
        for (Observer o : observers) {
            o.update();
        }
    }
}

// 简单的工具类
public class NotificationUtils {
    public static void sendEmail(String to, String subject, String body) {
        // 发送邮件
    }
}

排序结果：

文档	相关性分数	相关性等级
`public class Subject { ... }`	0.89	高
`@Component public class EventPublisher { ... }`	0.67	中
`public interface Callback { ... }`	0.31	中
`public class NotificationUtils { ... }`	0.05	低

模型不仅匹配了“观察者”这个关键词，更重要的是理解了观察者模式的核心特征：维护观察者列表、提供注册方法、状态变化时通知所有观察者。所以它把经典的Subject实现排在了第一位，即使这个代码片段里根本没有“观察者”这个词。

4.3 场景三：处理复杂的多条件查询

实际开发中，我们的查询往往包含多个条件。比如：“查找所有处理用户支付的方法，需要支持重试机制和超时控制”。

查询输入：

支付处理，支持重试，超时控制，异常处理

文档输入：

public class PaymentService {
    public boolean processPayment(PaymentRequest request) {
        // 支付处理逻辑
        return true;
    }
}

public class RetryablePaymentProcessor {
    public PaymentResult processWithRetry(PaymentRequest request, int maxRetries) {
        int attempt = 0;
        while (attempt < maxRetries) {
            try {
                return doProcess(request);
            } catch (TimeoutException e) {
                attempt++;
                if (attempt >= maxRetries) throw e;
                sleep(1000 * attempt);
            }
        }
        throw new PaymentFailedException("Max retries exceeded");
    }
}

public class UserService {
    public User createUser(String username, String email) {
        // 创建用户
        return new User(username, email);
    }
}

public class TimeoutConfig {
    private int connectionTimeout = 5000;
    private int readTimeout = 10000;
    // getters and setters
}

排序结果：

文档	相关性分数	相关性等级
`public class RetryablePaymentProcessor { ... }`	0.96	高
`public class PaymentService { ... }`	0.58	中
`public class TimeoutConfig { ... }`	0.42	中
`public class UserService { ... }`	0.03	低

RetryablePaymentProcessor得到了接近满分的0.96分，因为它完美匹配了所有条件：支付处理（方法名）、重试机制（while循环和重试计数）、超时控制（TimeoutException）、异常处理（try-catch）。这就是语义理解的优势——它不是在找包含这些关键词的代码，而是在找实现了这些功能的代码。

5. 进阶技巧：让搜索更精准的实用建议

基本的部署和使用你已经掌握了，但要让这个系统在你的项目中发挥最大价值，还需要一些进阶技巧。

5.1 优化任务指令

任务指令（Instruction）是告诉模型“你想让它做什么”的关键。默认的指令"Given a code query, retrieve relevant code snippets"已经不错，但针对特定场景可以优化：

Java代码搜索："Given a Java development query, retrieve relevant code snippets that implement the required functionality. Focus on class and method definitions, design patterns, and best practices."
API文档搜索："Given an API usage query, retrieve relevant code examples that demonstrate how to use the API correctly. Include error handling and edge cases."
Bug修复搜索："Given a bug description, retrieve relevant code snippets that might contain the bug or its fix. Look for error handling, null checks, and concurrency issues."

你可以在界面的“任务指令”框中修改这些指令，看看不同指令对排序结果的影响。

5.2 批量处理代码库

手动输入代码片段不现实，我们需要自动化处理整个项目。这里提供一个简单的脚本，可以扫描Java项目并提取有意义的代码片段：

import os
import re
from pathlib import Path

def extract_java_code_snippets(project_path, max_files=100):
    """
    从Java项目中提取代码片段
    
    Args:
        project_path: 项目根目录
        max_files: 最大处理文件数（避免内存溢出）
    """
    snippets = []
    file_count = 0
    
    for java_file in Path(project_path).rglob("*.java"):
        if file_count >= max_files:
            break
            
        try:
            content = java_file.read_text(encoding='utf-8', errors='ignore')
            relative_path = str(java_file.relative_to(project_path))
            
            # 提取类定义（带注释）
            class_pattern = r'/\*\*[\s\S]*?\*/\s*(public|protected|private)?\s*(abstract\s+)?(class|interface|enum|record)\s+(\w+)'
            for match in re.finditer(class_pattern, content):
                # 获取类名和前后几行作为上下文
                class_name = match.group(4)
                start_line = max(0, content[:match.start()].count('\n') - 3)
                end_line = min(content.count('\n'), content[:match.end()].count('\n') + 10)
                lines = content.split('\n')[start_line:end_line]
                
                snippet = {
                    'file': relative_path,
                    'type': 'class',
                    'name': class_name,
                    'content': '\n'.join(lines),
                    'line': start_line + 1
                }
                snippets.append(snippet)
            
            # 提取方法定义（带注释）
            method_pattern = r'/\*\*[\s\S]*?\*/\s*(public|protected|private)\s+[\w<>\[\]]+\s+(\w+)\s*\([^)]*\)\s*[^{]*{'
            for match in re.finditer(method_pattern, content):
                method_name = match.group(2)
                # 提取方法体（简单版本，找到匹配的括号）
                brace_count = 0
                method_start = match.end()
                method_end = method_start
                
                for i, char in enumerate(content[method_start:]):
                    if char == '{':
                        brace_count += 1
                    elif char == '}':
                        brace_count -= 1
                        if brace_count == 0:
                            method_end = method_start + i + 1
                            break
                
                if method_end > method_start:
                    method_content = content[match.start():method_end]
                    snippet = {
                        'file': relative_path,
                        'type': 'method',
                        'name': method_name,
                        'content': method_content,
                        'line': content[:match.start()].count('\n') + 1
                    }
                    snippets.append(snippet)
            
            file_count += 1
            
        except Exception as e:
            print(f"处理文件 {java_file} 时出错: {e}")
            continue
    
    print(f"从 {file_count} 个文件中提取了 {len(snippets)} 个代码片段")
    return snippets

# 使用示例
if __name__ == "__main__":
    project_path = "/path/to/your/java/project"
    snippets = extract_java_code_snippets(project_path)
    
    # 保存到文件
    with open("code_snippets.txt", "w", encoding="utf-8") as f:
        for snippet in snippets:
            f.write(f"// File: {snippet['file']}:{snippet['line']} - {snippet['type']} {snippet['name']}\n")
            f.write(snippet['content'])
            f.write("\n\n" + "="*80 + "\n\n")
    
    print(f"代码片段已保存到 code_snippets.txt")

运行这个脚本后，你会得到一个包含所有重要代码片段的文本文件，可以直接复制到Web界面的文档框中进行分析。

5.3 集成到开发工作流

虽然Web界面很方便，但最理想的方式是把它集成到你的IDE或命令行工具中。这里提供一个简单的Python API封装：

import requests
import json

class CodeSearchClient:
    """代码搜索客户端"""
    
    def __init__(self, base_url="http://localhost:7860"):
        self.base_url = base_url
        self.api_url = f"{base_url}/api/predict"
    
    def search(self, query, code_snippets, instruction=None):
        """
        搜索相关代码
        
        Args:
            query: 查询语句
            code_snippets: 代码片段列表
            instruction: 任务指令（可选）
        
        Returns:
            排序后的代码片段列表
        """
        if instruction is None:
            instruction = "Given a code query, retrieve relevant code snippets that implement the required functionality"
        
        # 准备数据
        documents_text = "\n".join([s['content'] for s in code_snippets])
        
        payload = {
            "data": [
                query,
                documents_text,
                instruction,
                8  # batch_size
            ]
        }
        
        try:
            response = requests.post(self.api_url, json=payload, timeout=30)
            response.raise_for_status()
            result = response.json()
            
            # 解析结果
            if "data" in result:
                scores = result["data"]
                # 将分数与原始片段合并
                for i, snippet in enumerate(code_snippets):
                    if i < len(scores):
                        snippet['relevance_score'] = scores[i]
                    else:
                        snippet['relevance_score'] = 0.0
                
                # 按分数排序
                sorted_snippets = sorted(code_snippets, 
                                       key=lambda x: x.get('relevance_score', 0), 
                                       reverse=True)
                return sorted_snippets[:10]  # 返回前10个
            
        except Exception as e:
            print(f"搜索失败: {e}")
            return code_snippets[:10]  # 失败时返回原始顺序的前10个
    
    def search_in_project(self, query, project_path, max_snippets=50):
        """
        在项目中搜索代码
        
        Args:
            query: 查询语句
            project_path: 项目路径
            max_snippets: 最大返回片段数
        """
        # 提取代码片段
        from pathlib import Path
        snippets = []
        
        # 这里可以调用上面的extract_java_code_snippets函数
        # 或者使用更简单的方法：搜索包含关键词的文件
        for java_file in Path(project_path).rglob("*.java"):
            try:
                content = java_file.read_text(encoding='utf-8', errors='ignore')
                # 简单按行分割，每10行作为一个片段
                lines = content.split('\n')
                for i in range(0, len(lines), 10):
                    snippet = {
                        'file': str(java_file.relative_to(project_path)),
                        'content': '\n'.join(lines[i:i+10]),
                        'line': i + 1
                    }
                    snippets.append(snippet)
                    if len(snippets) >= 100:  # 限制总数，避免太多
                        break
                if len(snippets) >= 100:
                    break
            except:
                continue
        
        # 搜索
        results = self.search(query, snippets[:50])  # 限制搜索数量
        
        # 输出结果
        print(f"查询: {query}")
        print(f"找到 {len(results)} 个相关结果:")
        print("-" * 80)
        
        for i, result in enumerate(results[:5]):  # 只显示前5个
            score = result.get('relevance_score', 0)
            print(f"{i+1}. [{score:.3f}] {result['file']}:{result['line']}")
            print(f"   {result['content'][:100]}...")
            print()

# 使用示例
if __name__ == "__main__":
    client = CodeSearchClient()
    
    # 示例搜索
    query = "如何处理数据库连接池"
    project_path = "/path/to/your/project"
    
    results = client.search_in_project(query, project_path)

这个客户端可以很容易地集成到你的自动化脚本中，比如在CI/CD流水线中自动分析代码变更，或者在代码评审时快速查找相关实现。

6. 常见问题与性能优化

6.1 内存和性能优化

如果你在运行过程中遇到内存不足或速度慢的问题，可以尝试以下优化：

调整批处理大小：

# 在rerank_documents函数中调整batch_size参数
# GPU内存充足可以增加到16-32
# 内存有限可以减少到4-8
results = rerank_documents(query, documents, batch_size=16)

使用量化模型（如果支持）：

# 加载时使用8位量化
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    load_in_8bit=True,  # 8位量化
    device_map="auto"
)

启用缓存：

# 对相同的查询和文档缓存结果
from functools import lru_cache

@lru_cache(maxsize=100)
def cached_rerank(query, documents_text):
    documents = documents_text.split('\n')
    return rerank_documents(query, documents)

6.2 处理长代码片段

模型支持最大8192个token的上下文，但过长的代码片段会影响效果。建议：

分割大文件：超过200行的文件按功能拆分成多个片段
提取关键部分：只保留方法签名、类定义和核心逻辑
去除无关代码：删除import语句、getter/setter、日志语句等

6.3 提高搜索准确率

如果发现搜索结果不理想，可以尝试：

优化查询语句：用自然语言描述，包含关键术语
- 不好："user save"
- 好："保存用户信息到数据库，包含数据验证和事务管理"
提供更多上下文：在查询中包含技术栈信息
- "在Spring Boot项目中，如何使用JPA实现软删除"
使用领域特定指令：
- Web开发："Given a web development query, retrieve relevant code snippets for REST API, database operations, or frontend components"
- 数据科学："Given a data analysis query, retrieve relevant code snippets for data cleaning, visualization, or machine learning"