新手必看：通义千问3-4B-Instruct-2507模型调用与向量检索整合教程

本文介绍了如何在星图GPU平台上自动化部署通义千问3-4B-Instruct-2507镜像，并整合向量检索技术，快速构建本地智能问答系统。该方案能让模型基于用户提供的私有文档进行精准回答，适用于构建企业知识库、个人学习助手等场景，实现高效、私密的知识管理与查询。

你好像一条狗啊

193人浏览 · 2026-03-18 00:21:22

你好像一条狗啊 · 2026-03-18 00:21:22 发布

新手必看：通义千问3-4B-Instruct-2507模型调用与向量检索整合教程

1. 引言：为什么选择这个组合？

如果你正在寻找一个既能在自己电脑上轻松运行，又能处理长文档、回答专业问题的AI助手，那么通义千问3-4B-Instruct-2507模型加上向量检索的方案，可能就是为你量身定做的。

想象一下这个场景：你有一堆技术文档、产品手册或者学习资料，每次遇到问题都要手动去翻找，既费时又容易遗漏。传统的聊天模型虽然能对话，但它不知道你的私有资料内容。而今天我们要搭建的系统，能让AI模型“阅读”你的所有文档，然后基于这些资料来回答问题，就像你身边有个随时待命的专业助手。

通义千问3-4B-Instruct-2507有几个特别适合新手的优点：

体积小：量化后只有4GB左右，普通笔记本电脑甚至树莓派都能跑
能力强：别看参数少，在很多任务上表现接近更大的模型
支持长文本：能处理相当于80万汉字的长文档，适合知识库场景
完全免费：Apache 2.0协议，商用也没问题

而向量检索技术，简单说就是让计算机能理解文字的意思并进行快速查找。两者结合，就能构建一个智能的知识问答系统。

2. 环境准备：十分钟搞定基础配置

2.1 检查你的设备

在开始之前，先确认你的设备是否符合最低要求：

设备类型	最低配置	推荐配置
Windows/Mac/Linux电脑	8GB内存，50GB硬盘空间	16GB内存，支持CUDA的NVIDIA显卡
树莓派	Raspberry Pi 4（8GB版）	搭配散热风扇，使用高速SD卡
云服务器	2核4G配置	4核8G以上，带GPU更佳

如果你用的是Windows系统，建议先安装Python 3.8-3.11版本，记得勾选“Add Python to PATH”选项。

2.2 安装必要的软件包

打开命令行工具（Windows用CMD或PowerShell，Mac/Linux用终端），依次执行以下命令：

# 创建专门的虚拟环境（避免包冲突）
python -m venv qwen_rag_env

# 激活虚拟环境
# Windows系统：
qwen_rag_env\Scripts\activate
# Mac/Linux系统：
source qwen_rag_env/bin/activate

# 安装核心依赖包
pip install --upgrade pip
pip install torch transformers accelerate
pip install sentence-transformers chromadb
pip install llama-cpp-python

如果安装过程中遇到网络问题，可以尝试使用国内镜像源：

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名

2.3 下载模型文件

这里我推荐使用GGUF量化格式的模型，因为它对硬件要求低，运行速度快。你可以通过以下方式获取：

方式一：直接下载（最简单） 访问Hugging Face模型页面，找到GGUF格式的文件下载：

https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507/tree/main/gguf

推荐下载 qwen3-4b-instruct-2507-Q4_K_M.gguf 这个文件，它在精度和速度之间取得了很好的平衡。

方式二：使用命令行下载 如果你习惯用命令行，可以这样操作：

# 创建模型存放目录
mkdir -p models

# 下载模型文件（约4GB）
wget https://huggingface.co/Qwen/Qwen3-4B-Instruct-2507/resolve/main/gguf/qwen3-4b-instruct-2507-Q4_K_M.gguf -O models/qwen-4b-q4.gguf

下载完成后，你应该能在 models 文件夹里看到一个大约4GB的 .gguf 文件。

3. 第一步：让模型跑起来

3.1 最简单的模型调用

我们先来试试最基本的模型调用，确保一切正常。创建一个名为 test_model.py 的文件：

from llama_cpp import Llama
import time

# 记录开始时间
start_time = time.time()

# 加载模型
print("正在加载模型，请稍候...")
llm = Llama(
    model_path="./models/qwen-4b-q4.gguf",  # 模型文件路径
    n_ctx=32768,      # 上下文长度，可以根据需要调整
    n_threads=4,      # 使用4个CPU线程
    verbose=False     # 不显示详细日志
)

print(f"模型加载完成，耗时：{time.time() - start_time:.2f}秒")

# 测试一个简单的问题
prompt = "用简单的语言解释一下什么是人工智能？"
print(f"\n提问：{prompt}")

response = llm(
    prompt,
    max_tokens=200,    # 最多生成200个token
    temperature=0.7,   # 创造性程度，0-1之间
    stop=["</s>"]      # 停止标记
)

print(f"\n回答：{response['choices'][0]['text']}")
print(f"生成耗时：{response['usage']['total_time']:.2f}秒")

运行这个脚本：

python test_model.py

如果一切正常，你会看到模型加载的耗时，然后得到一个关于人工智能的解释。第一次运行可能会慢一些，因为需要加载模型到内存。

3.2 理解关键参数

在调用模型时，有几个参数很重要：

n_ctx：模型能“记住”多长的对话历史。Qwen3-4B支持最大256K，但实际使用时可以根据需要设置小一些，比如8192或32768，以减少内存占用。
temperature：控制回答的随机性。值越低（如0.1）回答越确定和保守，值越高（如0.9）回答越有创意和多样。
max_tokens：限制生成文本的最大长度。设置太小可能回答不完整，太大可能生成无关内容。
stop：指定停止生成的标记。对于Qwen模型，通常用 </s> 作为结束标记。

3.3 试试对话功能

Qwen3-4B-Instruct-2507支持多轮对话。下面是一个简单的对话示例：

def chat_with_model():
    llm = Llama(
        model_path="./models/qwen-4b-q4.gguf",
        n_ctx=8192,
        n_threads=4
    )
    
    # 初始化对话历史
    messages = [
        {"role": "system", "content": "你是一个乐于助人的AI助手。"}
    ]
    
    print("开始对话（输入'退出'结束）")
    print("="*50)
    
    while True:
        user_input = input("\n你：")
        if user_input.lower() in ['退出', 'exit', 'quit']:
            break
            
        # 添加用户消息
        messages.append({"role": "user", "content": user_input})
        
        # 构建提示词
        prompt = ""
        for msg in messages:
            if msg["role"] == "system":
                prompt += f"<|im_start|>system\n{msg['content']}<|im_end|>\n"
            elif msg["role"] == "user":
                prompt += f"<|im_start|>user\n{msg['content']}<|im_end|>\n"
            else:
                prompt += f"<|im_start|>assistant\n{msg['content']}<|im_end|>\n"
        prompt += "<|im_start|>assistant\n"
        
        # 生成回复
        response = llm(
            prompt,
            max_tokens=512,
            temperature=0.7,
            stop=["<|im_end|>"]
        )
        
        assistant_reply = response['choices'][0]['text'].strip()
        print(f"\n助手：{assistant_reply}")
        
        # 添加助手回复到历史
        messages.append({"role": "assistant", "content": assistant_reply})
        
        # 如果历史太长，移除最早的一些消息（简单策略）
        if len(messages) > 10:  # 保留最近5轮对话
            messages = [messages[0]] + messages[-9:]

if __name__ == "__main__":
    chat_with_model()

这个例子展示了如何维护对话历史，让模型能记住之前的对话内容。

4. 第二步：构建你的知识库

4.1 准备你的文档

向量检索的核心是先把文档转换成计算机能理解的格式。我们首先需要准备文本数据。

假设你有一些技术文档，保存为 knowledge 文件夹下的多个 .txt 文件。我们可以这样读取和处理：

import os
import re
from typing import List

def load_documents(folder_path: str) -> List[str]:
    """从文件夹加载所有文本文件"""
    documents = []
    
    for filename in os.listdir(folder_path):
        if filename.endswith('.txt'):
            filepath = os.path.join(folder_path, filename)
            try:
                with open(filepath, 'r', encoding='utf-8') as f:
                    content = f.read().strip()
                    if content:  # 跳过空文件
                        documents.append({
                            'content': content,
                            'source': filename
                        })
                        print(f"已加载：{filename} ({len(content)} 字符)")
            except Exception as e:
                print(f"读取文件 {filename} 时出错：{e}")
    
    return documents

# 使用示例
docs = load_documents("./knowledge")
print(f"共加载 {len(docs)} 个文档")

4.2 智能分块：让文档更容易处理

长文档需要拆分成小块，这样检索时才能更精准。但简单的按字数分割会破坏句子完整性，我们需要更智能的方法：

def smart_chunking(text: str, chunk_size: int = 500, overlap: int = 100) -> List[str]:
    """
    智能文本分块
    chunk_size: 每个块的大致字数
    overlap: 块之间的重叠字数，避免信息割裂
    """
    # 按句子分割（支持中文标点）
    sentences = re.split(r'(?<=[。！？.!?])\s*', text)
    
    chunks = []
    current_chunk = []
    current_length = 0
    
    for sentence in sentences:
        sentence = sentence.strip()
        if not sentence:
            continue
            
        sentence_length = len(sentence)
        
        # 如果当前块加上这句就太长了，且当前块不为空
        if current_length + sentence_length > chunk_size and current_chunk:
            # 保存当前块
            chunk_text = ' '.join(current_chunk)
            chunks.append(chunk_text)
            
            # 保留最后几句作为重叠部分
            overlap_sentences = []
            overlap_length = 0
            for sent in reversed(current_chunk):
                if overlap_length + len(sent) <= overlap:
                    overlap_sentences.insert(0, sent)
                    overlap_length += len(sent)
                else:
                    break
            
            # 新块从重叠部分开始
            current_chunk = overlap_sentences
            current_length = overlap_length
        
        # 添加当前句子到块中
        current_chunk.append(sentence)
        current_length += sentence_length
    
    # 添加最后一个块
    if current_chunk:
        chunks.append(' '.join(current_chunk))
    
    return chunks

# 测试分块功能
sample_text = "人工智能是计算机科学的一个分支。它试图理解智能的本质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。"
chunks = smart_chunking(sample_text, chunk_size=100, overlap=20)
for i, chunk in enumerate(chunks):
    print(f"块 {i+1}: {chunk}")

4.3 选择嵌入模型：让计算机理解文字含义

嵌入模型的作用是把文字转换成数字向量（可以理解为一串有意义的数字）。我们选择 BAAI/bge-small-zh-v1.5，这是一个对中文友好的轻量级模型：

from sentence_transformers import SentenceTransformer
import numpy as np

class TextEmbedder:
    def __init__(self, model_name='BAAI/bge-small-zh-v1.5'):
        """初始化文本嵌入模型"""
        print(f"正在加载嵌入模型: {model_name}")
        self.model = SentenceTransformer(model_name)
        print("嵌入模型加载完成")
    
    def encode(self, texts: List[str]) -> np.ndarray:
        """将文本列表转换为向量"""
        if isinstance(texts, str):
            texts = [texts]
        
        # 转换为向量
        embeddings = self.model.encode(
            texts,
            normalize_embeddings=True,  # 归一化，方便计算相似度
            show_progress_bar=True if len(texts) > 10 else False
        )
        
        return embeddings
    
    def similarity(self, vec1: np.ndarray, vec2: np.ndarray) -> float:
        """计算两个向量的余弦相似度"""
        # 因为已经归一化，所以点积就是余弦相似度
        return float(np.dot(vec1, vec2))

# 测试嵌入模型
embedder = TextEmbedder()

test_texts = ["我喜欢吃苹果", "苹果是一种水果", "今天天气很好"]
embeddings = embedder.encode(test_texts)

print(f"文本数量: {len(test_texts)}")
print(f"向量维度: {embeddings.shape[1]}")
print(f"相似度测试:")
print(f"  '我喜欢吃苹果' vs '苹果是一种水果': {embedder.similarity(embeddings[0], embeddings[1]):.3f}")
print(f"  '我喜欢吃苹果' vs '今天天气很好': {embedder.similarity(embeddings[0], embeddings[2]):.3f}")

你会看到，语义相近的句子（都关于苹果）相似度更高，而无关的句子相似度较低。

5. 第三步：搭建向量数据库

5.1 初始化Chroma数据库

Chroma是一个轻量级的向量数据库，特别适合初学者使用：

import chromadb
from chromadb.utils.embedding_functions import SentenceTransformerEmbeddingFunction

class VectorDatabase:
    def __init__(self, db_path="./chroma_db", collection_name="my_knowledge"):
        """初始化向量数据库"""
        # 创建持久化客户端
        self.client = chromadb.PersistentClient(path=db_path)
        
        # 使用与之前相同的嵌入模型
        self.embedding_function = SentenceTransformerEmbeddingFunction(
            model_name="BAAI/bge-small-zh-v1.5"
        )
        
        # 获取或创建集合
        try:
            self.collection = self.client.get_collection(
                name=collection_name,
                embedding_function=self.embedding_function
            )
            print(f"连接到现有集合: {collection_name}")
        except:
            self.collection = self.client.create_collection(
                name=collection_name,
                embedding_function=self.embedding_function,
                metadata={"description": "我的知识库"}
            )
            print(f"创建新集合: {collection_name}")
    
    def add_documents(self, documents: List[dict]):
        """添加文档到数据库"""
        texts = [doc['content'] for doc in documents]
        metadatas = [{'source': doc['source']} for doc in documents]
        ids = [f"doc_{i}" for i in range(len(documents))]
        
        self.collection.add(
            documents=texts,
            metadatas=metadatas,
            ids=ids
        )
        print(f"成功添加 {len(documents)} 个文档")
    
    def search(self, query: str, n_results: int = 3):
        """搜索相关文档"""
        results = self.collection.query(
            query_texts=[query],
            n_results=n_results
        )
        
        return results
    
    def get_stats(self):
        """获取数据库统计信息"""
        count = self.collection.count()
        print(f"集合中的文档数量: {count}")
        return count

# 使用示例
if __name__ == "__main__":
    # 初始化数据库
    db = VectorDatabase()
    
    # 假设我们有一些文档
    sample_docs = [
        {
            'content': 'Python是一种高级编程语言，由Guido van Rossum创建。',
            'source': 'python_intro.txt'
        },
        {
            'content': '机器学习是人工智能的一个分支，让计算机从数据中学习。',
            'source': 'ml_basics.txt'
        }
    ]
    
    # 添加文档
    db.add_documents(sample_docs)
    
    # 搜索测试
    results = db.search("什么是编程语言？", n_results=2)
    print("\n搜索结果:")
    for i, (doc, metadata) in enumerate(zip(results['documents'][0], results['metadatas'][0])):
        print(f"{i+1}. 来源: {metadata['source']}")
        print(f"   内容: {doc[:100]}...")
        print()

5.2 批量处理文档的完整流程

现在我们把前面的步骤整合起来，创建一个完整的文档处理流程：

def build_knowledge_base(docs_folder: str, db_path: str = "./chroma_db"):
    """构建知识库的完整流程"""
    
    print("="*50)
    print("开始构建知识库")
    print("="*50)
    
    # 1. 加载文档
    print("\n1. 加载文档...")
    raw_documents = load_documents(docs_folder)
    if not raw_documents:
        print("未找到文档，请检查文件夹路径")
        return
    
    # 2. 分块处理
    print("\n2. 文档分块处理...")
    all_chunks = []
    chunk_info = []
    
    for doc in raw_documents:
        chunks = smart_chunking(doc['content'], chunk_size=400, overlap=50)
        for chunk in chunks:
            all_chunks.append(chunk)
            chunk_info.append({
                'source': doc['source'],
                'chunk_index': len(all_chunks) - 1
            })
    
    print(f"原始文档: {len(raw_documents)} 个")
    print(f"处理后块: {len(all_chunks)} 个")
    
    # 3. 初始化数据库
    print("\n3. 初始化向量数据库...")
    db = VectorDatabase(db_path=db_path)
    
    # 4. 添加到数据库（分批处理，避免内存不足）
    print("\n4. 添加到向量数据库...")
    batch_size = 50
    for i in range(0, len(all_chunks), batch_size):
        batch_chunks = all_chunks[i:i+batch_size]
        batch_info = chunk_info[i:i+batch_size]
        
        # 准备文档数据
        documents = []
        for j, (chunk, info) in enumerate(zip(batch_chunks, batch_info)):
            documents.append({
                'content': chunk,
                'source': f"{info['source']}_chunk_{i+j}"
            })
        
        # 添加到数据库
        db.add_documents(documents)
        
        print(f"  进度: {min(i+batch_size, len(all_chunks))}/{len(all_chunks)}")
    
    # 5. 验证
    print("\n5. 验证数据库...")
    count = db.get_stats()
    
    print("\n" + "="*50)
    print("知识库构建完成！")
    print(f"总计: {count} 个知识块")
    print("="*50)
    
    return db

# 运行构建流程
# build_knowledge_base("./my_documents")

6. 第四步：整合模型与检索系统

6.1 创建RAG问答系统

现在到了最激动人心的部分：把模型和向量数据库结合起来，创建真正的智能问答系统！

class RAGSystem:
    def __init__(self, model_path: str, db_path: str = "./chroma_db"):
        """初始化RAG系统"""
        print("初始化RAG系统中...")
        
        # 1. 加载语言模型
        print("  1. 加载Qwen模型...")
        self.llm = Llama(
            model_path=model_path,
            n_ctx=32768,
            n_threads=4,
            verbose=False
        )
        
        # 2. 连接向量数据库
        print("  2. 连接向量数据库...")
        self.db = VectorDatabase(db_path=db_path)
        
        # 3. 定义系统提示词
        self.system_prompt = """你是一个专业的AI助手，基于提供的参考资料回答问题。
请遵循以下规则：
1. 只基于参考资料回答，如果资料中没有相关信息，请如实说明
2. 回答要简洁、准确、有用
3. 如果参考资料中有多个相关信息，请综合整理
4. 用中文回答，除非问题明确要求其他语言

参考资料：
{context}

问题：{question}

请基于以上资料回答："""
        
        print("RAG系统初始化完成！")
    
    def ask(self, question: str, top_k: int = 3, max_tokens: int = 512):
        """提问并获取回答"""
        
        # 1. 从向量数据库检索相关文档
        print(f"\n检索相关文档...")
        results = self.db.search(question, n_results=top_k)
        
        if not results['documents'][0]:
            return "抱歉，知识库中没有找到相关信息。", []
        
        # 2. 构建上下文
        context_parts = []
        for i, (doc, metadata) in enumerate(zip(results['documents'][0], results['metadatas'][0])):
            context_parts.append(f"[参考{i+1}] {doc}")
        
        context = "\n\n".join(context_parts)
        
        # 3. 构建完整提示词
        full_prompt = self.system_prompt.format(
            context=context,
            question=question
        )
        
        # 4. 调用模型生成回答
        print("生成回答中...")
        response = self.llm(
            full_prompt,
            max_tokens=max_tokens,
            temperature=0.3,  # 较低的温度，让回答更准确
            stop=["</s>", "问题：", "\n\n"]
        )
        
        answer = response['choices'][0]['text'].strip()
        
        # 5. 返回结果
        return answer, results['documents'][0]
    
    def interactive_chat(self):
        """交互式对话模式"""
        print("\n" + "="*50)
        print("RAG问答系统已启动！")
        print("输入你的问题，系统会从知识库中查找相关信息并回答")
        print("输入'退出'或'quit'结束对话")
        print("="*50)
        
        while True:
            try:
                question = input("\n你的问题：").strip()
                
                if question.lower() in ['退出', 'quit', 'exit']:
                    print("再见！")
                    break
                
                if not question:
                    continue
                
                # 获取回答
                answer, references = self.ask(question)
                
                # 显示回答
                print(f"\n🤖 回答：{answer}")
                
                # 显示参考来源
                if references:
                    print(f"\n📚 参考来源：")
                    for i, ref in enumerate(references[:2]):  # 显示前2个参考
                        print(f"  {i+1}. {ref[:100]}...")
                
            except KeyboardInterrupt:
                print("\n\n对话结束")
                break
            except Exception as e:
                print(f"出错：{e}")

# 使用示例
if __name__ == "__main__":
    # 初始化系统
    rag_system = RAGSystem(
        model_path="./models/qwen-4b-q4.gguf",
        db_path="./chroma_db"
    )
    
    # 测试单个问题
    question = "Python有什么特点？"
    answer, refs = rag_system.ask(question)
    
    print(f"问题：{question}")
    print(f"回答：{answer}")
    
    # 或者启动交互式对话
    # rag_system.interactive_chat()

6.2 优化提示词提升回答质量

提示词的质量直接影响回答的效果。这里有几个优化技巧：

def get_optimized_prompt(context: str, question: str, style: str = "standard"):
    """根据不同场景优化提示词"""
    
    prompts = {
        "standard": """基于以下参考资料回答问题。如果资料中没有相关信息，请说"根据现有资料，无法回答这个问题"。

参考资料：
{context}

问题：{question}

请基于资料回答：""",
        
        "detailed": """你是一个专业的研究助手。请仔细分析以下资料，给出详细、准确的回答。

可用资料：
{context}

用户问题：{question}

要求：
1. 回答必须基于提供的资料
2. 如果资料不足，请明确指出
3. 如果资料中有矛盾信息，请说明
4. 回答要结构清晰，分点说明

请开始回答：""",
        
        "simple": """根据下面的信息回答问题：

{context}

问：{question}
答："""
    }
    
    template = prompts.get(style, prompts["standard"])
    return template.format(context=context, question=question)

# 测试不同风格的提示词
context = "Python是一种解释型、高级、通用的编程语言。"
question = "Python是什么类型的语言？"

for style in ["simple", "standard", "detailed"]:
    prompt = get_optimized_prompt(context, question, style)
    print(f"\n{style} 风格提示词：")
    print("-" * 40)
    print(prompt)
    print()

7. 第五步：实际应用与优化

7.1 完整示例：技术文档问答系统

让我们创建一个完整的示例，模拟一个真实的技术文档问答场景：

def create_tech_qna_system():
    """创建技术文档问答系统示例"""
    
    print("创建示例技术文档问答系统...")
    
    # 1. 创建示例文档
    tech_docs = [
        {
            "title": "Python基础",
            "content": """
            Python是一种高级编程语言，以其清晰的语法和代码可读性而闻名。
            它支持多种编程范式，包括面向对象、命令式、函数式和过程式编程。
            Python拥有庞大的标准库，被称为"内置电池"哲学。
            
            主要特点：
            1. 简单易学：语法接近英语，适合初学者
            2. 开源免费：可以自由使用和分发
            3. 跨平台：可以在Windows、Linux、Mac上运行
            4. 丰富的库：有大量第三方库支持各种应用
            """
        },
        {
            "title": "机器学习简介", 
            "content": """
            机器学习是人工智能的一个分支，使计算机能够从数据中学习而不进行明确编程。
            
            主要类型：
            1. 监督学习：使用标记数据训练模型
            2. 无监督学习：在未标记数据中发现模式
            3. 强化学习：通过试错学习最优策略
            
            常用库：
            - Scikit-learn：传统机器学习算法
            - TensorFlow：深度学习框架
            - PyTorch：研究常用的深度学习框架
            """
        },
        {
            "title": "Web开发基础",
            "content": """
            Web开发涉及创建网站或Web应用程序。主要分为：
            
            前端开发：
            - HTML：页面结构
            - CSS：样式设计
            - JavaScript：交互逻辑
            
            后端开发：
            - 服务器端语言：Python、Java、Node.js等
            - 数据库：MySQL、PostgreSQL、MongoDB
            - Web框架：Django、Flask、Spring
            
            全栈开发：同时掌握前端和后端技术。
            """
        }
    ]
    
    # 2. 保存文档到文件
    import os
    os.makedirs("./example_docs", exist_ok=True)
    
    for i, doc in enumerate(tech_docs):
        filename = f"./example_docs/doc_{i+1}.txt"
        with open(filename, "w", encoding="utf-8") as f:
            f.write(f"标题：{doc['title']}\n\n")
            f.write(doc['content'])
        print(f"创建文档：{filename}")
    
    # 3. 构建知识库
    print("\n构建知识库...")
    db = build_knowledge_base("./example_docs", "./example_db")
    
    # 4. 初始化RAG系统
    print("\n初始化RAG系统...")
    rag = RAGSystem(
        model_path="./models/qwen-4b-q4.gguf",
        db_path="./example_db"
    )
    
    # 5. 测试问答
    test_questions = [
        "Python有什么特点？",
        "机器学习有哪些类型？",
        "什么是全栈开发？",
        "Web开发需要学什么？"
    ]
    
    print("\n" + "="*50)
    print("测试问答系统")
    print("="*50)
    
    for question in test_questions:
        print(f"\n问题：{question}")
        answer, refs = rag.ask(question, top_k=2)
        print(f"回答：{answer}")
        print("-" * 40)
    
    return rag

# 运行示例
# create_tech_qna_system()

7.2 性能优化技巧

随着使用深入，你可能会遇到性能问题。这里有一些优化建议：

class OptimizedRAGSystem(RAGSystem):
    """优化版的RAG系统"""
    
    def __init__(self, model_path: str, db_path: str = "./chroma_db", use_cache: bool = True):
        super().__init__(model_path, db_path)
        
        # 添加缓存机制
        self.use_cache = use_cache
        self.cache = {} if use_cache else None
        
        # 添加统计信息
        self.stats = {
            "total_queries": 0,
            "cache_hits": 0,
            "avg_response_time": 0
        }
    
    def ask_with_cache(self, question: str, top_k: int = 3):
        """带缓存的提问"""
        self.stats["total_queries"] += 1
        
        # 检查缓存
        if self.use_cache and question in self.cache:
            self.stats["cache_hits"] += 1
            print(f"缓存命中！")
            return self.cache[question]
        
        # 正常处理
        import time
        start_time = time.time()
        
        answer, references = self.ask(question, top_k)
        
        # 计算耗时
        elapsed = time.time() - start_time
        self.stats["avg_response_time"] = (
            (self.stats["avg_response_time"] * (self.stats["total_queries"] - 1) + elapsed) 
            / self.stats["total_queries"]
        )
        
        # 存入缓存（只缓存简短问题）
        if self.use_cache and len(question) < 100:
            self.cache[question] = (answer, references)
        
        return answer, references
    
    def get_stats(self):
        """获取系统统计信息"""
        cache_hit_rate = (self.stats["cache_hits"] / self.stats["total_queries"] * 100 
                         if self.stats["total_queries"] > 0 else 0)
        
        return {
            "总查询次数": self.stats["total_queries"],
            "缓存命中率": f"{cache_hit_rate:.1f}%",
            "平均响应时间": f"{self.stats['avg_response_time']:.2f}秒",
            "缓存大小": len(self.cache) if self.cache else 0
        }

# 其他优化建议
optimization_tips = """
1. 模型加载优化：
   - 使用量化模型（Q4_K_M或更低精度）
   - 调整n_ctx到实际需要的值
   - 根据CPU核心数设置n_threads

2. 检索优化：
   - 调整文本分块大小（通常300-500字最佳）
   - 优化重叠大小（50-100字）
   - 使用更合适的嵌入模型

3. 系统优化：
   - 启用问题缓存
   - 批量处理查询
   - 定期清理无效缓存

4. 硬件优化：
   - 使用SSD硬盘加快加载速度
   - 增加内存减少交换
   - 如有GPU，启用GPU加速
"""

print(optimization_tips)

7.3 处理复杂查询

对于更复杂的问题，我们可以使用更高级的检索策略：

def advanced_retrieval(db, question: str, strategy: str = "hybrid"):
    """高级检索策略"""
    
    if strategy == "hybrid":
        # 混合检索：结合多个查询
        sub_questions = [
            question,
            question + " 详细解释",
            question.split("？")[0] if "？" in question else question
        ]
        
        all_results = []
        for sub_q in sub_questions:
            results = db.search(sub_q, n_results=2)
            all_results.extend(zip(results['documents'][0], results['distances'][0]))
        
        # 去重并按相关性排序
        unique_results = {}
        for doc, score in all_results:
            if doc not in unique_results or score < unique_results[doc]:
                unique_results[doc] = score
        
        # 按分数排序（分数越低越相关）
        sorted_results = sorted(unique_results.items(), key=lambda x: x[1])
        return [doc for doc, _ in sorted_results[:3]]
    
    elif strategy == "multi_step":
        # 多步检索：先找概念，再找细节
        # 这里可以扩展为更复杂的多步检索逻辑
        pass
    
    else:
        # 默认简单检索
        results = db.search(question, n_results=3)
        return results['documents'][0]

# 测试高级检索
# db = VectorDatabase()
# relevant_docs = advanced_retrieval(db, "如何学习Python编程？", strategy="hybrid")