基于LangChain+DeepSeek Api+Vue实现私有知识库项目

该项目基于FastAPI构建后端，集成LangChain实现多格式文档（TXT/PDF/Word）处理，通过文本分块、向量化（Ollama的bge-m3模型）和FAISS索引实现语义检索。结合DeepSeek API进行检索增强生成（RAG），流式返回问答结果。支持知识库元数据管理（MySQL）、文件上传（UUID重命名存储）和跨域访问。核心流程：用户上传文档→向量化存储→提问时检索相关片段→构造

qq_28950107

321人浏览 · 2025-04-26 21:02:23

qq_28950107 · 2025-04-26 21:02:23 发布

1.使用语言

Python、Vue

2.技术要点

SSE、LangChain、Rag、FAISS、OllamaEmbeddings...

3.项目流程图

4.处理逻辑

多格式文档处理
- TXT：使用TextLoader方法解析（需注意编码格式）
- PDF：使用PyMuPDFLoader解析文本（禁用图片/OCR提取）
- Word：使用langchain_core.documents方法解析
文本优化处理
- 分块策略：500字符/块，50字符重叠
- 分隔符：段落分隔符 + 中文标点
- 元数据保留：记录原始文件路径
检索增强生成(RAG)
- 使用bge-m3模型生成文本嵌入
- FAISS实现高效相似度检索
- 动态构建含来源标识的上下文
流式响应设计
- 结合DeepSeekApi通过StreamingResponse实现逐字输出快速响应
- 异步处理避免阻塞