大模型实战：如何基于MCP（Model Context Protocol）开发一个支持私有知识库的问答系统

业界推测 2025 年是 AI Agent 的元年，从目前的技术发展速度看确实是有这个趋势。从年初 DeepSeek 的爆火开始，目前开源大模型的能力基本与商业大模型拉齐甚至是超越，完全开放的开源策略让大模型的使用彻底平权。这个可以说在某种程度上改变了 AI 应用的商业模式，基于自训练的闭源模型的优势被显著削弱，商业竞争从模型性能转向对应用场景的创新。AI 应用的形态不断演进，从早期的 Chat

网络安全学习库

984人浏览 · 2025-04-22 21:48:15

网络安全学习库 · 2025-04-22 21:48:15 发布

文章探讨了AI Agent的发展趋势，并通过一个实际案例展示了如何基于MCP（Model Context Protocol）开发一个支持私有知识库的问答系统。

前言

AI 应用的形态不断演进，从早期的 Chat 到 RAG，再到现在的 Agent。参考 Web 2.0 和移动互联网时代的技术发展，当某种新形态的应用开发需求爆发式增长，会催生新的开发框架和新的标准的建立，AI 应用正在经历这个过程。

目前开发框架还处于百花齐放的状态，Python 是否会成为主流开发语言，哪个开发框架会成为主流，这些都还未知，有待观望。但是近期比较火热的 MCP（Model Context Protocol）看起来已成事实标准，特别是近期 OpenAI 也官宣了对 MCP 的支持。

关于 MCP 的介绍不在本文赘述，本着学习的目的，动手做了一个实践，主要为了体验如何基于 MCP 开发一个 Agent 应用。本次实践会实现一个目前最常见的一类 AI 应用即答疑系统，支持基于私有知识库的问答，会对知识库构建和 RAG 做一些优化。

整体流程设计

主要分为两部分：知识库构建和检索。

1.知识库构建

a.文本切段：对文本进行切段，切段后的内容需要保证文本完整性以及语义完整性。

b.提取 FAQ：根据文本内容提取 FAQ，作为知识库检索的一个补充，以提升检索效果。

c.导入知识库：将文本和 FAQ 导入知识库，并进行 Embedding 后导入向量。

2.知识检索（RAG）

a.问题拆解：对输入问题进行拆解和重写，拆解为更原子的子问题。

b.检索：针对每个子问题分别检索相关文本和 FAQ，针对文本采取向量检索，针对 FAQ 采取全文和向量混合检索。

c.知识库内容筛选：针对检索出来的内容进行筛选，保留与问题最相关的内容进行参考回答。

相比传统的 Naive RAG，在知识库构建和检索分别做了一些常见的优化，包括 Chunk 切分优化、提取 FAQ、Query Rewrite、混合检索等。

Agent 架构

整体架构分为三个部分：

1.知识库：内部包含 Knowledge Store 和 FAQ Store，分别存储文本内容和 FAQ 内容，支持向量和全文的混合检索。

2.MCP Server：提供对 Knowledge Store 和 FAQ Store 的读写操作，总共提供 4 个 Tools。

3.功能实现部分：完全通过 Prompt + LLM 来实现对知识库的导入、检索和问答这几个功能。

具体实现

所有代码开源在这里，分为两部分：

1.Python 实现的 Client 端：实现了与大模型进行交互，通过 MCP Client 获取 Tools，根据大模型的反馈调用 Tools 等基本能力。通过 Prompt 实现了知识库构建、检索和问答三个主要功能。

2.Java 实现的 Server 端：基于 Spring AI 框架实现 MCP Server，由于底层存储用的是 Tablestore，所以主体框架是基于这篇文章的代码进行改造。

知识库存储

知识库存储选择 Tablestore（向量检索功能介绍），主要原因为：

1.简单易用：仅一个创建实例步骤后即可开始使用，Serverless 模式无需管理容量和后续运维。

2.低成本：完全按量计费，自动根据存储规模水平扩展，最大可扩展至 PB 级。当然如果采用本地知识库肯定是零成本，但这里实现的是一个企业级、可通过云共享的知识库。

3.功能完备：支持全文、向量和标量等检索功能，支持混合检索。

MCP Server

实现了 4 个 Tools（具体注册代码可参考 TablestoreMcp），相关描述如下：

知识库构建

1、对文本进行切段并提取 FAQ

完全通过提示词来完成，可根据自己的要求进行调优。

以上是一个示例，可以看到通过大模型能比较准确的对文本进行切段并提取 FAQ。这种方式的优势是切段的文本能保证完整性以及语义一致性，能够比较灵活的对格式做一些处理。提取的 FAQ 很全面，对于简单问题的问答通过直接搜索 FAQ 是最准确直接的。最大的缺点就是执行比较慢并且成本较高，一次会消耗大量的 Token，不过好在是一次性的投入。

2、写入知识库和 FAQ 库

这一步也是通过提示词来完成，基于 MCP 架构可以非常简单的实现，样例如下：

知识库检索

同样这一步也是通过提示词加 MCP 来实现，非常的简单，样例如下：

通过提示词描述实现了一个稍微复杂点的检索：

1.先对问题进行拆解，拆解为更原子的子问题。

2.每个子问题分别检索知识库和 FAQ，检索结果汇总后筛选留下与问题最相关的内容。

3.按照格式返回结果。

知识库问答

直接看下提示词和效果

从 MCP Server 的 Log 内可以看到自动调用了知识库和 FAQ 的检索工具，并能根据之前导入的内容进行回答。

演示

1、创建知识库存储实例

可通过命令行工具（下载地址）来创建 Tablestore 实例，参考这个文档先进行配置。

配置成功后执行以下命令进行实例创建，实例名自行选择，需要保证 Region 内唯一。

2、启动 MCP Server

启动前需要在环境变量内配置如下几个参数：

可参考代码库 README 内的步骤进行启动，也可将项目导入 IDE 后直接运行 App 这个类，启动后会自动初始化表和索引。

3、导入知识库

这一步需要执行代码库内的 knowledge_manager.py 工具，执行前需要先配置访问大模型的 API-KEY，默认采用 qwen-max。

export LLM_API_KEY=sk-xxxxxx

请自行准备知识库文档，使用 markdown 格式，执行如下：

4、检索知识库

执行如下：

5、基于知识库进行问答

最后

对应前言部分的观点，这一轮技术革命可以参考 Web 2.0 和移动互联网时代的技术发展，当某种新形态的应用开发需求爆发式增长，一定会催生新的开发框架和新的标准的建立。AI 应用的技术是能够完全构建在当前的技术框架之上，所以发展迭代的速度非常之快，很期待未来的发展。

普通人如何抓住AI大模型的风口？

领取方式在文末

为什么要学习大模型？

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用，大模型作为其中的重要组成部分，正逐渐成为推动人工智能发展的重要引擎。大模型以其强大的数据处理和模式识别能力，广泛应用于自然语言处理、计算机视觉、智能推荐等领域，为各行各业带来了革命性的改变和机遇。

目前，开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景，其中，应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展，相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业：

在这里插入图片描述

人工智能大潮已来，不加入就可能被淘汰。如果你是技术人，尤其是互联网从业者，现在就开始学习AI大模型技术，真的是给你的人生一个重要建议！

0基础如何入门大模型？

大模型目前在人工智能领域可以说正处于一种“炙手可热”的状态，吸引了很多人的关注和兴趣，也有很多新人小白想要学习入门大模型，那么，如何入门大模型呢？

下面给大家分享一份2025最新版的大模型学习路线，帮助新人小白更系统、更快速的学习大模型！

有需要完整版学习路线，可以微信扫描下方二维码，或点击下方链接免费领取!

**读者福利 |** 👉2024最新《AGI大模型学习资源包》免费分享 **（安全链接，放心点击）**
在这里插入图片描述

👉1.大模型入门学习思维导图👈

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

对于从来没有接触过AI大模型的同学，我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线，大家跟着这个大的方向学习准没问题。（全套教程文末领取哈）

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字，我也为大家准备了视频教程，每个章节都是当前板块的精华浓缩。

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。（全套教程文末领取哈）

👉4.大模型落地应用案例PPT👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。（全套教程文末领取哈）

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。（全套教程文末领取哈）

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个，在大模型纵横的时代，不仅大模型技术越来越卷，就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道，我总结了大模型常考的面试题。（全套教程文末领取哈）

👉学会后的收获：👈 • 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习

这份完整版的 AI 大模型学习资料已经上传CSDN，朋友们如果需要可以点击下方链接免费领取 【保证100%免费】

在这里插入图片描述
**读者福利 |** 👉2024最新《AGI大模型学习资源包》免费分享 **（安全链接，放心点击）**

DeepSeek技术社区

欢迎加入DeepSeek 技术社区。在这里，你可以找到志同道合的朋友，共同探索AI技术的奥秘。

更多推荐

【华为开发者空间 x DeepSeek】基于华为开发者空间云主机DeepSeek助力电商企业AI海报文案驱动的最佳实践落地

DeepSeek技术社区

【GitHub精华】《大模型项目实战》项目笔记大公开！实战经验全收录！

DeepSeek技术社区

基于华为云主机 + DeepSeek一键部署快速搭建Dify-LLM应用开发鸿蒙学习助手

DeepSeek技术社区

所有评论(0)

查看更多评论

网络安全学习库

@HUANGXIN9898

已为社区贡献202条内容

大模型实战：如何基于MCP（Model Context Protocol）开发一个支持私有知识库的问答系统

网络安全学习库

前言

整体流程设计

Agent 架构

3.功能实现部分：完全通过 Prompt + LLM 来实现对知识库的导入、检索和问答这几个功能。具体实现

知识库存储选择 Tablestore（向量检索功能介绍），主要原因为：

1、对文本进行切段并提取 FAQ

2、写入知识库和 FAQ 库

演示

最后

普通人如何抓住AI大模型的风口？

为什么要学习大模型？

0基础如何入门大模型？

👉3.大模型实际应用报告合集👈

👉4.大模型落地应用案例PPT👈

👉5.大模型经典学习电子书👈

👉6.大模型面试题&答案👈

所有评论(0)

网络安全学习库

3.功能实现部分：完全通过 Prompt + LLM 来实现对知识库的导入、检索和问答这几个功能。

具体实现