一、背景与系统定位

本系统在此基础上引入**知识库增强生成(RAG)**技术,通过融合领域文档与历史用例数据,使生成结果更贴合业务场景。

1.1 为什么需要知识库?

传统AI生成方案存在两大痛点:

  1. 领域知识缺失

    大模型无法记忆企业私有文档(如需求规格书、接口文档)

  2. 历史经验浪费

    过往测试用例未被有效复用

本系统通过轻量化RAG架构(无需向量数据库)实现:

  • PDF文档智能解析 ➡️ 构建领域知识库
  • 历史用例语义检索 ➡️ 形成经验复用机制
  • 动态增强生成提示词 ➡️ 提升用例专业度

先看视频Demo

  1. 上传文档到知识库

  2. 第一次生成没选择使用知识库增强->设计的测试用例和手机号登录毫无关系

  3. 第二次选择使用知识库增强->设计的测试用例知道用手机号进行注册系统,并知道更多其他细节

    ,时长02:38


二、核心逻辑解析

2.1 系统架构全景


2.2 关键技术点说明

2.2.1 知识库构建模块def process_pdf(uploaded_file): # PDF分页提取文本 pdf_reader = PyPDF2.PdfReader(filepath) # 智能分段规则,略简单粗暴 paragraphs = re.split(r'\n\s*\n', text) # 结构化存储 segments.append({ 'segment_id': f"{filename}_{page_num}_{i}", 'document_name': uploaded_file.name, 'page_num': page_num + 1, 'content': paragraph })

创新点

  • 采用唯一段落ID
  • 按自然段落分割,保留上下文语义
  • 过滤无效短文本(<20字符)
2.2.2 增强检索引擎def find_similar_cases(new_req, df, top_k=3): # TF-IDF向量化 vectorizer = TfidfVectorizer() tfidf_matrix = vectorizer.fit_transform(...) # 余弦相似度计算 similarity = cosine_similarity(tfidf_matrix[-1], tfidf_matrix[:-1]) return top_indices

设计考量

  • 相比BM25算法更易实现
  • 计算效率:O(n)复杂度,千级数据实时响应
  • 结果可解释性强,适合调试
2.2.3 动态提示词工程system_prompt = f"""参考知识:文档《{item['document']}》第{item['page']}页:{item['content']}历史用例{idx+1}: {case}生成要求:1. JSON数组格式..."""

增强策略

  • 知识片段截断处理(单段≤512字符)
  • 优先级排序:领域知识 > 历史用例
  • 格式强约束(JSON Schema注入)

img


三、关键技术选型解析

3.1 什么是RAG?

检索增强生成(Retrieval-Augmented Generation)通过以下流程提升生成质量:

用户问题 → 知识检索 → 提示词增强 → 大模型生成 → 结果输出

与传统生成的区别:

  • 知识实时性

    无需重新训练模型

  • 数据安全性

    敏感信息不离域

  • 结果可控性

    通过检索结果引导生成方向

3.2 为什么不用向量数据库?

尽管向量数据库(如ChromaDB)在RAG中广泛应用,但本系统选择TF-IDF+CSV文件存储方案,原因包括:

维度向量数据库方案本系统方案
部署复杂度需单独部署服务零依赖,单文件运行
硬件要求需要GPU加速CPU即可运行
数据规模适合百万级数据千级文档最优
可维护性需要专业DBA直接修改CSV文件
学习成本需掌握查询语法开发者无需新知识

适合场景

  • 中小团队快速验证RAG价值
  • 领域文档更新频率较低(周级)
  • 测试数据规模<10万条

四、快速部署指南

4.1 环境准备

4.1.1 安装Python包# 核心依赖pip install streamlit pandas requests sklearn# PDF处理pip install PyPDF2 pdfminer.six# JSON修复pip install json_repair
4.1.2 获取API密钥
  1. 访问任何一个大模型提供商处注册账号,本文采用腾讯云

  2. 创建应用 → 获取sk-xxxx格式密钥

  3. 在代码中替换:

    headers = {"Authorization": "Bearer sk-xxxx"}
    

4.2 系统启动# 首次运行自动创建知识库目录mkdir -p temp# 启动Web服务streamlit run testcase_generator.py

4.3 功能验证流程

  1. 上传领域文档

    • 进入"知识库管理"页
    • 上传PDF格式需求文档/接口文档
    • 查看处理后的知识段落
  2. 生成增强用例

    需求示例:    用户管理模块,包括用户注册和登陆等
    • 勾选"使用知识库增强"
    • 查看生成的边界值测试用例

img

img

  1. 结果导出

    python

    pd.DataFrame(new_cases).to_excel("output.xlsx")
    
    • 直接复制JSON用例
    • 通过Pandas导出Excel:

五、性能优化建议(有精力有能力的动手爱好者们可以继续优化)

5.1 知识库分级存储# knowledge_segments.csv新增字段knowledge_df['category'] = "需求文档" # 需求文档|接口规范|测试报告knowledge_df['importance'] = 5 # 1-5分级

检索时优先高等级知识片段

5.2 缓存机制from functools import lru_cache@lru_cache(maxsize=100)def load_cases(): # 缓存历史用例加载

5.3 异步处理import asyncioasync def async_generate_cases(): # 非阻塞生成


六、扩展方向

  1. 多模态支持:解析图片中的需求文档(OCR技术)
  2. 自动化评审:添加用例质量评分模型
  3. CI/CD集成:与Jenkins/GitLab对接自动触发

DeepSeek无疑是2025开年AI圈的一匹黑马,在一众AI大模型中,DeepSeek以低价高性能的优势脱颖而出。DeepSeek的上线实现了AI界的又一大突破,各大科技巨头都火速出手,争先抢占DeepSeek大模型的流量风口。

DeepSeek的爆火,远不止于此。它是一场属于每个人的科技革命,一次打破界限的机会,一次让普通人也能逆袭契机。

DeepSeek的优点

read-normal-img

掌握DeepSeek对于转行大模型领域的人来说是一个很大的优势,目前懂得大模型技术方面的人才很稀缺,而DeepSeek就是一个突破口。现在越来越多的人才都想往大模型方向转行,对于想要转行创业,提升自我的人来说是一个不可多得的机会。

那么应该如何学习大模型

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

想正式转到一些新兴的 AI 行业,不仅需要系统的学习AI大模型。同时也要跟已有的技能结合,辅助编程提效,或上手实操应用,增加自己的职场竞争力。

大模型岗位需求越来越大,但是相关岗位人才难求,薪资持续走高,AI运营薪资平均值约18457元,AI工程师薪资平均值约37336元,大模型算法薪资平均值约39607元。

read-normal-img

掌握大模型技术你还能拥有更多可能性:

• 成为一名全栈大模型工程师,包括Prompt,LangChain,LoRA等技术开发、运营、产品等方向全栈工程;

• 能够拥有模型二次训练和微调能力,带领大家完成智能对话、文生图等热门应用;

• 薪资上浮10%-20%,覆盖更多高薪岗位,这是一个高需求、高待遇的热门方向和领域;

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把都打包整理好,希望能够真正帮助到大家。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

read-normal-img

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

read-normal-img

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

read-normal-img

read-normal-img

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

read-normal-img

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费在这里插入图片描述

Logo

欢迎加入DeepSeek 技术社区。在这里,你可以找到志同道合的朋友,共同探索AI技术的奥秘。

更多推荐