Cat2Bug-Platform利用DeepSeek生成测试用例

2025年首，DeepSeek席卷全球，也有一些朋友问我Cat2Bug何时可以接入DeepSeek，趁着这个周末，我来整理说明一下Cat2Bug下如何快速使用DeepSeek生成测试用例，顺便测试对比一下“DeepSeek”、“千问”和“llama”三种开源模型在创建中文测试用例时的优劣。

rohaha · 2025-02-17 09:15:00 发布

以上操作也可通过Demo平台进行体验

测试采用7b大小的三种模型，通过统一的提示词生成测试用例进行比较，提示词图下：

## 测试环境
测试一个登陆页面，其中页面中包含如下元素：
1. 登陆名称（3到32位数字、英文或中文字符）
2. 登陆密码（6到32位数字或英文）
3. 手机验证码（4位数组或英文）
4. 登陆按钮
## 测试要求
1. 测试页面元素的字符校验；
2. 测试登陆流程

以下是三种模型生成的测试用例截图

模型名称	模版版本	执行时间	生成用例稳定性	生成用例完整性	用例可用性
qwen2.5	7b	7秒	良	良	优
deepseek-r1	7b	10秒	优	良	差
llama3.2	7b	8秒	良	良	良

用例稳定性：
在实验中，每种模型分别创建了5次用例，每次要求创建5条用例数据，此次测试deepseek-r1比较稳定，而qwen2.5每次创建的数量在4至5条之间，llama3.2在返回时有时会反馈英文结果；
用例完整性：
在用例完整性上，三种模型均未完全达到理想状态，偶尔会缺少部分属性；
用例可用性：
令人失望的是，deepseek-r1生成的测试用例还无法直接使用，如用例标题全是英文加序号，测试步骤莫名输入两次账号密码等问题，而qwen2.5和llama3.2都能很好的根据不同属性分别生成测试用例；

综上所属，笔者还是推荐qwen2.5作为主要生成用例的模型使用。

需要注意，如果用户需要自己部署私有化的大模型平台，需要考虑硬件性能的问题，目前根据我们测试的结果，推荐的硬件参考如下：

模版大小	显卡型号	显卡数量	执行时间	使用场景
7b	RTX4060	1	10秒	个人或小团体使用，模型稳定性差，偶尔创建用例时会报错
7b	RTX4090 24G	2	5秒	有一定预算的个人或小团队使用，性能较快
7b	A100 40G	2	2秒	不建议A100使用7b模型
32b	RTX4060	1	20分	不建议RTX4060使用32b模型，执行非常慢
32b	RTX4090 24G	2	3分	研发或团队使用，个人感觉32b模型是一个分水岭，效果和稳定性较好
32b	A100 40G	2	30秒	预算充裕，对执行效果和时间有要求的用此方案
72b	RTX4060	1	30分	不建议RTX4060使用32b模型，执行非常慢
72b	RTX4090 24G	2	3分	不建议RTX4090使用72b模型，显存无法一次存放整个模型，性能较慢
72b	A100 40G	2	10秒	预算充裕，专业团队，推荐使用此方案