04 — AI 测试用例生成与评审实战
04 — AI 测试用例生成与评审实战从 Prompt 模板到 Skill 自动化让 AI 帮你写用例面向财政系统业务场景作者浅木·先生版本v1.02026-05-29目录一、现状AI 生成用例到底能不能用二、Prompt 模板库10 个可直接套用三、Harness 接口知识库方法论四、Skill 驱动从手动到自动五、用例审核量化评审体系六、需求评审从源头堵住 Bug七、企业级落地案例与踩坑八、财政系统落地建议一、现状AI 生成用例到底能不能用结论绝对能用但有条件。质量公式用例质量 智能体能力 × 提示词质量 × 模型能力 × 需求文档质量四个因素缺一个都不行因素影响最低要求智能体Agent/Skill决定是否能理解上下文能加载参考文献提示词决定生成的精准度结构化、约束输出格式模型决定推理深度中文能力好DeepSeek/千问需求文档决定信息是否完整包含角色-操作-预期结果AI 能做什么、不能做什么AI 擅长AI 不擅长正向流程用例按文档理解业务潜规则校验边界值自动推导上下限跨系统感觉不对接口参数组合自动枚举探索性场景格式规范统一输出模板理解业务歧义大批量生成50 用例/10分钟判断这个结果对不对最佳分工模式AI 写初稿80%人工做审核20%二、Prompt 模板库10 个可直接套用模板 1通用框架四要素【角色定位】 你是一名资深的软件测试工程师擅长功能测试设计。 【背景信息】 系统类型[预算管理系统 / 支付审批系统 / 政府采购系统] 业务规则[具体业务约束条件] 技术约束[前后端分离 / 微服务 / 单点登录] 【覆盖维度】 - 正向流程 - 异常流程 - 边界值 - 权限场景 【输出格式】 | 用例编号 | 模块 | 功能点 | 用例标题 | 前置条件 | 步骤 | 预期结果 | 优先级 |模板 2接口测试你是一名接口测试专家。 接口信息 - URL: POST /api/budget/create - 请求体: {year: 2026, amount: 100000, dept: 财务处} - 响应: {code: 200, message: 创建成功} 请从以下维度生成接口测试用例 1. 正常创建各类合法参数组合 2. 参数缺失必填字段缺一个 3. 参数类型错误字符串传数字等 4. 边界值金额 0 / 负数 / 极大值 5. 权限校验无权用户调用 6. 重复提交幂等性 格式Markdown 表格模板 3边界值测试请为以下字段生成边界值测试用例 - 预算金额decimal(18,2)范围 0.01 ~ 999999999999.99 - 项目名称varchar(200) - 审批层级int1~5 级 每个字段至少 5 个边界值标注预期结果。模板 4权限测试系统角色 - 系统管理员查看/编辑/审批/删除 - 预算填报人查看/编辑 - 部门审批人查看/审批 测试场景 1. 角色 A 能操作的功能角色 B 是否能看到入口 2. 无权限直接访问 URL 是否被拦截 3. 接口层面绕过前端校验直接调用 请生成完整权限矩阵 测试用例。模板 5异常场景请为以下场景生成异常测试用例 预算申报流程 — 填报 → 部门审批 → 财务审核 → 领导审批 异常维度 1. 每个环节跳过不走流程直接审核 2. 每个环节退回退回后再提交 3. 并发操作两人同时审批 4. 数据异常预算超支提交 5. 网络异常审批中断后重连模板 6安全测试请为以下财政系统功能生成安全测试用例 1. SQL 注入登录框 / 查询框 2. XSS输入框 / 富文本 3. CSRF关键操作是否有 Token 校验 4. 越权访问修改 URL 参数访问他人数据 5. 敏感信息泄露接口返回是否包含密码/手机号模板 7兼容性测试请生成兼容性测试用例 浏览器Chrome 最新版 / Firefox 最新版 / Edge 分辨率1920×1080 / 1440×900 / 1366×768 / 768×1024平板 核心验证点 - 页面布局是否自适应 - 表格列宽是否正常 - 弹窗是否居中 - 按钮是否可见可点击模板 8数据驱动测试请生成数据驱动测试用例 场景预算查询列表 数据维度 - 年度2024 / 2025 / 2026 - 部门财务处 / 办公室 / 信息中心 / 全部 - 状态草稿 / 已提交 / 已审批 / 已驳回 - 关键词项目编号 / 项目名称 输出用笛卡尔积列出所有组合减掉不合理的组合模板 9回归测试选择代码变更内容 - 修改了 budget_service.py 文件 - 修改了 /api/budget/list 接口的分页逻辑 - 修改了前端预算列表页的表格渲染 请根据变更影响范围推荐需要回归的测试用例 1. 受影响的功能点直接关联 2. 可能受影响的功能点间接关联 3. 不受影响可以不测的模块排除模板 10性能测试 Prompt请为以下接口生成 Locust 压测脚本Python 接口POST /api/budget/create 场景100 用户并发ramp-up 10 秒持续 60 秒 验证成功率 99%P95 响应时间 2s 输出完整的 Locust 脚本 JMeter .jmx 文件可选三、Harness 接口知识库方法论为什么需要接口知识库Swagger 只回答了接口怎么调没回答为什么这样设计。知识库四要素要素说明示例结构化机器可读的格式YAML / JSON关联化知道谁调谁预算创建→支付接口可查询能快速检索RAG 向量库可验证能测试调用并断言知识库示例YAML 格式# interface-knowledge/budget.yamlinterface:name:预算创建path:POST /api/budget/createdesc:创建新的预算申报单business_rules:-年度只能为当前年份或明年-金额不能超过部门预算总额-项目名称不能重复同部门同年份related:-POST /api/budget/approve# 审批-GET /api/budget/list# 查询-POST /api/payment/create# 支付下游historical_bugs:-金额为 0 时接口返回 200 但数据库插入失败-特殊字符(单引号/引号)导致 SQL 报错与 MR 联动智能回归代码合并请求MR → 自动检索受影响的接口 → 提取对应知识库中的业务规则 → AI 生成针对性测试用例 → 自动执行回归四、Skill 驱动从手动到自动四步法让 AI 生成符合你思维逻辑的用例Step 1: AI 生成初稿用上面任一 Prompt 模板 Step 2: 人工审核 修改按你的业务经验 Step 3: 将修改后的用例喂给 AI 学习反向训练 Step 4: 反复磨合 → AI 提炼出符合你思维逻辑的 Skill关键不需要一次完美迭代 2-3 轮后 AI 生成的用例质量会明显提升。接口测试用例生成 Skillapi-testcase-generator输入Swagger 2.0 / OpenAPI 3.0 / Postman Collection v2.1输出Markdown 表格 / CSV / Postman Collection JSON多维度生成正常用例正向流程错误用例异常参数边界值用例参数边界认证场景无 Token / Token 过期 / 权限不足交叉验证组合参数分页场景财政系统场景财政系统接口繁多一个一体化系统可能有 3000 接口用此 Skill 从 Swagger 文档批量生成接口用例节省 99% 手写时间。文档驱动用例生成 Skilldoc-based-testcase-generator设计方法正向/反向/边界值/等价类/状态流程/场景法输入PRD / 需求文档 / 接口文档输出结构化测试用例文档财政系统场景财政系统的新政策发布时PRD 文档可直接转化为测试用例规范统一、覆盖全面。五、用例审核量化评审体系为什么需要量化评审传统用例评审的问题是张三说不错李四说还行——全凭经验没有标准。评分体系维度权重评分标准覆盖度30%正向/负向/边界是否全部覆盖清晰度25%步骤是否可执行有没有歧义可执行性20%是否有前置条件、预期结果是否明确关联性15%是否关联了需求和缺陷编号可维护性10%是否用了参数化避免硬编码评分等级≥90 分 → 优秀可直接入库70-89 分 → 良好需微调后入库50-69 分 → 需大幅修改50 分 → 重写审核 Skill 输出模板## 用例审核报告 总评分82/100良好 ### 各维度得分 | 维度 | 得分 | 说明 | |------|------|------| | 覆盖度 | 85 | 缺少一个异常场景金额超限 | | 清晰度 | 90 | 步骤明确无歧义 | | 可执行性 | 80 | 缺少前置条件的设置步骤 | | 关联性 | 75 | 未关联需求编号 | | 可维护性 | 70 | 金额参数可抽取为变量 | ### 优化建议 1. 补充异常场景金额超过部门预算总额 2. 补充前置条件登录 进入预算编制页面 3. 关联需求编号REQ-2026-001六、需求评审从源头堵住 BugAI 需求评审检测维度维度检测内容功能完整性有没有遗漏功能点数据准确性字段定义是否明确业务规则规则是否有歧义用户体验交互流程是否合理风险识别是否有潜在的技术实现风险测试质疑问题模板【功能完整性】 - 这个功能有没有遗漏的分支 - 用户操作到一半退出怎么办 【数据准确性】 - 金额是指含税还是不含税 - 审批是指部门审批还是财务审批 【业务规则】 - 规则 A 和规则 B 冲突时怎么处理 - 有没有隐含的行业规范没有写出来 【用户体验】 - 操作失败后用户怎么知道 - 长时间加载有没有进度提示七、企业级落地案例与踩坑案例飞猪 AI 测试新范式指标优化前优化后用例维护全量维护维护降 70%漏测率较高减半死循环偶发归零踩坑 1“以为给一份需求文档就够了”AI 需要结构化的需求文档包含角色-操作-预期结果表格。给一段散文式 PRDAI 生成的用例质量很差。解法需求文档结构化关键信息用表格呈现。踩坑 2“以为堆 Prompt 就能解决”不是提示词越长越好。500 字以上 Prompt 也会让 AI迷失。关键是指定输出格式而非描述需求细节。解法Prompt 控制在 200~400 字重点约束输出格式。踩坑 3“以为多 Agent 协作就能覆盖全”多 Agent 需要明确分工和衔接机制。一个 Agent 负责功能用例另一个负责异常用例 — 但衔接处容易遗漏。解法每个 Agent 的输入/输出边界必须明确。八、财政系统落地建议最佳实践组合业务理解 → 用 Harness 知识库存财政业务规则 用例生成 → 用 Prompt 模板套用财政场景 用例审核 → 用审核 Skill评分体系 用例管理 → 用 TestHub / 测试管理平台分级实施阶段内容目标L1套用 Prompt 模板手工生成用例先跑通流程L2搭建接口知识库AI 生成接口用例提升效率L3用例审核 Skill 覆盖统一质量标准L4需求评审 用例生成 审核全链路全流程 AI建议配合 02-Agent-Skills-MCP-测试实战指南.md 一起使用