docs/workspace/compare-evaluation-analysis/manual-test-playbook.md
这份文档是“按步骤点击”的操作版。 目标不是覆盖所有历史验收点,而是帮助你手动验证这次 compare 阶段改造的核心功能是否真的可用。
本手册优先验证:
basic-system如果这条主链通过,说明本次 compare 阶段的主干能力已经基本可接受。
在项目根目录执行:
pnpm dev:fresh
启动后打开本地 Web 页面。
建议:
左侧原始提示词建议填这个:
你是一个客服助手。回答用户问题时:
1. 先判断问题类型。
2. 给出简洁且有帮助的回复。
3. 不要编造物流状态。
4. 不要输出与问题无关的建议。
右侧测试内容建议填这个:
用户说:订单一周还没发货,我很着急。
这个案例的好处是:
目标:
步骤:
basic-system 模式。v1。2。Run All。通过标准:
如果失败,优先记录:
Run All 后没有任何反应目标:
步骤:
4.1 的流程。通过标准:
重点观察:
目标:
步骤:
4.2。Compare DecisionCompare MetadataCompare InsightsPairwise Judgements通过标准:
Compare Metadata 里能看到 ModeMode 显示为 Structured 或 结构化进一步检查:
Snapshot Roles 里是否出现角色信息,例如:
TargetBaselineReferenceReference Baseline / ReplicaStop Signals 是否至少出现以下字段中的一部分:
targetVsBaselinetargetVsReferenceGapimprovementHeadroomoverfitRiskstopRecommendationPairwise Judgements 是否是按 pair 展示,而不是一段散文式总结如果这里通过,可以基本认为:
目标:
步骤:
智能改写 / Rewrite From Evaluation 按钮。通过标准:
v1 变成 v2,或继续递增建议再补做一步:
Run All,观察新版本输出是否也能正常生成。补充通过标准:
目标:
建议场景:
步骤:
targetbaselinereferencereferenceBaseline通过标准:
Snapshot Roles 和你刚刚选的角色一致Mode 仍然是 Structured如果没有弹窗,也可以手动点测试区里的 compare 配置按钮进入同样的弹窗。
目标:
步骤:
re-evaluate / 重新评估入口。通过标准:
这里最重要的是:
目标:
建议做法:
通过标准:
Mode 仍然是 Structured建议你按下面格式记一份最小结果:
[通过/失败] 4.1 基础链路
[通过/失败] 4.2 Compare 评估
[通过/失败] 4.3 Structured Compare 展示
[通过/失败] 4.4 智能改写生成新版本
[通过/失败] 4.5 角色配置弹窗
[通过/失败] 4.6 Stale 旧结果
[通过/失败] 4.7 空白差异不退化
如果失败,建议只补这三项:
模块:
步骤:
实际现象:
预期现象:
例如:
模块:basic-system / compare
步骤:点击 compare 评估后打开详情
实际现象:没有 Compare Insights,只有普通 summary
预期现象:应出现 structured compare 的 metadata / insights / pairwise judgements
如果你时间有限,至少验证这 5 条:
basic-system 两列测试可正常运行。Structured。Compare Decision / Metadata / Insights / Pairwise Judgements。只要这 5 条都过,我会认为这次 compare 阶段已经具备提交价值。