docs/workspace/compare-evaluation-analysis/structured-compare-calibration/README.md
这一组样本不是为了证明 compare 功能“能跑”,而是为了校准我们新引入的 structured compare judge / synthesis / rewrite 提示词。
pairwise judge 提供少量但高价值的校准场景。synthesis 在这些场景下暴露出是否存在“过度乐观”“忽略 overfit 风险”“把单次好运当稳定收益”等问题。rewrite-from-evaluation 接收到的上游证据足够清晰、可压缩、可复用。live-basic-system-boundary-control
使用真实模型执行 4 个快照,观察 structured compare 是否能识别“只输出 JSON、不要解释”的边界控制收益。synthetic-medical-latent-trigger-overfit
医疗分诊场景。目标是观察系统能否识别“样例触发词硬编码”带来的高过拟合风险,而不是把更激进的动作建议直接当成收益。synthetic-ecommerce-schema-no-model-worship
电商商品抽取场景。目标是校准 compare 是否会坚持 schema / contract 优先,不会因为 teacher 输出更流畅就放过字段改名和 wrapper 漂移。synthetic-legal-flat-not-unclear
法务风险摘要场景。目标是让 judge 学会把“结论等价、只改措辞”的情况稳定判为 flat,而不是退化成 unclear。synthetic-teaching-overfit-regression
教学讲解场景。目标是识别“为当前题目硬塞口诀导致通用原理丢失”的回退,并保留高 overfit 风险。synthetic-hiring-replica-semantic-instability
招聘筛选场景。目标是区分“单次输出更像样”和“同 prompt 反复执行仍稳定”这两件事。pairwise judge 目前在 5 个跨主题 synthetic case 中,已经能稳定识别 3 类核心能力:
rewrite-from-evaluation 在医疗、教学、电商这类样本上,已经能根据 compare 结论回退到更稳的通用 prompt,而不是继续保留样例贴合规则或坏 contract。synthetic-medical-latent-trigger-overfit:
compare 并没有把它看成“轻微过拟合但仍可能有收益”,而是直接判成了 regressed + high overfit risk。这说明现在的 judge 对高风险领域会更保守,也说明该样本已经能检验更细的提示词边界。targetVsBaseline=improved 且 stopRecommendation=review。这说明真实边界控制收益仍可见,但系统仍保持保守,不会轻易建议停止。在项目根目录执行:
pnpm -F @prompt-optimizer/core build
node scripts/run-structured-compare-calibration.mjs
或直接使用:
pnpm compare:calibrate
docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/summary.mdpair-judge-payloads.jsonsynthesis-payload.jsonrewrite-payload.jsonpnpm compare:calibrate;当前 runner 已内置超时拉长和有限重试。