Structured Compare Calibration

这一组样本不是为了证明 compare 功能“能跑”，而是为了校准我们新引入的 structured compare judge / synthesis / rewrite 提示词。

目标

live-basic-system-boundary-control 使用真实模型执行 4 个快照，观察 structured compare 是否能识别“只输出 JSON、不要解释”的边界控制收益。
synthetic-medical-latent-trigger-overfit 医疗分诊场景。目标是观察系统能否识别“样例触发词硬编码”带来的高过拟合风险，而不是把更激进的动作建议直接当成收益。
synthetic-ecommerce-schema-no-model-worship 电商商品抽取场景。目标是校准 compare 是否会坚持 schema / contract 优先，不会因为 teacher 输出更流畅就放过字段改名和 wrapper 漂移。
synthetic-legal-flat-not-unclear 法务风险摘要场景。目标是让 judge 学会把“结论等价、只改措辞”的情况稳定判为 flat，而不是退化成 unclear。
synthetic-teaching-overfit-regression 教学讲解场景。目标是识别“为当前题目硬塞口诀导致通用原理丢失”的回退，并保留高 overfit 风险。
synthetic-hiring-replica-semantic-instability 招聘筛选场景。目标是区分“单次输出更像样”和“同 prompt 反复执行仍稳定”这两件事。

在项目根目录执行：

bash

pnpm -F @prompt-optimizer/core build
node scripts/run-structured-compare-calibration.mjs

或直接使用：

bash

pnpm compare:calibrate

总结：docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/summary.md
每个 case 的 request / response / rewrite / llm-calls 都在对应子目录中。
每个 case 还会落盘：
- pair-judge-payloads.json
- synthesis-payload.json
- rewrite-payload.json

如果 synthetic case 没命中预期，优先改 compare judge / synthesis 提示词。
如果 live case 的 stopSignals 合理，但 rewrite 输出方向仍然跑偏，优先改 rewrite-from-evaluation 模板。
如果 rewrite 输出开始擅自改字段名、改 schema、改消息包装方式，先检查是否把“当前工作区 prompt 原文”和“参考 prompt 快照”一起喂给了 rewrite 模板。
如果 calibration 偶发被真实 API 超时打断，优先重跑 pnpm compare:calibrate；当前 runner 已内置超时拉长和有限重试。
如果 synthetic 与 live 表现相互矛盾，优先检查场景描述是否过于理想化，再决定是否扩充样本。