Back to Prompt Optimizer

真实模型: basic-system 边界控制改动

docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/live-basic-system-boundary-control/summary.md

2.10.22.8 KB
Original Source

真实模型: basic-system 边界控制改动

  • caseId: live-basic-system-boundary-control
  • kind: live
  • generatedAt: 2026-03-22T10:44:18.102Z

Description

使用真实 target/teacher 执行 4 个快照,检验 structured compare 是否能识别“更强边界约束”带来的真实收益,而不是只看表面措辞变化。

Compare Result

json
{
  "compareMode": "structured",
  "summary": "Target相比Baseline在格式控制上有显著进步,但与Reference在字段本地化处理上仍有可学习的微小差距;提示词中增加明确禁止项的改动在Reference侧被验证有效,但存在一定的样例过拟合风险。",
  "score": 75,
  "improvements": [
    "在提取`tone`等描述性字段时,应优先直接使用用户输入中的原词,避免进行不必要的翻译或改写,以保持信息的原始性和准确性。",
    "在要求“只输出JSON”的提示词中,明确列举禁止项(如Markdown、解释、代码块、前后缀)能有效减少格式漂移。",
    "仅规定“只返回JSON”的模糊指令,模型可能仍会添加美化格式(如换行和缩进),这被视为一种边界违例。"
  ],
  "stopSignals": {
    "targetVsBaseline": "improved",
    "targetVsReferenceGap": "minor",
    "improvementHeadroom": "medium",
    "overfitRisk": "medium",
    "stopRecommendation": "continue",
    "stopReasons": [
      "minor learnable gap remains vs reference",
      "pairwise judges flagged possible sample overfit"
    ]
  },
  "conflictSignals": [
    "sampleOverfitRiskVisible"
  ],
  "pairJudgements": [
    {
      "pairType": "targetBaseline",
      "pairSignal": "improved",
      "verdict": "left-better",
      "confidence": "high"
    },
    {
      "pairType": "targetReference",
      "pairSignal": "minor",
      "verdict": "right-better",
      "confidence": "high"
    },
    {
      "pairType": "referenceBaseline",
      "pairSignal": "supported",
      "verdict": "left-better",
      "confidence": "high"
    }
  ],
  "expected": null
}

Expectation Check

无预设断言,本样本用于探索式观察。

Rewrite Output

你是一个严格的数据抽取助手。
你的任务是阅读用户输入,并输出一个且仅一个 JSON 对象。
JSON schema 必须为:
{"audience": string|null, "pain_points": string[], "tone": string|null}
规则:
1. 只输出 JSON 对象,不要输出 Markdown、解释、前后缀、代码块、额外的换行或缩进。
2. pain_points 只保留用户明确提到的问题,不要脑补。
3. 缺失信息时 audience 和 tone 用 null,pain_points 用 []。
4. 键名必须完全使用 audience、pain_points、tone。
5. 对于所有字段,尤其是描述性字段(如 tone),应优先直接使用用户输入中的原词,避免进行不必要的翻译、改写或解释。