Back to Prompt Optimizer

Response

docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/synthetic-hiring-replica-semantic-instability/response.md

2.10.216.6 KB
Original Source
json
{
  "type": "compare",
  "score": {
    "overall": 65,
    "dimensions": [
      {
        "key": "goalAchievementRobustness",
        "label": "目标达成稳定性",
        "score": 40
      },
      {
        "key": "outputQualityCeiling",
        "label": "输出质量上限",
        "score": 85
      },
      {
        "key": "promptPatternQuality",
        "label": "提示词模式质量",
        "score": 80
      },
      {
        "key": "crossSnapshotRobustness",
        "label": "跨快照鲁棒性",
        "score": 35
      },
      {
        "key": "workspaceTransferability",
        "label": "对工作区的可迁移性",
        "score": 70
      }
    ]
  },
  "improvements": [
    "在简历筛选总结任务中,要求输出字段(如strengths, risks)‘紧扣岗位要求,避免泛泛而谈’,能有效引导模型生成更具体、更具信息量的评估点。",
    "明确的输出格式指令(如‘只输出 JSON 对象’)和字段枚举值(如hire/hold/reject),有助于确保响应的结构一致性和规范性。"
  ],
  "summary": "Target相比Baseline在输出结构化和内容针对性上有明确进步,且与Reference质量相当,但重复执行时核心决策(如录用建议)发生漂移,稳定性存在严重问题,且提示词改进的收益可能部分依赖于当前样例与岗位的高匹配度。",
  "patchPlan": [],
  "metadata": {
    "compareMode": "structured",
    "compareStopSignals": {
      "targetVsBaseline": "improved",
      "targetVsReferenceGap": "none",
      "improvementHeadroom": "low",
      "overfitRisk": "high",
      "stopRecommendation": "review",
      "stopReasons": [
        "replica evidence suggests unstable behavior",
        "pairwise judges flagged possible sample overfit"
      ]
    },
    "model": "deepseek",
    "timestamp": 1774176504604,
    "duration": 24372,
    "compareJudgements": [
      {
        "pairKey": "target-vs-baseline",
        "pairType": "targetBaseline",
        "pairLabel": "Target vs Baseline",
        "leftSnapshotId": "a",
        "leftSnapshotLabel": "A",
        "leftRole": "target",
        "rightSnapshotId": "b",
        "rightSnapshotLabel": "B",
        "rightRole": "baseline",
        "verdict": "left-better",
        "winner": "left",
        "confidence": "high",
        "pairSignal": "improved",
        "analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。",
        "evidence": [
          "Target (A) 的 prompt 明确要求 '只输出 JSON 对象,字段为 recommendation, strengths, risks',其输出严格遵守此格式,为合法的 JSON 对象。Baseline (B) 的 prompt 仅要求 '输出 recommendation, strengths, risks',未明确指定 JSON 格式,但其输出也恰好是合法的 JSON 对象。两者在硬边界(输出协议)上均未违例。",
          "Target (A) 的 prompt 额外要求 'strengths 和 risks 都要紧扣岗位要求,避免泛泛而谈'。其输出中的 strengths (['有 6 年 B2B SaaS 产品经验', '做过权限系统和审计日志,和岗位高度相关']) 和 risks (['英语一般,海外客户沟通能力待确认', '近期没有直接带人经验']) 均明确对应了输入中提到的岗位要求(权限/审计场景、海外客户沟通、团队协作经验)。",
          "Baseline (B) 的输出 strengths (['经验较匹配']) 和 risks (['英语一般']) 过于笼统,未具体展开与岗位要求的关联,也未提及“近期没有直接带人经验”这一关键风险点,信息量和针对性均显不足。"
        ],
        "learnableSignals": [
          "在简历筛选总结任务中,要求输出字段 '紧扣岗位要求,避免泛泛而谈' 能有效引导模型生成更具体、更具信息量的评估点。",
          "明确的输出格式指令(如'只输出 JSON 对象')有助于确保响应的结构一致性。"
        ],
        "overfitWarnings": []
      },
      {
        "pairKey": "target-vs-reference",
        "pairType": "targetReference",
        "pairLabel": "Target vs Reference",
        "leftSnapshotId": "a",
        "leftSnapshotLabel": "A",
        "leftRole": "target",
        "rightSnapshotId": "c",
        "rightSnapshotLabel": "C",
        "rightRole": "reference",
        "verdict": "similar",
        "winner": "none",
        "confidence": "high",
        "pairSignal": "none",
        "analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。",
        "evidence": [
          "两者 recommendation 均为 'hold',判断逻辑一致。",
          "两者 strengths 均聚焦于 B2B SaaS 经验和权限/审计日志场景,与岗位要求高度相关。",
          "两者 risks 均指出了英语沟通和近期管理经验问题,紧扣岗位要求。",
          "两者均输出合法 JSON,字段正确,无额外说明或格式违例。"
        ],
        "learnableSignals": [],
        "overfitWarnings": []
      },
      {
        "pairKey": "reference-vs-reference-baseline",
        "pairType": "referenceBaseline",
        "pairLabel": "Reference vs Reference Baseline",
        "leftSnapshotId": "c",
        "leftSnapshotLabel": "C",
        "leftRole": "reference",
        "rightSnapshotId": "d",
        "rightSnapshotLabel": "D",
        "rightRole": "referenceBaseline",
        "verdict": "left-better",
        "winner": "left",
        "confidence": "high",
        "pairSignal": "supported",
        "analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。",
        "evidence": [
          "左侧提示词明确要求输出JSON对象,字段为recommendation, strengths, risks,并规定recommendation只能是hire、hold、reject之一。右侧提示词仅要求输出相同字段,但未规定格式和枚举值。",
          "左侧输出严格遵守JSON格式,strengths和risks紧扣岗位要求(如“权限系统和审计日志经验与岗位核心场景强相关”、“跨海外客户沟通需进一步验证”)。右侧输出虽为JSON格式,但内容泛泛(如“岗位相关经验较多”、“管理经历偏弱”),未紧扣岗位具体要求。",
          "两侧的recommendation结论一致(均为hold),表明核心判断未因提示词细化而改变,但左侧的分析深度和针对性显著提升。"
        ],
        "learnableSignals": [
          "在提示词中明确指定输出格式(如JSON)和字段的枚举值(如hire/hold/reject),可以强制模型生成更结构化、更规范的输出。",
          "在提示词中要求分析内容“紧扣岗位要求,避免泛泛而谈”,能有效引导模型生成更具针对性和深度的分析,而非通用描述。"
        ],
        "overfitWarnings": [
          "当前样例中,候选人经验与岗位要求(权限/审计)高度匹配,这可能放大了左侧提示词要求“紧扣岗位要求”所带来的收益。对于经验与岗位要求匹配度不高的候选人,此收益可能减弱。"
        ]
      },
      {
        "pairKey": "target-vs-replica",
        "pairType": "targetReplica",
        "pairLabel": "Target vs Replica",
        "leftSnapshotId": "a",
        "leftSnapshotLabel": "A",
        "leftRole": "target",
        "rightSnapshotId": "e",
        "rightSnapshotLabel": "E",
        "rightRole": "replica",
        "verdict": "mixed",
        "winner": "none",
        "confidence": "high",
        "pairSignal": "unstable",
        "analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。",
        "evidence": [
          "核心字段 `recommendation` 的值从 `\"hold\"` (left) 变为 `\"hire\"` (right)。",
          "`risks` 字段中关于“英语一般”的表述从客观描述“海外客户沟通能力待确认” (left) 变为带有主观判断的“但可通过团队支持弥补” (right)。"
        ],
        "learnableSignals": [
          "重复执行时,核心决策字段(如 recommendation)的值发生漂移是典型的不稳定信号。",
          "风险(risks)的表述从客观事实转向主观辩护,表明输出意图或模型内部推理路径不一致。"
        ],
        "overfitWarnings": [
          "右侧(replica)输出中“但可通过团队支持弥补”的表述,可能过度拟合了当前输入中“英语一般”这一具体信息,并进行了超出要求的乐观推断。"
        ]
      }
    ],
    "snapshotRoles": {
      "a": "target",
      "b": "baseline",
      "c": "reference",
      "d": "referenceBaseline",
      "e": "replica"
    },
    "compareInsights": {
      "pairHighlights": [
        {
          "pairKey": "target-vs-baseline",
          "pairType": "targetBaseline",
          "pairLabel": "Target vs Baseline",
          "pairSignal": "improved",
          "verdict": "left-better",
          "confidence": "high",
          "analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。"
        },
        {
          "pairKey": "target-vs-reference",
          "pairType": "targetReference",
          "pairLabel": "Target vs Reference",
          "pairSignal": "none",
          "verdict": "similar",
          "confidence": "high",
          "analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。"
        },
        {
          "pairKey": "reference-vs-reference-baseline",
          "pairType": "referenceBaseline",
          "pairLabel": "Reference vs Reference Baseline",
          "pairSignal": "supported",
          "verdict": "left-better",
          "confidence": "high",
          "analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。"
        },
        {
          "pairKey": "target-vs-replica",
          "pairType": "targetReplica",
          "pairLabel": "Target vs Replica",
          "pairSignal": "unstable",
          "verdict": "mixed",
          "confidence": "high",
          "analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。"
        }
      ],
      "progressSummary": {
        "pairKey": "target-vs-baseline",
        "pairType": "targetBaseline",
        "pairLabel": "Target vs Baseline",
        "pairSignal": "improved",
        "verdict": "left-better",
        "confidence": "high",
        "analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。"
      },
      "referenceGapSummary": {
        "pairKey": "target-vs-reference",
        "pairType": "targetReference",
        "pairLabel": "Target vs Reference",
        "pairSignal": "none",
        "verdict": "similar",
        "confidence": "high",
        "analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。"
      },
      "promptChangeSummary": {
        "pairKey": "reference-vs-reference-baseline",
        "pairType": "referenceBaseline",
        "pairLabel": "Reference vs Reference Baseline",
        "pairSignal": "supported",
        "verdict": "left-better",
        "confidence": "high",
        "analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。"
      },
      "stabilitySummary": {
        "pairKey": "target-vs-replica",
        "pairType": "targetReplica",
        "pairLabel": "Target vs Replica",
        "pairSignal": "unstable",
        "verdict": "mixed",
        "confidence": "high",
        "analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。"
      },
      "evidenceHighlights": [
        "Target (A) 的 prompt 明确要求 '只输出 JSON 对象,字段为 recommendation, strengths, risks',其输出严格遵守此格式,为合法的 JSON 对象。Baseline (B) 的 prompt 仅要求 '输出 recommendation, strengths, risks',未明确指定 JSON 格式,但其输出也恰好是合法的 JSON 对象。两者在硬边界(输出协议)上均未违例。",
        "Target (A) 的 prompt 额外要求 'strengths 和 risks 都要紧扣岗位要求,避免泛泛而谈'。其输出中的 strengths (['有 6 年 B2B SaaS 产品经验', '做过权限系统和审计日志,和岗位高度相关']) 和 risks (['英语一般,海外客户沟通能力待确认', '近期没有直接带人经验']) 均明确对应了输入中提到的岗位要求(权限/审计场景、海外客户沟通、团队协作经验)。",
        "Baseline (B) 的输出 strengths (['经验较匹配']) 和 risks (['英语一般']) 过于笼统,未具体展开与岗位要求的关联,也未提及“近期没有直接带人经验”这一关键风险点,信息量和针对性均显不足。",
        "两者 recommendation 均为 'hold',判断逻辑一致。",
        "两者 strengths 均聚焦于 B2B SaaS 经验和权限/审计日志场景,与岗位要求高度相关。",
        "两者 risks 均指出了英语沟通和近期管理经验问题,紧扣岗位要求。"
      ],
      "learnableSignals": [
        "在简历筛选总结任务中,要求输出字段 '紧扣岗位要求,避免泛泛而谈' 能有效引导模型生成更具体、更具信息量的评估点。",
        "明确的输出格式指令(如'只输出 JSON 对象')有助于确保响应的结构一致性。",
        "在提示词中明确指定输出格式(如JSON)和字段的枚举值(如hire/hold/reject),可以强制模型生成更结构化、更规范的输出。",
        "在提示词中要求分析内容“紧扣岗位要求,避免泛泛而谈”,能有效引导模型生成更具针对性和深度的分析,而非通用描述。",
        "重复执行时,核心决策字段(如 recommendation)的值发生漂移是典型的不稳定信号。",
        "风险(risks)的表述从客观事实转向主观辩护,表明输出意图或模型内部推理路径不一致。"
      ],
      "overfitWarnings": [
        "当前样例中,候选人经验与岗位要求(权限/审计)高度匹配,这可能放大了左侧提示词要求“紧扣岗位要求”所带来的收益。对于经验与岗位要求匹配度不高的候选人,此收益可能减弱。",
        "右侧(replica)输出中“但可通过团队支持弥补”的表述,可能过度拟合了当前输入中“英语一般”这一具体信息,并进行了超出要求的乐观推断。"
      ],
      "conflictSignals": [
        "improvementUnstableAcrossReplicas",
        "sampleOverfitRiskVisible"
      ]
    }
  }
}