docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/synthetic-hiring-replica-semantic-instability/response.md
{
"type": "compare",
"score": {
"overall": 65,
"dimensions": [
{
"key": "goalAchievementRobustness",
"label": "目标达成稳定性",
"score": 40
},
{
"key": "outputQualityCeiling",
"label": "输出质量上限",
"score": 85
},
{
"key": "promptPatternQuality",
"label": "提示词模式质量",
"score": 80
},
{
"key": "crossSnapshotRobustness",
"label": "跨快照鲁棒性",
"score": 35
},
{
"key": "workspaceTransferability",
"label": "对工作区的可迁移性",
"score": 70
}
]
},
"improvements": [
"在简历筛选总结任务中,要求输出字段(如strengths, risks)‘紧扣岗位要求,避免泛泛而谈’,能有效引导模型生成更具体、更具信息量的评估点。",
"明确的输出格式指令(如‘只输出 JSON 对象’)和字段枚举值(如hire/hold/reject),有助于确保响应的结构一致性和规范性。"
],
"summary": "Target相比Baseline在输出结构化和内容针对性上有明确进步,且与Reference质量相当,但重复执行时核心决策(如录用建议)发生漂移,稳定性存在严重问题,且提示词改进的收益可能部分依赖于当前样例与岗位的高匹配度。",
"patchPlan": [],
"metadata": {
"compareMode": "structured",
"compareStopSignals": {
"targetVsBaseline": "improved",
"targetVsReferenceGap": "none",
"improvementHeadroom": "low",
"overfitRisk": "high",
"stopRecommendation": "review",
"stopReasons": [
"replica evidence suggests unstable behavior",
"pairwise judges flagged possible sample overfit"
]
},
"model": "deepseek",
"timestamp": 1774176504604,
"duration": 24372,
"compareJudgements": [
{
"pairKey": "target-vs-baseline",
"pairType": "targetBaseline",
"pairLabel": "Target vs Baseline",
"leftSnapshotId": "a",
"leftSnapshotLabel": "A",
"leftRole": "target",
"rightSnapshotId": "b",
"rightSnapshotLabel": "B",
"rightRole": "baseline",
"verdict": "left-better",
"winner": "left",
"confidence": "high",
"pairSignal": "improved",
"analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。",
"evidence": [
"Target (A) 的 prompt 明确要求 '只输出 JSON 对象,字段为 recommendation, strengths, risks',其输出严格遵守此格式,为合法的 JSON 对象。Baseline (B) 的 prompt 仅要求 '输出 recommendation, strengths, risks',未明确指定 JSON 格式,但其输出也恰好是合法的 JSON 对象。两者在硬边界(输出协议)上均未违例。",
"Target (A) 的 prompt 额外要求 'strengths 和 risks 都要紧扣岗位要求,避免泛泛而谈'。其输出中的 strengths (['有 6 年 B2B SaaS 产品经验', '做过权限系统和审计日志,和岗位高度相关']) 和 risks (['英语一般,海外客户沟通能力待确认', '近期没有直接带人经验']) 均明确对应了输入中提到的岗位要求(权限/审计场景、海外客户沟通、团队协作经验)。",
"Baseline (B) 的输出 strengths (['经验较匹配']) 和 risks (['英语一般']) 过于笼统,未具体展开与岗位要求的关联,也未提及“近期没有直接带人经验”这一关键风险点,信息量和针对性均显不足。"
],
"learnableSignals": [
"在简历筛选总结任务中,要求输出字段 '紧扣岗位要求,避免泛泛而谈' 能有效引导模型生成更具体、更具信息量的评估点。",
"明确的输出格式指令(如'只输出 JSON 对象')有助于确保响应的结构一致性。"
],
"overfitWarnings": []
},
{
"pairKey": "target-vs-reference",
"pairType": "targetReference",
"pairLabel": "Target vs Reference",
"leftSnapshotId": "a",
"leftSnapshotLabel": "A",
"leftRole": "target",
"rightSnapshotId": "c",
"rightSnapshotLabel": "C",
"rightRole": "reference",
"verdict": "similar",
"winner": "none",
"confidence": "high",
"pairSignal": "none",
"analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。",
"evidence": [
"两者 recommendation 均为 'hold',判断逻辑一致。",
"两者 strengths 均聚焦于 B2B SaaS 经验和权限/审计日志场景,与岗位要求高度相关。",
"两者 risks 均指出了英语沟通和近期管理经验问题,紧扣岗位要求。",
"两者均输出合法 JSON,字段正确,无额外说明或格式违例。"
],
"learnableSignals": [],
"overfitWarnings": []
},
{
"pairKey": "reference-vs-reference-baseline",
"pairType": "referenceBaseline",
"pairLabel": "Reference vs Reference Baseline",
"leftSnapshotId": "c",
"leftSnapshotLabel": "C",
"leftRole": "reference",
"rightSnapshotId": "d",
"rightSnapshotLabel": "D",
"rightRole": "referenceBaseline",
"verdict": "left-better",
"winner": "left",
"confidence": "high",
"pairSignal": "supported",
"analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。",
"evidence": [
"左侧提示词明确要求输出JSON对象,字段为recommendation, strengths, risks,并规定recommendation只能是hire、hold、reject之一。右侧提示词仅要求输出相同字段,但未规定格式和枚举值。",
"左侧输出严格遵守JSON格式,strengths和risks紧扣岗位要求(如“权限系统和审计日志经验与岗位核心场景强相关”、“跨海外客户沟通需进一步验证”)。右侧输出虽为JSON格式,但内容泛泛(如“岗位相关经验较多”、“管理经历偏弱”),未紧扣岗位具体要求。",
"两侧的recommendation结论一致(均为hold),表明核心判断未因提示词细化而改变,但左侧的分析深度和针对性显著提升。"
],
"learnableSignals": [
"在提示词中明确指定输出格式(如JSON)和字段的枚举值(如hire/hold/reject),可以强制模型生成更结构化、更规范的输出。",
"在提示词中要求分析内容“紧扣岗位要求,避免泛泛而谈”,能有效引导模型生成更具针对性和深度的分析,而非通用描述。"
],
"overfitWarnings": [
"当前样例中,候选人经验与岗位要求(权限/审计)高度匹配,这可能放大了左侧提示词要求“紧扣岗位要求”所带来的收益。对于经验与岗位要求匹配度不高的候选人,此收益可能减弱。"
]
},
{
"pairKey": "target-vs-replica",
"pairType": "targetReplica",
"pairLabel": "Target vs Replica",
"leftSnapshotId": "a",
"leftSnapshotLabel": "A",
"leftRole": "target",
"rightSnapshotId": "e",
"rightSnapshotLabel": "E",
"rightRole": "replica",
"verdict": "mixed",
"winner": "none",
"confidence": "high",
"pairSignal": "unstable",
"analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。",
"evidence": [
"核心字段 `recommendation` 的值从 `\"hold\"` (left) 变为 `\"hire\"` (right)。",
"`risks` 字段中关于“英语一般”的表述从客观描述“海外客户沟通能力待确认” (left) 变为带有主观判断的“但可通过团队支持弥补” (right)。"
],
"learnableSignals": [
"重复执行时,核心决策字段(如 recommendation)的值发生漂移是典型的不稳定信号。",
"风险(risks)的表述从客观事实转向主观辩护,表明输出意图或模型内部推理路径不一致。"
],
"overfitWarnings": [
"右侧(replica)输出中“但可通过团队支持弥补”的表述,可能过度拟合了当前输入中“英语一般”这一具体信息,并进行了超出要求的乐观推断。"
]
}
],
"snapshotRoles": {
"a": "target",
"b": "baseline",
"c": "reference",
"d": "referenceBaseline",
"e": "replica"
},
"compareInsights": {
"pairHighlights": [
{
"pairKey": "target-vs-baseline",
"pairType": "targetBaseline",
"pairLabel": "Target vs Baseline",
"pairSignal": "improved",
"verdict": "left-better",
"confidence": "high",
"analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。"
},
{
"pairKey": "target-vs-reference",
"pairType": "targetReference",
"pairLabel": "Target vs Reference",
"pairSignal": "none",
"verdict": "similar",
"confidence": "high",
"analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。"
},
{
"pairKey": "reference-vs-reference-baseline",
"pairType": "referenceBaseline",
"pairLabel": "Reference vs Reference Baseline",
"pairSignal": "supported",
"verdict": "left-better",
"confidence": "high",
"analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。"
},
{
"pairKey": "target-vs-replica",
"pairType": "targetReplica",
"pairLabel": "Target vs Replica",
"pairSignal": "unstable",
"verdict": "mixed",
"confidence": "high",
"analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。"
}
],
"progressSummary": {
"pairKey": "target-vs-baseline",
"pairType": "targetBaseline",
"pairLabel": "Target vs Baseline",
"pairSignal": "improved",
"verdict": "left-better",
"confidence": "high",
"analysis": "Target (A) 在结构化输出、内容紧扣岗位要求方面明显优于 Baseline (B)。A 严格遵守了 JSON 输出协议,并提供了更具体、与岗位要求更相关的 strengths 和 risks 细节,而 B 的输出过于简略且缺乏针对性。"
},
"referenceGapSummary": {
"pairKey": "target-vs-reference",
"pairType": "targetReference",
"pairLabel": "Target vs Reference",
"pairSignal": "none",
"verdict": "similar",
"confidence": "high",
"analysis": "Target 和 Reference 的输出在核心判断、证据组织和格式合规性上高度一致,均正确遵循了 prompt 规则,未发现可学习的结构性差距。"
},
"promptChangeSummary": {
"pairKey": "reference-vs-reference-baseline",
"pairType": "referenceBaseline",
"pairLabel": "Reference vs Reference Baseline",
"pairSignal": "supported",
"verdict": "left-better",
"confidence": "high",
"analysis": "左侧(Reference)的提示词明确要求输出结构化JSON并指定了字段和枚举值,这直接导致了其输出在格式和内容深度上都优于右侧(Reference Baseline)的模糊要求。右侧的输出虽然结论一致,但内容过于笼统,缺乏与岗位要求的强关联性。左侧的改进在参考侧自身也得到了验证,并非仅针对当前样例的拟合。"
},
"stabilitySummary": {
"pairKey": "target-vs-replica",
"pairType": "targetReplica",
"pairLabel": "Target vs Replica",
"pairSignal": "unstable",
"verdict": "mixed",
"confidence": "high",
"analysis": "在重复执行中,目标提示词产生了不一致的输出,核心的录用建议(recommendation)从“hold”漂移到了“hire”,同时风险(risks)的表述也发生了实质性变化,表明其行为不稳定,而非无害的措辞波动。"
},
"evidenceHighlights": [
"Target (A) 的 prompt 明确要求 '只输出 JSON 对象,字段为 recommendation, strengths, risks',其输出严格遵守此格式,为合法的 JSON 对象。Baseline (B) 的 prompt 仅要求 '输出 recommendation, strengths, risks',未明确指定 JSON 格式,但其输出也恰好是合法的 JSON 对象。两者在硬边界(输出协议)上均未违例。",
"Target (A) 的 prompt 额外要求 'strengths 和 risks 都要紧扣岗位要求,避免泛泛而谈'。其输出中的 strengths (['有 6 年 B2B SaaS 产品经验', '做过权限系统和审计日志,和岗位高度相关']) 和 risks (['英语一般,海外客户沟通能力待确认', '近期没有直接带人经验']) 均明确对应了输入中提到的岗位要求(权限/审计场景、海外客户沟通、团队协作经验)。",
"Baseline (B) 的输出 strengths (['经验较匹配']) 和 risks (['英语一般']) 过于笼统,未具体展开与岗位要求的关联,也未提及“近期没有直接带人经验”这一关键风险点,信息量和针对性均显不足。",
"两者 recommendation 均为 'hold',判断逻辑一致。",
"两者 strengths 均聚焦于 B2B SaaS 经验和权限/审计日志场景,与岗位要求高度相关。",
"两者 risks 均指出了英语沟通和近期管理经验问题,紧扣岗位要求。"
],
"learnableSignals": [
"在简历筛选总结任务中,要求输出字段 '紧扣岗位要求,避免泛泛而谈' 能有效引导模型生成更具体、更具信息量的评估点。",
"明确的输出格式指令(如'只输出 JSON 对象')有助于确保响应的结构一致性。",
"在提示词中明确指定输出格式(如JSON)和字段的枚举值(如hire/hold/reject),可以强制模型生成更结构化、更规范的输出。",
"在提示词中要求分析内容“紧扣岗位要求,避免泛泛而谈”,能有效引导模型生成更具针对性和深度的分析,而非通用描述。",
"重复执行时,核心决策字段(如 recommendation)的值发生漂移是典型的不稳定信号。",
"风险(risks)的表述从客观事实转向主观辩护,表明输出意图或模型内部推理路径不一致。"
],
"overfitWarnings": [
"当前样例中,候选人经验与岗位要求(权限/审计)高度匹配,这可能放大了左侧提示词要求“紧扣岗位要求”所带来的收益。对于经验与岗位要求匹配度不高的候选人,此收益可能减弱。",
"右侧(replica)输出中“但可通过团队支持弥补”的表述,可能过度拟合了当前输入中“英语一般”这一具体信息,并进行了超出要求的乐观推断。"
],
"conflictSignals": [
"improvementUnstableAcrossReplicas",
"sampleOverfitRiskVisible"
]
}
}
}