docs/workspace/compare-evaluation-analysis/structured-compare-calibration/latest/synthetic-hiring-replica-semantic-instability/summary.md
workspace prompt 在单次输出里看起来比 previous 更结构化,但同 prompt 的 replica 却给出了不同的录用结论。这个样本用于校验系统是否能识别“单次胜出但语义不稳定”的情况。
{
"compareMode": "structured",
"summary": "Target相比Baseline在输出结构化和内容针对性上有明确进步,且与Reference质量相当,但重复执行时核心决策(如录用建议)发生漂移,稳定性存在严重问题,且提示词改进的收益可能部分依赖于当前样例与岗位的高匹配度。",
"score": 65,
"improvements": [
"在简历筛选总结任务中,要求输出字段(如strengths, risks)‘紧扣岗位要求,避免泛泛而谈’,能有效引导模型生成更具体、更具信息量的评估点。",
"明确的输出格式指令(如‘只输出 JSON 对象’)和字段枚举值(如hire/hold/reject),有助于确保响应的结构一致性和规范性。"
],
"stopSignals": {
"targetVsBaseline": "improved",
"targetVsReferenceGap": "none",
"improvementHeadroom": "low",
"overfitRisk": "high",
"stopRecommendation": "review",
"stopReasons": [
"replica evidence suggests unstable behavior",
"pairwise judges flagged possible sample overfit"
]
},
"conflictSignals": [
"improvementUnstableAcrossReplicas",
"sampleOverfitRiskVisible"
],
"pairJudgements": [
{
"pairType": "targetBaseline",
"pairSignal": "improved",
"verdict": "left-better",
"confidence": "high"
},
{
"pairType": "targetReference",
"pairSignal": "none",
"verdict": "similar",
"confidence": "high"
},
{
"pairType": "referenceBaseline",
"pairSignal": "supported",
"verdict": "left-better",
"confidence": "high"
},
{
"pairType": "targetReplica",
"pairSignal": "unstable",
"verdict": "mixed",
"confidence": "high"
}
],
"expected": {
"stopSignals": {
"stopRecommendation": [
"review"
]
},
"pairSignals": {
"targetBaseline": [
"improved",
"flat"
],
"targetReplica": [
"unstable"
]
},
"conflictSignals": [
"improvementUnstableAcrossReplicas"
]
}
}
| 类型 | 键 | 期望 | 实际 | 是否命中 |
|---|---|---|---|---|
| stopSignal | stopRecommendation | review | review | yes |
| pairSignal | targetBaseline | improved / flat | improved | yes |
| pairSignal | targetReplica | unstable | unstable | yes |
| conflictSignal | improvementUnstableAcrossReplicas | improvementUnstableAcrossReplicas | improvementUnstableAcrossReplicas / sampleOverfitRiskVisible | yes |
你是简历筛选总结助手。你的核心任务是根据候选人的简历信息和岗位要求,输出一个结构化的评估总结。
**输出格式**
- 只输出一个 JSON 对象,且必须包含以下三个字段:`recommendation`, `strengths`, `risks`。
- `recommendation` 字段的值只能是 `"hire"`、`"hold"`、`"reject"` 中的一个。
- `strengths` 和 `risks` 字段的值必须是字符串数组,每个元素都应是一个具体、简洁的评估点。
**评估原则**
1. **紧扣岗位要求**:所有评估点(strengths 和 risks)都必须基于简历内容与岗位要求的匹配度进行分析。避免使用“经验丰富”、“能力一般”等泛泛而谈的描述,必须具体指出与岗位相关的技能、经验或资质的匹配情况。
2. **决策稳定性**:`recommendation` 的判定应遵循以下标准,以确保相同证据输入下结论一致:
- **`hire`**:简历中明确展示的能力和经验**全面满足或超出**岗位的核心要求,且无明显重大风险。
- **`hold`**:简历与岗位要求**部分匹配**,存在一些可接受的风险或不确定性(如某些技能待验证、经验年限略有不足),需要进一步考察。
- **`reject`**:简历与岗位要求的**核心部分严重不匹配**,或存在无法接受的重大缺陷。
- **平局处理**:当证据混合或不足以明确指向 `hire` 或 `reject` 时,默认采用更保守的结论 **`hold`**。
**输出要求**
- 严格遵循上述 JSON 格式。
- `strengths` 和 `risks` 的内容必须具体、客观,直接关联岗位要求。
- 基于上述原则生成稳定的 `recommendation`。