docs/workspace/compare-evaluation-analysis/current-spec.md
这是当前目录唯一推荐的总览文档。 如果它与
history/里的旧文档冲突,应优先以本文和real-api-samples/为准。 本文已按当前代码实现同步到2026-03-20。
本轮真正完成的是文本工作区下的语义重构,不是所有模式的终局重写。
当前范围:
basic-userbasic-systempro-variablepro-multi当前不在主线范围内:
result / compare分析作用在左侧工作区,是“提示词设计质量分析”。
它的特点:
patchPlan,因为编辑目标就是左侧当前工作区。评估作用在右侧某一列,是“基于一次执行快照的结果评估”。
它的特点:
improvements,不要求 patchPlan。对比评估作用在右侧顶部,是“基于多个执行快照的对比评估”。
它的特点:
补充说明:
genericstructuredstructured 的触发条件是:
target,并至少存在 baseline / reference / replica 之一structured 已落地能力:
CompareAnalysisHints.modeCompareAnalysisHints.snapshotRolestarget / baseline / reference / referenceBaseline / replica / auxiliary 角色语义pairwise judgesynthesistarget 后,自动只保留一个 baselinereferencereferenceBaselineauxiliarytarget 后自动补全其余角色workspace 槽位时,不再自动猜 targettarget 后,才允许进入 structured comparepromptRef kind/versionmodelKeynon-workspace 槽位的 prompt 文本签名workspace 槽位的 prompt 文本变化不会直接清空手工角色metadata.compareModemetadata.snapshotRolesmetadata.compareJudgementsmetadata.compareStopSignalsmetadata.compareInsightsprogressSummaryreferenceGapSummarypromptChangeSummarystabilitySummaryconflictSignalscompareStopSignals + compareInsights 生成更可执行的“下一步建议”pairwise judgement、compare insights 与 conflict checks 展示conflictSignalsrewriteGuidanceflat + no-gap 场景默认倾向 skipimproved + no-gap + low-headroom 场景默认倾向 minor-rewriterewrite统一原则:
模式差异:
basic-user
只看当前工作区用户提示词。basic-system
只看当前工作区系统提示词。pro-variable
只保留变量结构,不带变量值。pro-multi
只保留最小会话位置上下文,不带完整 transcript。统一结构:
模式差异:
basic-user
可能没有���外测试文本,此时公共输入会明确写“无额外测试输入”。basic-system
公共输入通常是右侧测试文本。pro-variable
公共输入里带一次变量值;快照里只保留当前列执行提示词和输出。pro-multi
公共输入里带一次 Conversation Snapshot;快照里只保留当前列执行提示词和输出。统一结构:
当前已实现行为:
generic comparestructured comparecompareHints 是当前角色语义与模式的事实来源workspace 槽位,可自动把它视作 targetworkspace 槽位,必须显式选择 targettarget 确定后,系统会自动收敛出单一 baseline / reference / referenceBaselineauxiliarystructured compare 当前内部执行流程是:
compareModesnapshotRolescompareJudgementscompareStopSignalscompareInsightscompareInsights 已不仅是平铺列表,还包含面向业务消费的聚合焦点结论与 conflictSignals计划中的下一阶段演进:
promptRef kind/version + modelKey,以及 non-workspace 槽位的 prompt 文本变化触发的手工角色失效当前不应再默认出现:
## 当前工作区提示词resolvedPrompttargetMessage + conversationMessages 原始 JSONfocus 出现时,summary / improvements / patchPlan 必须直接回应 focus。generic compare:
structured compare:
metadata.compareJudgementscompareStopSignals补充说明:
compareStopSignals 已不是单纯信任 synthesis 文本,而是有 pairwise 证据兜底与保守收敛逻辑。result / 右侧 compare 主线已打通。workspace / v0 / vN。latest 只作为旧 session 迁移值,不再是面向用户的主语义。compareModesnapshotRolescompareJudgementscompareStopSignalscompareInsightspairHighlightsevidenceHighlightslearnableSignalsoverfitWarningsprogressSummary / referenceGapSummary / promptChangeSummary / stabilitySummaryconflictSignalsbasic-userbasic-systempro-variablepro-multiworkspace 槽位时,必须显式指定 targettarget 时,可自动补全其余角色baseline / reference / referenceBaseline,其余降级为 auxiliaryworkspace 手工角色在 prompt 变更后会进入“待复核”状态,而不是被静默清空structured 还是 generictarget / baseline / reference / referenceBaseline 这类会导致 structured compare 歧义的配置compareStopSignals + compareInsights 压成面向动作的 compare 决策摘要。compareStopSignals + compareInsights + conflictSignals。useEvaluation / EvaluationPanel / rewrite 多处漂移。rewriteGuidance.recommendation,用于约束 skip / minor-rewrite / rewrite 三类行为。rewriteGuidance.focusAreas / priorityMoves,用于把 instability / contract-repair / generalization 转成更可执行的专项改写指令。rewriteGuidance.recommendation = skip,会在“智能重写”入口直接短路,不再无意义发起 iterate 请求。当前没有把 image 的 result / compare 纳入主线。
这不是代码问题,而是资料管理问题。当前已经通过 history/ 隔离,但历史文档本身内容没有全部重写。
当前 compare 阶段的主线语义、角色配置、pairwise judge、结果消费与“基于评估重写”入口都已经打通。
后续如果继续演进,主要属于增强项而不是 compare 阶段未完成:
real-api-samples/*/rendered-messages.mdhistory/ 里的旧文档,仅在需要追溯时阅读