docs/workspace/test-area-auto-iterate-one-round/progress.md
目标模型参考模型目标模型 / workspace目标模型 / 上一版本参考模型 / workspace参考模型 / 上一版本目标模型 / workspace。workspace 代表当前工作区草稿,“上一版本”代表当前轮次之前的最近稳定版本。v-last 与“基线”都不够精确,文档改用“上一版本(previous version)”。basic-system,聚焦系统提示词优化。docs/workspace/test-area-auto-iterate-one-round/docs/architecture/test-area-auto-iterate-one-round.mdSPO 配置,而应依赖一组中性的结构化 compare 角色语义。Generic CompareStructured CompareStructured Compare 的角色模型为:
targetbaselinereferencereferenceBaselinereplicaauxiliarydocs/architecture/structured-compare-and-evaluation-rewrite.mdSPO 的后续职责被明确收敛为“上层编排”,不再承载 compare 与 rewrite 的底层智能。SPO 不增加专属 judge LLM 调用,继续复用 compare evaluation 的判断结果。SPO 的停止条件应优先依赖 compare evaluation 输出的通用 stop signals,而不是额外再做一层文本判断。SPO 主界面不新建页面,而是以:
SPO 按钮SPO 运行卡 / 结果卡SPO 详情抽屉
的方式嵌入现有测试区。最后执行轮最终采用轮docs/architecture/spo-thin-loop-ui-and-stop-rules.mdSPO 的设计边界进一步清晰:
EvaluationResponse.metadata,避免大范围破坏现有消费方。SPO config 应分离:
SPO 薄编排层SPO 的运行中状态不应全部持久化到 session,应与可恢复配置拆开。BasicSystemWorkspace.vue 应只保留最小接线职责,复杂 UI 与循环逻辑应拆出。docs/workspace/test-area-auto-iterate-one-round/implementation-split-compare-stop-signals-and-spo.mdSPO UI 壳层SPO loop controllerSPO 小 demo 已经回滚。acceptedRound 的依据应来自“复测后的 structured compare 结果”,而不是 SPO 自己额外发明 judge。SPO UI 壳层SPO loop controllerteacher model 术语在当前设计中统一收敛为 reference model;较早的一轮方案文档只保留必要的历史说明。docs/workspace/test-area-auto-iterate-one-round/README.mddocs/workspace/test-area-auto-iterate-one-round/task_plan.mddocs/workspace/test-area-auto-iterate-one-round/progress.mddocs/workspace/compare-evaluation-analysis/current-spec.mddocs/architecture/structured-compare-and-evaluation-rewrite.mdSPO 停止规则与 accepted round 依据:
docs/architecture/structured-compare-and-evaluation-rewrite.mddocs/architecture/spo-thin-loop-ui-and-stop-rules.mdSPO 的边界更清晰。