docs/workspace/test-area-auto-iterate-one-round/task_plan.md
在当前 basic-system 工作区右侧测试区中,新增一个“自动迭代”入口,让用户只需选择:
目标模型参考模型系统就能自动生成 4 槽位对比预设,并完成一次完整的自动迭代闭环:
目标/workspace 与其他 3 个参考槽位的差异workspace 提示词Phase 8(实施拆分与落地顺序设计完成,等待按新方案重新实现)
目标模型 与 参考模型basic-system 已支持 2/3/4 列测试布局testVariantssnapshot 输入BasicSystemWorkspaceBasicSystemWorkspace.vueworkspacebasic-system 的验证用例Generic Compare 与 Structured Comparetarget / baseline / reference / referenceBaseline / replica / auxiliary 角色模型SPO 只负责 preset、loop、stop 和结果展示SPO 专属 judge LLM 调用SPO 按钮、设置弹窗、运行卡、结果卡、详情抽屉最终采用轮次 与 最后执行轮次 的区分规则BasicSystemWorkspace 的最小接入点SPO 编排耦合过深summaryimprovementspatchPlanscoreSPO 专属逻辑,而是把 compare evaluation 的通用增强收口为:
Generic Compare / Structured CompareSPO 与其他自动化入口通用可消费的 stop signalsSPO 的 accept / stop 判定以后续的 compare 通用增强为准。目标模型 和 参考模型,系统自动生成 4 槽位目标模型 / workspace 为优化对象workspace 结果与“上一版本”、参考模型的对比v0。workspace,历史链仍由用户决定是否保存,降低误操作成本。basic-system,优化对象是系统提示词,而不是测试输入内容。Structured Compare,其角色依赖于结构化 compare 语义,而不是硬绑定 SPO。SPO 只负责调用与编排。