docs/workspace/compare-evaluation-analysis/manual-acceptance.md
这是当前最短手测版。 目标不是记录所有历史现象,而是帮助你快速确认“当前实现是否符合设计”。
只测 4 个文本工作区:
basic-userbasic-systempro-variablepro-multi本轮不测:
result / comparepnpm -F @prompt-optimizer/core build
pnpm -F @prompt-optimizer/ui build
pnpm -F @prompt-optimizer/web dev --port 18181
打开:
http://localhost:18181
建议:
messages只验证 4 条:
resolvedPrompt 等旧冗余字段。再补 2 条这轮新增回归检查:
result / compare 只认当前工作区,不允许回退到左侧原始提示词。优先看模型请求里的 messages[0].content 和 messages[1].content。
pro-variable 不应出现变量值执行提示词输出## 当前工作区提示词执行提示词输出推理(如果有)original / optimized## 当前工作区提示词resolvedPrompt| 工作区 | 路由 |
|---|---|
basic-user | /#/basic/user |
basic-system | /#/basic/system |
pro-variable | /#/pro/variable |
pro-multi | /#/pro/multi |
basic-user分析。通过标准:
评估。通过标准:
执行提示词 和 输出。## 当前工作区用户提示词。对比评估。通过标准:
评估 或顶部 对比评估。通过标准:
basic-system分析。通过标准:
评估。通过标准:
对比评估。通过标准:
通过标准:
pro-variable建议提示词:
请根据{{任务描述}},为{{目标用户}}编写一份{{文档类型}},要求{{质量要求}}
分析。通过标准:
继续优化。通过标准:
RecordNotFoundError。评估。通过标准:
执行提示词。输出。resolvedPrompt。对比评估。通过标准:
pro-multi建议最简单示例:
system: 你是一个诗人user: 请你写一首关于{{主题}}的诗。分析。通过标准:
【当前工作区要优化的提示词】 之类的位置标记。评估。通过标准:
targetMessage + conversationMessages 原始 JSON。对比评估。通过标准:
如果下面 6 条都成立,就可以认为文本主线验收通过:
pro-variable 左侧分析不吃变量值。分析 -> 继续优化 这条真实路径没有历史记录错误。建议再补看 2 条:
basic-system 在清空测试文本后,旧评估可看但不可重跑。建议只记录这 3 类信息:
prompt-onlyprompt-iterateresultcompare例如:
pro-variable / result
问题:请求里仍带了 resolvedPrompt
预期:只保留公共变量输入一次 + 当前列执行提示词 + 当前列输出