Back to Openviking

OpenViking Working Memory v2 — 测试报告

examples/openclaw-plugin/docs/workmemory-v2-test-report.md

0.3.168.8 KB
Original Source

OpenViking Working Memory v2 — 测试报告

数据集:locomo10 · MemoryArena group_travel_planner · 模型:doubao-seed-2-0-code-preview
创建:2026-05-02


核心结论

  1. LoCoMo 长对话事实召回:WM v2 在 152Q 上达 79.61%(旧版 23.68%,+55.93pp);35Q 上达 94.29%(旧版 28.57%,+65.7pp)。
  2. Token 效率
    • 35Q:WM v2 总 QA tokens 184,497(旧版 144,797,多 27.4%);但准确率涨 +65.7pp,单题成本(tok/correct)从 14,480 降到 5,591(约 1/2.6)。
    • 152Q:WM v2 总 QA tokens 1,510,190(旧版 2,280,098,节省 33.8%);准确率涨 +55.93pp,单题成本从 63,336 降到 12,481(约 1/5.1)。
    • 整体趋势:35Q 是「以 token 换准确率」(总量略增 + 单题大幅降本),152Q 是双向收益(总量降 + 单题降)。
  3. 纯工作记忆是主体收益:关闭长期记忆向量召回仍能达 73.03%(152Q),autoRecall 在此基础上再补 +6.58pp
  4. MemoryArena 跨会话规划任务:跟 OV 主分支无 WM 严格 A/B 大体持平(QA +3.06pp / Action −2.04pp);跟 MC 原生比 WM v2 显著领先(QA +35.03pp / token −21.76%)。该任务不直接验证工作记忆,结论不外推到 LoCoMo。

一、测试目标

验证 WM v2(结构化 7 段模板 + tool_call 增量更新 + 服务端 Guards + keep_recent_count)相比旧版(compression.structured_summary v1)的实际效果。重点回答 3 个问题:

  1. WM v2 在小样本(35Q)和大样本(152Q)下相对 Main 的准确率提升
  2. WM v2 结构化 overview 的独立贡献(关闭向量召回)
  3. WM v2 + autoRecall 联合方案的最佳效果

二、测试环境

LLMdoubao-seed-2-0-code-preview
Embeddingdoubao-embedding-vision-251215
GatewayOpenClaw 2026.4.27
Main 分支OpenViking @ origin/main,commit 4d6f5b65
WM2 分支工作记忆代码
Judgedoubao-seed-2-0-code-preview-260215

三、LoCoMo 测试结果

3.1 测试组

测试组说明autoRecall设计目的
WM2工作记忆 + 长期记忆 + 工具回溯onWM v2 全功能端到端测试
WM2-NOREC工作记忆 + 工具回溯(关闭长期记忆)off隔离工作记忆 + 工具回溯的独立贡献,看不靠向量召回时还能拿多少分
MAIN原 overview + 长期记忆 + 老版工具回溯(仓库主分支代码)on旧版基线
MCOpenClaw 原生记忆(关闭 OpenViking)横向对比 OpenClaw 原生记忆方案

3.2 数据集

数据集session 数QA 数说明
locomo-small1935LoCoMo sample 0 前 35 题,小样本快速对照
locomo10 case019152LoCoMo sample 0 完整

Ingest 和 QA 同会话(QA 会话连续,复用前题上下文)——目的是测试工作记忆。

3.3 locomo-small(35Q)

测试组准确率QA tokenstok/correct
MAIN28.57% (10/35)144,79714,480
WM294.29% (33/35)184,4975,591
WM2-NOREC88.57% (31/35)124,2464,008
MC42.86% (15/35)2,352,395156,826

对比

  • 纯工作记忆(WM2-NOREC 测试组,关闭长期记忆向量召回)相比旧版 MAIN:准确率从 28.57% 提升到 88.57%,+60.0pp;QA tokens 反而下降 14.2%(144,797 → 124,246),单题成本从 14,480 降到 4,0083.6× 效率)。仅靠结构化 7 段 overview + 工具回溯,无需任何向量召回,已经能拿到大部分提升,且 token 同时节省。
  • 叠加长期记忆向量召回(WM2 测试组)相比纯工作记忆:准确率再升 +5.7pp(88.57% → 94.29%);代价是 QA tokens 增加 48.5%(124,246 → 184,497),单题成本从 4,008 升到 5,591。长期记忆是用 token 换最后一段准确率的细节召回,边际收益递减但仍正向。
  • OpenClaw 原生记忆(MC 测试组,关闭 OpenViking 改由 LLM 主动 memorySearch)横向对照:仅 42.86%,单题成本 156,826(是 WM2 的 28 倍)——准确率比 WM2 低 51.4pp,无竞争力。

3.4 locomo10 case0(152Q)

将 §3.3 对照扩展到 locomo10 case0 全量 152 道 QA:

测试组准确率QA tokenstok/correct
MAIN23.68% (36/152)2,280,09863,336
WM279.61% (121/152)1,510,19012,481
WM2-NOREC73.03% (111/152)1,622,31914,615

对比

  • 纯工作记忆(WM2-NOREC 测试组,关闭长期记忆向量召回)相比旧版 MAIN:准确率从 23.68% 提升到 73.03%,+49.35pp;QA tokens 同时下降 28.8%(2,280,098 → 1,622,319),单题成本从 63,336 降到 14,6154.3× 效率)。在大样本上,纯结构化工作记忆已贡献整体提升的约 88%(49.35 / 55.93),且 token 大幅节省。
  • 叠加长期记忆向量召回(WM2 测试组)相比纯工作记忆:准确率再升 +6.58pp(73.03% → 79.61%);QA tokens 再节省 6.9%(1,622,319 → 1,510,190),单题成本从 14,615 降到 12,481。与 35Q 的「以 token 换准确率」不同,长样本上长期记忆是双向收益——既提升准确率,又因更高效答题而节省 token。

四、MemoryArena Group Travel 对比测试

MemoryArena group_travel_planner 是跨会话的旅行规划任务(slot-filling + 后续 QA),不直接验证工作记忆能力——每个 task 是独立 session,没有跨题上下文累积。本节把它作为另一个测试场景,从两个角度看 WM v2 的表现:

  1. 跟 MC 原生比(§4.2):WM v2 相对「OpenClaw 自带 memorySearch」的整体能力差距
  2. 严格 A/B(§4.3):跟 OV 主分支无 WM(OV-noWM)做同源对比,单变量评估 WM 改造对此类任务有无副作用

4.1 数据集与方法

维度说明
数据集MemoryArena group_travel_planner(270 task / 1869 subtask 的多日多人旅行规划)
子样本sample0 / sample1 / sample2 共 294 道 slot-level QA
任务结构slot-filling 旅行规划 + 后续 QA(跨 task 独立 session)

指标说明

  • Action:slot-filling 规划阶段的执行准确率——agent 在多步规划过程(订机票、订酒店、选餐厅等)中正确填充 expected slot(如 flight number / departure time / arrival time)的比例。衡量 agent 在规划执行阶段的动作准确性。
  • QA:slot-filling 完成后问答阶段的答题准确率——agent 基于 task 上下文回答 slot-level 问题的正确率。衡量 agent 在记忆/检索阶段的能力。
  • Combined Tokens:规划阶段(run)+ 问答阶段(QA)两阶段消耗的总 token。

4.2 WM v2 vs MC 原生

把 WM v2 跟 MC 原生(关闭 OpenViking、由 LLM 主动调 memorySearch)放在同一数据集上对比:

方案sample0 Actionsample1 Actionsample2 ActionAgg ActionAgg QACombined Tokens
MC memorySearch8/10424/7026/12058/294 (19.73%)74/294 (25.17%)7,158,830
WM v266/10438/7079/120183/294 (62.24%)177/294 (60.20%)5,601,097

WM v2 相比 MC 原生:Action +42.52ppQA +35.03pp,Combined Tokens −21.76%

4.3 严格 A/B(WM v2 vs OV-noWM)

SampleOV-noWM ActionOV-noWM QAWM v2 ActionWM v2 QA
sample071/104 (68.27%)65/104 (62.50%)66/104 (63.46%)60/104 (57.69%)
sample152/70 (74.29%)45/70 (64.29%)38/70 (54.29%)38/70 (54.29%)
sample266/120 (55.00%)58/120 (48.33%)79/120 (65.83%)79/120 (65.83%)
Aggregate189/294 (64.29%)168/294 (57.14%)183/294 (62.24%)177/294 (60.20%)

WM v2 vs OV-noWM:Action −2.04pp(OV-noWM 略胜),QA +3.06pp(WM 略胜),token +2.75%。per-sample 异质性较高(sample1 OV-noWM 大幅领先、sample2 WM v2 大幅领先),aggregate 大体持平。

4.4 观察

  • 跟 MC 原生比:WM v2 在 QA 准确率上 +35.03pp(25.17% → 60.20%),同时 token 节省 21.76%——在 slot-filling 任务上 OpenViking + 工作记忆的整体表现远胜 MC 自检索方案。
  • 跟 OV-noWM 严格 A/B:QA 略胜(+3.06pp)/ Action 略输(−2.04pp)/ token 略增(+2.75%)——没有显著退化也没有显著提升,符合预期(slot-filling 不直接受工作记忆改造影响)。
  • 任务定位:MemoryArena 是跨会话规划任务,每个 task 独立 session,不直接测工作记忆;以上两组对比说明 WM v2 在此类任务上没有副作用,且仍显著优于 MC 自检索方案。

创建:2026-05-02