Back to Langbot

Box 系统 toB 商业化分析

docs/review/box-tob-analysis.md

4.10.17.2 KB
Original Source

Box 系统 toB 商业化分析

更新日期: 2026-06-02 状态更新: 自部署社区版已具备发布条件(box 可选、降级完善、无迁移欠债);工具调用循环上限、配额遍历异步化、host_path 挂载白名单等已落地。剩余多租户 / 安全硬化项见 SaaS 阻塞项清单。 分支: feat/sandbox (LangBot + langbot-plugin-sdk)


1. 现有优势

能力toB 价值代码位置
沙箱隔离执行企业安全运行不受信代码的基础能力SDK box/backend.py
多后端支持适配不同企业容器基础设施 (Podman/Docker/nsjail/E2B)SDK box/runtime.py _select_backend()
E2B 云沙箱SaaS / 无 Docker 部署的兜底执行环境SDK box/e2b_backend.py
连接自愈心跳 + 自动重连,单点 Box runtime 故障可恢复pkg/box/connector.py _heartbeat_loop, pkg/box/service.py _reconnect_loop
Profile + locked 字段运维锁定安全边界,LLM/用户无法绕过pkg/box/service.py, SDK box/models.py
资源限制CPU/内存/PID 数限制防止资源滥用SDK backend.py --cpus/--memory/--pids-limit
Workspace quota磁盘用量控制pkg/box/service.py _enforce_workspace_quota
静默降级Box 不可用不影响其他功能,降低部署门槛pkg/box/service.py:78 _available=False
孤儿容器清理防止泄漏的容器持续占用资源SDK backend.py cleanup_orphaned_containers
网络隔离--network none 防止数据外泄SDK backend.py start_session
只读根文件系统--read-only 防止容器被持久篡改SDK backend.py start_session
Host path 白名单allowed_host_mount_roots 限制可挂载目录pkg/box/service.py _validate_host_mount

2. toB 差距分析

2.1 安全与合规

维度现状toB 要求优先级
WS relay 认证无认证,任何人可 attach至少 token 认证P0
安全策略policy.py 是死代码,实际无细粒度控制工具级 allow/deny、沙箱模式控制P0
审计日志仅内存中 50 条 _recent_errors持久化审计:谁何时执行了什么、结果如何P0
Host path 校验黑名单策略,/ 未拦截白名单策略,默认拒绝P1
数据驻留无控制GDPR / 等保要求的数据隔离P2

2.2 多租户

维度现状toB 要求优先级
租户隔离无租户概念BoxSpec/Profile 绑定 tenant_idP0
RBAC仅 token 认证admin/operator/viewer 角色权限P0
资源配额单一 workspace quota每租户 CPU 时间/内存/并发/执行次数配额P1
Session 隔离所有 session 共享 dict按租户分区,互不可见P1

2.3 可靠性

维度现状toB 要求优先级
连接恢复已实现:20s 心跳 + _reconnect_loop 指数退避已满足基本要求已有
Session 清理机会性(仅新建时触发)定时清理 + 独立 reaperP1
水平扩展单 Box Runtime 实例多实例负载均衡(按 tenant 路由)P1
优雅降级已有(_available=False)已满足基本要求已有
Backend 自愈已实现:get_status 时若 backend 不可用会重新选择已满足基本要求已有

2.4 可观测性

维度现状toB 要求优先级
监控指标无 Prometheus metricssession 数/执行延迟/资源用量/错误率P1
结构化日志Python logging, 无结构化JSON 格式日志,含 trace_id/tenant_idP1
前端面板监控页接入 /api/v1/box/status(backend 名 + 活跃 session 数);sessions / errors 仍未接入完整状态面板 + 历史错误/审计列表P2

3. SaaS 部署架构建议

3.1 方案 A: 共享 Box Runtime Pool (快速上线)

LangBot Instance ──> Box Runtime (共享)
                       ├─ tenant_id 标签隔离
                       ├─ Redis 配额计数器
                       └─ Container labels: langbot.tenant_id=xxx
  • 优点: 改动最小,加 tenant_id 到 BoxSpec/labels 即可
  • 缺点: 容器引擎共享,安全隔离弱

3.2 方案 B: 每租户 K8s Namespace + gVisor (推荐中期)

LangBot ──> K8s API
              ├─ namespace: tenant-xxx
              │    ├─ RuntimeClass: gVisor (runsc)
              │    ├─ ResourceQuota
              │    └─ NetworkPolicy
              └─ namespace: tenant-yyy
                   └─ ...
  • 优点: 强隔离(namespace + gVisor),原生 K8s 配额
  • 缺点: 需要重写 backend 为 K8s Job,部署复杂度高

3.3 方案 C: K8s Job 直接编排 (长期)

LangBot ──> K8s Job per execution
              ├─ 每次执行创建 Job
              ├─ Pod Security Standards
              ├─ 自动调度和资源分配
              └─ Job TTL Controller 自动清理
  • 优点: 最强隔离,天然水平扩展
  • 缺点: 冷启动延迟,架构重写

推荐演进路径: A → B → C


4. 配额体系建议

三层配额

实现作用
内核层Docker --cpus/--memory/--storage-opt硬性资源上限,不可绕过
应用层Redis 原子计数器并发 session 数/执行次数/CPU 时间预算
计费层月度聚合按租户计费(session-hours/execution-count)

Profile 与套餐映射

套餐Profilelocked 字段配额
Freeoffline_readonlynetwork, host_path_mode, rootfs10 exec/天, 0.5 CPU, 256MB
Prodefault(无)100 exec/天, 1 CPU, 512MB
Enterprisenetwork_extended(按需)无限, 2 CPU, 1GB, 自定义镜像

TOCTOU 配额修复

当前 _enforce_workspace_quota 的 TOCTOU 问题可通过两种方式解决:

  1. 预留式配额 (应用层): Redis INCRBY 预扣额度 → 执行 → 成功则扣减,失败则回滚
  2. 内核级限制 (Docker): --storage-opt size=500m 直接限制容器可写层大小

5. 优先实施路线

Phase 1 (2-4 周): 安全基线

  • WS relay 加 token 认证
  • 接入或删除 policy.py
  • Box 加重连和心跳(已完成,见 box-issues.md 已解决
  • 审计日志持久化(至少写文件/数据库)
  • security.py/ 拦截,考虑白名单
  • INIT 与 backend 初始化顺序整理(避免 backend 在配置到达前实例化)

Phase 2 (4-8 周): 多租户基础

  • BoxSpec 加 tenant_id 字段
  • 容器 labels 加 tenant 标识
  • Redis 配额计数器(并发/执行次数/时间)
  • RBAC 基础框架
  • 定时 session reaper

Phase 3 (8-16 周): 生产就绪

  • Prometheus metrics exporter
  • 前端 Box 状态面板
  • K8s backend 支持 (方案 B)
  • 结构化日志 (JSON, trace_id)
  • 水平扩展支持