.docker/observability/README_ZH.md
本目录包含 RustFS 的全面可观测性技术栈,旨在提供对应用程序性能、日志和追踪的深入洞察。
该技术栈由以下一流的开源组件组成:
默认情况下,这套技术栈使用 Tempo 单二进制模式,不依赖 Kafka/Redpanda。
如果需要基于 Kafka 的 HA Tempo 路径,请使用 docker-compose-example-for-rustfs.yml 配合 docker-compose-tempo-ha-override.yml。
运行以下命令启动整个技术栈:
docker compose up -d
默认的 docker-compose.yml 对应单机栈。
如果需要基于 Kafka 的 HA Tempo 配置,请使用:
docker compose -f docker-compose-example-for-rustfs.yml -f docker-compose-tempo-ha-override.yml up -d
| 服务 | URL | 凭据 | 描述 |
|---|---|---|---|
| Grafana | http://localhost:3000 | admin / admin | 主要可视化中心。 |
| Prometheus | http://localhost:9090 | - | 指标查询和状态。 |
| Jaeger UI | http://localhost:16686 | - | 辅助追踪可视化。 |
| Tempo | http://localhost:3200 | - | Tempo 状态/指标。 |
数据存储在以下 Docker 卷中:
prometheus-data: Prometheus 指标tempo-data: Tempo 追踪 (WAL 和 Blocks)loki-data: Loki 日志 (Chunks 和 Rules)jaeger-data: Jaeger 追踪 (Badger DB)要清除所有数据:
docker compose down -v
prometheus.yml 以添加抓取目标或告警规则。grafana/ 目录预置。otel-collector-config.yaml 以修改管道、处理器或导出器。当 RustFS 将 RUSTFS_OBS_ENDPOINT 指向这套技术栈时,应将该值视为
OTLP/HTTP 的基础 URL,例如:
export RUSTFS_OBS_ENDPOINT=http://host.docker.internal:4318
RustFS 会自动在该基础 URL 后补全:
/v1/traces/v1/metrics/v1/logs需要注意:
RUSTFS_OBS_LOGGER_LEVEL=info 会保留顶层请求 span,但会过滤掉很多 debug 级别的嵌套 span。
如果 Tempo 或 Jaeger 中的 trace 看起来很稀疏,建议先改成 RUSTFS_OBS_LOGGER_LEVEL=debug,再判断是否是 collector 或 Tempo 问题。最小验证流程:
# 1. 启动本目录下的可观测性技术栈。
docker compose up -d
# 2. 以 OTLP/HTTP 导出方式启动 RustFS,并提高 span 可见性。
export RUSTFS_OBS_ENDPOINT=http://host.docker.internal:4318
export RUSTFS_OBS_LOGGER_LEVEL=debug
# 3. 产生真实请求流量。
curl -I http://127.0.0.1:9000/health
curl -I http://127.0.0.1:9000/health/ready
# 4. 到 Grafana 或 Jaeger 中检查。
# Grafana: http://localhost:3000
# Jaeger: http://localhost:16686
如果日志和指标已经正常,但 trace 仍然稀疏,最常见的原因通常是
“还没有真实请求流量”或“info 级别过滤了嵌套 span”,而不是 OTLP 路由失败。
docker compose ps 检查服务健康状况。docker compose logs -f <service_name> 查看特定服务的日志。http://localhost:13133 获取健康状态,检查 http://localhost:1888/debug/pprof/ 进行性能分析。