docs/agent-skills.md
Agent Skills 是一种让 Agent 通过阅读"使用说明书"来学习新能力的扩展机制。与传统的硬编码工具不同,Skills 通过注入到 System Prompt 来扩展 Agent 的能力,遵循 Progressive Disclosure(渐进式披露) 的设计理念。 目前仅支持带智能推理能力的智能体使用。前端可在智能体的编辑页面找到相关配置
Skills 采用三级加载机制,确保只在需要时才向 LLM 提供详细信息:
┌─────────────────────────────────────────────────────────────────┐
│ Level 1: 元数据 (Metadata) │
│ • 始终加载到 System Prompt │
│ • 约 100 tokens/skill │
│ • 包含:技能名称 + 简短描述 │
└─────────────────────────────────────────────────────────────────┘
↓ 用户请求匹配时
┌─────────────────────────────────────────────────────────────────┐
│ Level 2: 指令 (Instructions) │
│ • 通过 read_skill 工具按需加载 │
│ • SKILL.md 的指令内容 │
│ • 包含:详细指令、代码示例、使用方法 │
└─────────────────────────────────────────────────────────────────┘
↓ 需要更多信息时
┌─────────────────────────────────────────────────────────────────┐
│ Level 3: 附加资源 (Resources) │
│ • 通过 read_skill 工具加载特定文件 │
│ • 补充文档、配置模板、脚本文件 │
│ • 通过 execute_skill_script 执行脚本 │
└─────────────────────────────────────────────────────────────────┘
每个 Skill 是一个目录,包含 SKILL.md 主文件和可选的附加资源:
my-skill/
├── SKILL.md # 必需:主文件(含 YAML frontmatter)
├── REFERENCE.md # 可选:补充文档
├── templates/ # 可选:模板文件
│ └── config.yaml
└── scripts/ # 可选:可执行脚本
├── analyze.py
└── generate.sh
每个 SKILL.md 必须以 YAML frontmatter 开头,定义元数据:
---
name: pdf-processing
description: Extract text and tables from PDF files, fill forms, merge documents. Use when working with PDF files or when the user mentions PDFs, forms, or document extraction.
---
# PDF Processing
This skill provides utilities for working with PDF documents.
## Quick Start
Use pdfplumber to extract text from PDFs:
```python
import pdfplumber
with pdfplumber.open("document.pdf") as pdf:
text = pdf.pages[0].extract_text()
print(text)
| 字段 | 要求 |
|---|---|
name | 1-50 字符,仅允许汉字、英文字母、数字,不能是保留词 |
description | 1-500 字符,描述技能用途和触发条件 |
保留词:system, default, internal, core, base, root, admin
type AgentConfig struct {
// ... 其他配置 ...
// Skills 相关配置
SkillsEnabled bool `json:"skills_enabled"` // 是否启用 Skills
SkillDirs []string `json:"skill_dirs"` // Skill 目录列表
AllowedSkills []string `json:"allowed_skills"` // 白名单(空=全部允许)
}
{
"skills_enabled": true,
"skill_dirs": [
"/path/to/project/skills",
"/home/user/.agent-skills"
],
"allowed_skills": ["pdf-processing", "code-review"]
}
Sandbox 相关配置通过环境变量设置:
| 环境变量 | 说明 | 默认值 |
|---|---|---|
WEKNORA_SANDBOX_MODE | sandbox 模式: docker, local, disabled | disabled |
WEKNORA_SANDBOX_TIMEOUT | 脚本执行超时(秒) | 60 |
WEKNORA_SANDBOX_DOCKER_IMAGE | 自定义 Docker 镜像 | wechatopenai/weknora-sandbox:latest |
| 模式 | 说明 |
|---|---|
docker | 使用 Docker 容器隔离(推荐) |
local | 本地进程执行(基础安全限制) |
disabled | 禁用脚本执行 |
Skills 功能通过两个工具与 Agent 交互:
读取技能内容或特定文件。
参数:
{
"skill_name": "pdf-processing", // 必需:技能名称
"file_path": "FORMS.md" // 可选:相对路径
}
使用场景:
skill_nameskill_name 和 file_path示例调用:
// 加载技能主内容
{"skill_name": "pdf-processing"}
// 加载补充文档
{"skill_name": "pdf-processing", "file_path": "FORMS.md"}
// 查看脚本内容
{"skill_name": "pdf-processing", "file_path": "scripts/analyze.py"}
在沙箱中执行技能脚本。
参数:
{
"skill_name": "pdf-processing", // 必需:技能名称
"script_path": "scripts/analyze.py", // 必需:脚本相对路径
"args": ["input.pdf", "--format", "json"] // 可选:命令行参数
}
支持的脚本类型:
.py).sh).js).rb).go)系统内置了以下 5 个预加载技能,用于增强知识库问答和文档处理能力:
用途:自动生成规范引用格式
触发场景:
核心能力:
| 功能 | 说明 |
|---|---|
| 来源标注 | 为回答中使用的每个知识点标注来源 |
| 格式化引用 | 支持 APA、MLA、Chicago、简化格式 |
| 参考文献列表 | 在回答末尾生成完整的参考文献列表 |
简化引用格式示例:
根据公司政策[员工手册2024.pdf, 第15页],年假申请需提前...
用途:数据处理与分析
触发场景:
核心能力:
| 功能 | 说明 |
|---|---|
| 数据分析 | 对检索到的文档数据进行统计分析 |
| 格式转换 | JSON/CSV/Markdown 等格式相互转换 |
| 数据提取 | 从非结构化文本中提取结构化信息 |
| 报告生成 | 生成数据分析报告和摘要 |
可用脚本:
scripts/analyze.py - 数据分析脚本scripts/format_converter.py - 格式转换脚本scripts/extract_info.py - 信息提取脚本脚本使用示例:
# 数据分析
echo '{"items": [1, 2, 3, 4, 5]}' | python scripts/analyze.py
# 格式转换(JSON 转 CSV)
echo '[{"name": "A", "value": 1}]' | python scripts/format_converter.py --to csv
# 信息提取
echo "2024年销售额为100万元" | python scripts/extract_info.py
用途:引导用户完成结构化文档创作
触发场景:
工作流程:
Stage 1: 上下文收集 (Context Gathering)
↓
Stage 2: 细化与结构 (Refinement & Structure)
↓
Stage 3: 读者测试 (Reader Testing)
三阶段说明:
| 阶段 | 目标 | 关键活动 |
|---|---|---|
| Stage 1 | 缩小用户与 Claude 之间的信息差 | 元信息提问、上下文收集、澄清问题 |
| Stage 2 | 逐节构建文档 | 头脑风暴、筛选整理、迭代修改 |
| Stage 3 | 测试文档对读者的效果 | 预测读者问题、子代理测试、修复盲点 |
用途:深度分析文档结构和内容
触发场景:
核心能力:
| 功能 | 说明 |
|---|---|
| 结构分析 | 识别文档的章节层级、组织架构 |
| 关键信息提取 | 提取核心论点、关键数据、重要结论 |
| 文档类型识别 | 判断文档类型(报告、手册、论文、合同等) |
| 内容质量评估 | 评估文档的完整性、一致性、可读性 |
分析流程:
预加载技能位于 skills/preloaded/ 目录下:
skills/preloaded/
├── citation-generator/
│ └── SKILL.md
├── data-processor/
│ ├── SKILL.md
│ └── scripts/
│ ├── analyze.py
│ ├── format_converter.py
│ └── extract_info.py
├── doc-coauthoring/
│ └── SKILL.md
├── document-analyzer/
│ └── SKILL.md
└── summary-generator/
└── SKILL.md
暂时不支持用户自主创建自定义 Skill
在脚本执行前,系统会进行多层安全校验,拦截潜在的恶意操作:
| 类型 | 说明 | 示例 |
|---|---|---|
| 危险命令检测 | 检测可能破坏系统的命令 | rm -rf /, mkfs, shutdown, fork bombs |
| 危险模式匹配 | 正则匹配高危操作模式 | curl | bash, base64 -d, eval() |
| 网络访问检测 | 检测网络请求尝试 | curl, wget, socket.connect, requests.get |
| 反向 Shell 检测 | 检测远程控制后门 | /dev/tcp/, bash -i, nc -e |
| 参数注入检测 | 检测命令行参数中的注入 | &&, |, $(), 反引号 |
| Stdin 注入检测 | 检测标准输入中的嵌入命令 | 嵌入的命令替换语法 |
系统破坏类:
rm -rf /, rm -rf /* - 递归删除根目录mkfs, dd if=/dev/zero - 文件系统/磁盘操作:(){ :|:& };:系统控制类:
shutdown, reboot, halt, poweroffkillall, pkillsystemctl, service权限提升类:
chmod 777 /, chown rootsetuid, setgid, passwd/etc/passwd, /etc/shadow, /etc/sudoers凭证窃取类:
.ssh/, id_rsa, id_ed25519容器逃逸类:
docker, kubectl, nsenterunshare, capsh代码注入:
# 以下模式会被拦截
curl ... | bash # 下载并执行
wget ... | sh # 下载并执行
eval() # 动态代码执行
exec() # 命令执行
os.system() # 系统命令执行
subprocess.Popen(shell=True) # Shell 命令执行
编码绕过尝试:
# 以下模式会被拦截
base64 -d # Base64 解码执行
echo ... | base64 -d # 管道解码
xxd -r # Hex 解码
Python 特有风险:
# 以下模式会被拦截
__import__() # 动态导入
pickle.load() # 反序列化(可执行任意代码)
yaml.load() # 不安全的 YAML 加载
yaml.unsafe_load() # 显式不安全加载
参数中包含以下操作符时会被拦截:
| 操作符 | 说明 |
|---|---|
&&, || | 命令链接 |
; | 命令分隔 |
| | 管道 |
$(), ` | 命令替换 |
>, >>, < | 重定向 |
2>, &> | 错误/组合重定向 |
\n, \r | 换行注入 |
校验失败时返回详细的错误信息:
type ValidationError struct {
Type string // 错误类型:dangerous_command, dangerous_pattern, arg_injection 等
Pattern string // 匹配到的模式
Context string // 上下文信息
Message string // 人类可读的描述
}
示例错误:
security validation failed [dangerous_command]: Script contains dangerous command: rm -rf / (pattern: rm -rf /, context: ...cleanup && rm -rf / && echo done...)
// 创建校验器
validator := sandbox.NewScriptValidator()
// 校验脚本内容
result := validator.ValidateScript(scriptContent)
if !result.Valid {
for _, err := range result.Errors {
log.Printf("Security error: %s", err.Error())
}
return errors.New("script validation failed")
}
// 校验命令行参数
argsResult := validator.ValidateArgs(args)
// 校验标准输入
stdinResult := validator.ValidateStdin(stdin)
// 或一次性校验全部
fullResult := validator.ValidateAll(scriptContent, args, stdin)
Docker 模式提供最强的隔离:
系统使用专用的沙箱镜像 wechatopenai/weknora-sandbox,预装了 Python 3.11、Node.js 20、常用 CLI 工具和 Python 库,无需在执行时临时安装依赖。
预拉取镜像(推荐在首次部署时执行,避免首次执行脚本时等待下载):
# 方式一:直接拉取
docker pull wechatopenai/weknora-sandbox:latest
# 方式二:本地构建
sh scripts/build_images.sh -s
如果未预拉取,应用启动时会自动异步拉取镜像(
EnsureImage),但首次执行可能需要等待下载完成。
镜像内置环境:
# Docker 执行示例
docker run --rm \
--user 1000:1000 \
--cap-drop ALL \
--read-only \
--memory=256m \
--network=none \
-v /path/to/skill:/skill:ro \
-w /skill \
wechatopenai/weknora-sandbox:latest \
python scripts/analyze.py input.pdf
Local 模式提供基础保护:
允许的命令:
python, python3node, nodejsbash, shrubygo runtype Manager interface {
// 初始化,发现所有 Skills
Initialize(ctx context.Context) error
// 获取所有 Skill 元数据(Level 1)
GetAllMetadata() []*SkillMetadata
// 加载 Skill 指令(Level 2)
LoadSkill(ctx context.Context, skillName string) (*Skill, error)
// 读取 Skill 文件内容(Level 3)
ReadSkillFile(ctx context.Context, skillName, filePath string) (string, error)
// 列出 Skill 中的所有文件
ListSkillFiles(ctx context.Context, skillName string) ([]string, error)
// 执行 Skill 脚本
ExecuteScript(ctx context.Context, skillName, scriptPath string, args []string) (*sandbox.ExecuteResult, error)
// 检查是否启用
IsEnabled() bool
}
type Skill struct {
Name string // 技能名称
Description string // 技能描述
BasePath string // 目录绝对路径
FilePath string // SKILL.md 绝对路径
Instructions string // SKILL.md 主体指令内容
Loaded bool // 是否已加载 Level 2
}
type SkillMetadata struct {
Name string // 技能名称
Description string // 技能描述
BasePath string // 目录路径
}
type ExecuteResult struct {
ExitCode int // 退出码
Stdout string // 标准输出
Stderr string // 标准错误
Duration time.Duration // 执行时长
Error error // 执行错误
}
以下是 Agent 处理用户请求的完整流程:
用户: "帮我从 report.pdf 提取表格数据"
Agent 思考:
→ 查看 System Prompt 中的 Skills 列表
→ 发现 "pdf-processing" 技能匹配
Agent 行动 1: 调用 read_skill
→ {"skill_name": "pdf-processing"}
→ 获取 SKILL.md 指令内容
→ 学习如何使用 pdfplumber
Agent 行动 2: 调用 execute_skill_script
→ {"skill_name": "pdf-processing",
"script_path": "scripts/extract_text.py",
"args": ["report.pdf"]}
→ 脚本在沙箱中执行,返回提取的表格数据
Agent 回复:
→ 向用户展示提取的表格数据
→ 提供数据使用建议
skill_dirs 配置是否正确SKILL.md 文件# 运行 demo 验证
go run ./cmd/skills-demo/main.go
sandbox_mode 配置常见错误:
skill name too long: 名称超过 50 字符skill name contains invalid characters: 包含非法字符skill name is reserved: 使用了保留词skill description too long: 描述超过 500 字符