Back to Lightrag

基于角色的 LLM/VLM 配置指南

docs/RoleSpecificLLMConfiguration-zh.md

1.5.015.9 KB
Original Source

基于角色的 LLM/VLM 配置指南

LightRAG 支持为不同处理阶段配置不同的 LLM 或 VLM。这个机制适合把低成本模型用于抽取,把更强模型用于最终回答,或为多模态分析单独指定视觉语言模型。

角色说明

当前支持四个角色:

角色用途
EXTRACT实体/关系抽取,以及实体/关系描述摘要。
KEYWORD查询关键词抽取,用于检索前的 high-level / low-level keyword 生成。
QUERY最终问答、普通查询、bypass 查询,以及 Ollama-compatible API 的查询路径。
VLM多模态分析阶段,用于图片、表格、公式等内容的 VLM 分析。

如果某个角色没有专门配置,LightRAG 会使用基础 LLM_* 配置。

基础 LLM 配置

基础配置定义默认 LLM provider、模型、服务地址、认证信息和并发控制:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_api_key

# 所有 LLM 请求的默认超时时间
LLM_TIMEOUT=180

# 所有 LLM 调用的默认最大并发数
MAX_ASYNC=4

常用字段:

变量说明
LLM_BINDING基础 LLM provider。支持 openaiollamalollmsazure_openaibedrockgemini
LLM_MODEL基础模型名。对 Azure OpenAI 通常使用 deployment 名称。
LLM_BINDING_HOST基础 provider endpoint。对于 SDK 默认 endpoint,可使用对应 sentinel,例如 DEFAULT_GEMINI_ENDPOINTDEFAULT_BEDROCK_ENDPOINT
LLM_BINDING_API_KEY基础 API key。Bedrock 不使用这个字段。
LLM_TIMEOUT基础 LLM timeout。角色未设置 timeout 时继承它。
MAX_ASYNC基础 LLM 最大并发。角色未设置 {ROLE}_MAX_ASYNC_LLM 时继承它。

角色覆盖变量

每个角色都可以覆盖 binding、模型、endpoint、API key、并发和 timeout:

env
QUERY_LLM_BINDING=openai
QUERY_LLM_MODEL=gpt-5
QUERY_LLM_BINDING_HOST=https://api.openai.com/v1
QUERY_LLM_BINDING_API_KEY=your_query_api_key
QUERY_MAX_ASYNC_LLM=2
QUERY_LLM_TIMEOUT=240

变量格式:

变量说明
{ROLE}_LLM_BINDING覆盖角色 provider。ROLE 可为 EXTRACTKEYWORDQUERYVLM
{ROLE}_LLM_MODEL覆盖角色模型名。
{ROLE}_LLM_BINDING_HOST覆盖角色 endpoint。
{ROLE}_LLM_BINDING_API_KEY覆盖角色 API key。Bedrock 不支持。
{ROLE}_MAX_ASYNC_LLM覆盖角色最大并发。未设置时继承 MAX_ASYNC
{ROLE}_LLM_TIMEOUT覆盖角色 timeout。未设置时继承 LLM_TIMEOUT

Provider 参数覆盖

provider 细项使用下面的格式:

env
{ROLE}_{PROVIDER_PREFIX}_{FIELD}

例如:

env
# 只覆盖 QUERY 角色的 OpenAI reasoning effort
QUERY_OPENAI_LLM_REASONING_EFFORT=medium

# 只覆盖 EXTRACT 角色的 Bedrock 生成参数
EXTRACT_BEDROCK_LLM_TEMPERATURE=0.0
EXTRACT_BEDROCK_LLM_MAX_TOKENS=2048

# 只覆盖 VLM 角色的 Gemini 生成参数
VLM_GEMINI_LLM_MAX_OUTPUT_TOKENS=4096
VLM_GEMINI_LLM_TEMPERATURE=0.2

常见 provider 前缀:

Provider基础参数前缀角色参数示例
openai / azure_openaiOPENAI_LLM_*QUERY_OPENAI_LLM_REASONING_EFFORT
ollamaOLLAMA_LLM_*EXTRACT_OLLAMA_LLM_NUM_PREDICT
lollms使用 Ollama 兼容参数集合QUERY_OLLAMA_LLM_TEMPERATURE
bedrockBEDROCK_LLM_*EXTRACT_BEDROCK_LLM_MAX_TOKENS
geminiGEMINI_LLM_*VLM_GEMINI_LLM_THINKING_CONFIG

继承规则

同一个 provider 内覆盖

如果角色没有设置 {ROLE}_LLM_BINDING,或设置成与基础 LLM_BINDING 相同,角色会继承基础配置:

  • 未设置 {ROLE}_LLM_MODEL 时继承 LLM_MODEL
  • 未设置 {ROLE}_LLM_BINDING_HOST 时继承 LLM_BINDING_HOST
  • 未设置 {ROLE}_LLM_BINDING_API_KEY 时继承 LLM_BINDING_API_KEY
  • 未设置 {ROLE}_LLM_TIMEOUT 时继承 LLM_TIMEOUT
  • 未设置 {ROLE}_MAX_ASYNC_LLM 时继承 MAX_ASYNC
  • provider 参数先继承基础 provider options,再叠加角色专属 provider options。

因此,同一个 provider 下只想换模型时,只需要写模型名:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_api_key
OPENAI_LLM_REASONING_EFFORT=minimal

# QUERY 继承 host、API key、timeout、并发和 OPENAI_LLM_REASONING_EFFORT
QUERY_LLM_MODEL=gpt-5

跨 provider 覆盖

如果角色的 {ROLE}_LLM_BINDING 与基础 LLM_BINDING 不同,就是跨 provider 配置。当前规则是:

  • 必须设置 {ROLE}_LLM_MODEL
  • 非 Bedrock provider 必须设置 {ROLE}_LLM_BINDING_API_KEY
  • 如果没有设置 {ROLE}_LLM_BINDING_HOST,LightRAG 会尝试使用该 provider 的默认 host。
  • provider 参数不继承基础 provider options,而是从空配置开始,只叠加角色专属 provider options。

示例:基础使用 Ollama,本地抽取;最终回答改用 OpenAI:

env
LLM_BINDING=ollama
LLM_MODEL=qwen3.5:9b
LLM_BINDING_HOST=http://localhost:11434
OLLAMA_LLM_NUM_CTX=32768

QUERY_LLM_BINDING=openai
QUERY_LLM_MODEL=gpt-5-mini
QUERY_LLM_BINDING_HOST=https://api.openai.com/v1
QUERY_LLM_BINDING_API_KEY=your_openai_api_key
QUERY_OPENAI_LLM_REASONING_EFFORT=minimal

跨 provider 时建议显式设置 {ROLE}_LLM_BINDING_HOST,避免默认 host 与基础 provider 的 endpoint 混淆。

Bedrock 认证规则

Bedrock 不使用 LLM_BINDING_API_KEY,也不支持 {ROLE}_LLM_BINDING_API_KEY。可用认证方式:

  • 全局 SigV4:AWS_ACCESS_KEY_IDAWS_SECRET_ACCESS_KEYAWS_SESSION_TOKENAWS_REGION
  • 角色级 SigV4:{ROLE}_AWS_ACCESS_KEY_ID{ROLE}_AWS_SECRET_ACCESS_KEY{ROLE}_AWS_SESSION_TOKEN{ROLE}_AWS_REGION
  • 进程级 bearer token:AWS_BEARER_TOKEN_BEDROCK。这是 AWS SDK 进程级设置,不能按角色覆盖。

角色级 Bedrock 示例:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_openai_api_key

EXTRACT_LLM_BINDING=bedrock
EXTRACT_LLM_MODEL=us.amazon.nova-lite-v1:0
EXTRACT_LLM_BINDING_HOST=DEFAULT_BEDROCK_ENDPOINT
EXTRACT_AWS_REGION=us-west-2
EXTRACT_AWS_ACCESS_KEY_ID=your_extract_access_key
EXTRACT_AWS_SECRET_ACCESS_KEY=your_extract_secret_key
EXTRACT_AWS_SESSION_TOKEN=your_optional_session_token
EXTRACT_BEDROCK_LLM_TEMPERATURE=0.0
EXTRACT_BEDROCK_LLM_MAX_TOKENS=2048

Provider 行为对照

Provider角色级 host/base_url角色级 API key认证限制
openai支持,通过 {ROLE}_LLM_BINDING_HOST 传给 OpenAI-compatible client。支持 {ROLE}_LLM_BINDING_API_KEY,未设置时同 provider 继承基础 LLM_BINDING_API_KEY当前主要是 API key / Bearer 模式。
ollama支持,通过 {ROLE}_LLM_BINDING_HOST 传给 Ollama client。支持 {ROLE}_LLM_BINDING_API_KEY,未设置时同 provider 继承基础 key;底层未收到 key 时会再回退 OLLAMA_API_KEYBearer header。
lollms支持,通过 {ROLE}_LLM_BINDING_HOST 作为 base_url支持 {ROLE}_LLM_BINDING_API_KEY,未设置时同 provider 继承基础 key。Bearer header。
azure_openai支持,通过 {ROLE}_LLM_BINDING_HOST 作为 Azure endpoint。支持 {ROLE}_LLM_BINDING_API_KEY,未设置时同 provider 继承基础 key,也可能回退 AZURE_OPENAI_API_KEYAZURE_OPENAI_API_VERSION 是全局环境变量,不支持角色级覆盖。
bedrock支持,通过 {ROLE}_LLM_BINDING_HOST 作为 endpoint_urlDEFAULT_BEDROCK_ENDPOINT 表示交给 AWS SDK 选择。不支持 generic API key。使用全局或角色级 SigV4。AWS_BEARER_TOKEN_BEDROCK 是进程级,不能按角色覆盖。
gemini支持,通过 {ROLE}_LLM_BINDING_HOST 传给 Google GenAI client;DEFAULT_GEMINI_ENDPOINT 表示使用 SDK 默认 endpoint。AI Studio 模式支持 {ROLE}_LLM_BINDING_API_KEYVertex AI 由 GOOGLE_GENAI_USE_VERTEXAIGOOGLE_CLOUD_PROJECTGOOGLE_CLOUD_LOCATIONGOOGLE_APPLICATION_CREDENTIALS 控制,都是进程级设置。

推荐配置模式

1. 同 provider 只更换模型

适合用同一个 OpenAI key 和 endpoint,但让最终回答使用更强模型:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_api_key
OPENAI_LLM_REASONING_EFFORT=minimal

QUERY_LLM_MODEL=gpt-5
QUERY_MAX_ASYNC_LLM=2

QUERY 会继承基础 host、API key 和 OPENAI_LLM_REASONING_EFFORT

2. 同 provider 更换模型并调整参数

适合基础模型用于抽取,最终回答使用更高 reasoning effort:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_api_key
OPENAI_LLM_REASONING_EFFORT=minimal
OPENAI_LLM_MAX_COMPLETION_TOKENS=4096

QUERY_LLM_MODEL=gpt-5
QUERY_OPENAI_LLM_REASONING_EFFORT=medium
QUERY_OPENAI_LLM_MAX_COMPLETION_TOKENS=9000
QUERY_LLM_TIMEOUT=240

3. 同 provider 使用不同 endpoint 和 API key

适合所有角色都走 openai binding,但其中一些角色访问 OpenAI 官方接口,另一些角色访问本地 vLLM、SGLang 或 OpenRouter 等 OpenAI-compatible endpoint。下面的例子中:

  • EXTRACT 使用 OpenAI 官方 gpt-5-mini
  • QUERY 使用 OpenAI 官方 gpt-5.4,并使用单独的 OpenAI key。
  • KEYWORD 使用本地 vLLM 部署的 Qwen3.5-35B-A3B
env
###########################################################################
# Base LLM fallback. Keep it aligned with EXTRACT so unspecified roles still
# have a valid OpenAI configuration.
###########################################################################
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_extract_openai_api_key
LLM_TIMEOUT=180
MAX_ASYNC=4

###########################################################################
# IMPORTANT:
# Do not set global OPENAI_LLM_REASONING_EFFORT here if any same-provider role
# points to a local OpenAI-compatible server that does not support it.
# Use role-specific OPENAI options instead.
###########################################################################
# OPENAI_LLM_REASONING_EFFORT=none

###########################################################################
# EXTRACT: OpenAI official API, gpt-5-mini
###########################################################################
EXTRACT_LLM_BINDING=openai
EXTRACT_LLM_MODEL=gpt-5-mini
EXTRACT_LLM_BINDING_HOST=https://api.openai.com/v1
EXTRACT_LLM_BINDING_API_KEY=your_extract_openai_api_key
EXTRACT_OPENAI_LLM_REASONING_EFFORT=low
EXTRACT_OPENAI_LLM_MAX_COMPLETION_TOKENS=4096
EXTRACT_MAX_ASYNC_LLM=4
EXTRACT_LLM_TIMEOUT=180

###########################################################################
# QUERY: OpenAI official API, gpt-5.4, separate API key
###########################################################################
QUERY_LLM_BINDING=openai
QUERY_LLM_MODEL=gpt-5.4
QUERY_LLM_BINDING_HOST=https://api.openai.com/v1
QUERY_LLM_BINDING_API_KEY=your_query_openai_api_key
QUERY_OPENAI_LLM_REASONING_EFFORT=medium
QUERY_OPENAI_LLM_MAX_COMPLETION_TOKENS=9000
QUERY_MAX_ASYNC_LLM=2
QUERY_LLM_TIMEOUT=240

###########################################################################
# KEYWORD: local vLLM OpenAI-compatible endpoint, Qwen3.5-35B-A3B
###########################################################################
KEYWORD_LLM_BINDING=openai
KEYWORD_LLM_MODEL=Qwen3.5-35B-A3B
KEYWORD_LLM_BINDING_HOST=http://localhost:8000/v1
# If vLLM was started with --api-key, use the same value here.
# If vLLM has no auth, still set a non-empty dummy value to avoid falling
# back to the official OpenAI key.
KEYWORD_LLM_BINDING_API_KEY=local-vllm-api-key
KEYWORD_OPENAI_LLM_MAX_TOKENS=2048
# Optional for Qwen-style models served by vLLM when you want to disable thinking.
KEYWORD_OPENAI_LLM_EXTRA_BODY='{"chat_template_kwargs": {"enable_thinking": false}}'
KEYWORD_MAX_ASYNC_LLM=4
KEYWORD_LLM_TIMEOUT=180

这个模式不是跨 provider,因为三个角色的 binding 都是 openai。LightRAG 会分别把每个角色的 *_LLM_BINDING_HOST*_LLM_BINDING_API_KEY 传给 OpenAI-compatible client。

注意:同 provider 的 provider options 会继承基础 OPENAI_LLM_*。如果本地 vLLM 不支持 OpenAI 官方参数,例如 reasoning_effort,不要设置全局 OPENAI_LLM_REASONING_EFFORT;改用 EXTRACT_OPENAI_LLM_REASONING_EFFORTQUERY_OPENAI_LLM_REASONING_EFFORT 这类角色级变量。

4. 某个角色跨 provider

适合基础使用 OpenAI 官方模型,只有关键词抽取使用本地 Ollama:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_openai_api_key
OPENAI_LLM_REASONING_EFFORT=medium

KEYWORD_LLM_BINDING=ollama
KEYWORD_LLM_MODEL=qwen3.5:9b
KEYWORD_LLM_BINDING_HOST=http://localhost:11434
KEYWORD_LLM_BINDING_API_KEY=ollama-local-key
KEYWORD_OLLAMA_LLM_NUM_CTX=32768

跨 provider 时,Ollama 参数不会继承 OpenAI 参数。KEYWORD_LLM_BINDING_API_KEY 对本地 Ollama 通常可以使用占位值;当前跨 provider 校验会要求非 Bedrock 角色显式提供角色级 API key。

5. 为 VLM 单独指定多模态模型

适合文本任务使用便宜模型,多模态分析使用视觉语言模型:

env
VLM_PROCESS_ENABLE=true

LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_api_key

VLM_LLM_BINDING=openai
VLM_LLM_MODEL=gpt-4o
VLM_OPENAI_LLM_MAX_TOKENS=4096
VLM_MAX_ASYNC_LLM=2
VLM_LLM_TIMEOUT=240

如果 VLM 使用同一个 provider 和 key,可以省略 VLM_LLM_BINDING_HOSTVLM_LLM_BINDING_API_KEY

VLM_PROCESS_ENABLE 是多模态分析的总开关:设为 false 时,pipeline 会对每个多模态 item 输出 warning 并跳过,不调用 VLM;设为 true 时,生效的 VLM binding(设置了 VLM_LLM_BINDING 时取该值,否则取 LLM_BINDING)必须支持图片输入。当前支持视觉输入的 provider 包括:openaiazure_openaigeminibedrockollamaanthropiclollms 无法接收图片输入,会在启动时直接报错。

6. Bedrock 角色级 SigV4 凭证

适合只有某个角色访问 Bedrock,并使用独立 IAM/STS 凭证:

env
LLM_BINDING=openai
LLM_MODEL=gpt-5-mini
LLM_BINDING_HOST=https://api.openai.com/v1
LLM_BINDING_API_KEY=your_openai_api_key

QUERY_LLM_BINDING=bedrock
QUERY_LLM_MODEL=us.amazon.nova-lite-v1:0
QUERY_LLM_BINDING_HOST=DEFAULT_BEDROCK_ENDPOINT
QUERY_AWS_REGION=us-east-1
QUERY_AWS_ACCESS_KEY_ID=your_query_access_key
QUERY_AWS_SECRET_ACCESS_KEY=your_query_secret_key
QUERY_AWS_SESSION_TOKEN=your_optional_session_token
QUERY_BEDROCK_LLM_MAX_TOKENS=4096
QUERY_BEDROCK_LLM_TEMPERATURE=0.2

不要设置 QUERY_LLM_BINDING_API_KEY,Bedrock 会拒绝该配置。

注意事项

  • 同 provider 下,OPENAI_LLM_REASONING_EFFORTOPENAI_LLM_MAX_TOKENSOLLAMA_LLM_NUM_CTXGEMINI_LLM_THINKING_CONFIG 等 provider 参数会自动继承。
  • 当前没有干净的角色级“取消继承某个 provider 参数”的语义。如果某个同 provider 角色模型不支持基础参数,需要为该角色显式覆盖为可用值,或将它配置成跨 provider,并且只设置该角色支持的 provider 参数。
  • azure_openaiAZURE_OPENAI_DEPLOYMENTAZURE_OPENAI_API_VERSION 是全局环境变量。若设置了 AZURE_OPENAI_DEPLOYMENT,它可能优先于角色模型名。
  • Gemini Vertex AI 模式由进程级 Google 环境变量控制,不能在同一个 LightRAG 进程里让某些角色使用 Vertex AI、另一些角色使用 AI Studio API key。
  • LLM_BINDING_HOST 在 Docker/Compose 中通常需要使用容器可访问地址,例如 host.docker.internal,角色级 host 也遵循相同原则。
  • 修改 .env 后请重启 LightRAG Server。部分 IDE 终端会预加载 .env,建议打开新的终端会话确认环境变量生效。