Back to Lobehub

在 LobeHub 中使用 vLLM API Key

docs/usage/providers/vllm.zh-CN.mdx

2.1.563.8 KB
Original Source

在 LobeHub 中使用 vLLM

<Image alt={'在 LobeHub 中使用 vLLM'} cover src={'/blog/assets1049abec5850cebf8ce12cd50199b9c5.webp'} />

vLLM是一个开源的本地大型语言模型(LLM)部署工具,允许用户在本地设备上高效运行 LLM 模型,并提供兼容 OpenAI API 的服务接口。

本文档将指导你如何在 LobeHub 中使用 vLLM:

<Steps> ### 步骤一:准备工作

vLLM 对于硬件和软件环境均有一定要求,请务必根据以下要求进行配置:

硬件需求
GPU- NVIDIA CUDA
  • AMD ROCm
  • Intel XPU | | CPU | - Intel/AMD x86
  • ARM AArch64
  • Apple silicon | | 其他 AI 加速器 | - Google TPU
  • Intel Gaudi
  • AWS Neuron
  • OpenVINO |
软件需求
- OS: Linux
  • Python: 3.9 – 3.12 |

步骤二:安装 vLLM

如果你正在使用 NVIDIA GPU,你可以直接使用pip安装 vLLM。但这里建议使用uv,它一个非常快速的 Python 环境管理器,来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后,你可以使用以下命令创建一个新的 Python 环境并安装 vLLM:

shell
uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm

另一种方法是使用uv run--with [dependency]选项,这允许你运行vllm serve等命令而无需创建环境:

shell
uv run --with vllm vllm --help

你也可以使用 conda 来创建和管理你的 Python 环境。

shell
conda create -n myenv python=3.12 -y
conda activate myenv
pip install vllm

<Callout type={'note'}> 对于非 CUDA 平台,请参考官方文档了解如何安装 vLLM </Callout>

步骤三:启动本地服务

vLLM 可以部署为一个 OpenAI API 协议兼容的服务器。默认情况下,它将在 http://localhost:8000 启动服务器。你可以使用 --host--port 参数指定地址。服务器目前一次仅运行一个模型。

以下命令将启动一个 vLLM 服务器并运行 Qwen2.5-1.5B-Instruct 模型:

shell
vllm serve Qwen/Qwen2.5-1.5B-Instruct

你可以通过传递参数 --api-key 或环境变量 VLLM_API_KEY 来启用服务器检查头部中的 API 密钥。如不设置,则无需 API Key 即可访问。

<Callout type={'note'}> 更详细的 vLLM 服务器配置,请参考官方文档 </Callout>

步骤四:在 LobeHub 中配置 vLLM

  • 访问 LobeHub 的 应用设置界面
  • AI 服务商 下找到 vLLM 的设置项

<Image alt={'填写 vLLM API 密钥'} inStep src={'/blog/assets02dce7325584974cdba327fe2f996b9e.webp'} />

  • 打开 vLLM 服务商并填入 API 服务地址以及 API Key

<Callout type={'warning'}> * 如果你的 vLLM 没有配置 API Key,请将 API Key 留空 * 如果你的 vLLM 运行在本地,请确保打开客户端请求模式 </Callout>

  • 在下方的模型列表中添加你运行的模型

  • 为你的助手选择一个 vLLM 运行的模型即可开始对话

    <Image alt={'选择 vLLM 模型'} inStep src={'/blog/assets8477415ecec1f37e38ab38ff1217d0a7.webp'} />

    </Steps>

至此你已经可以在 LobeHub 中使用 vLLM 提供的模型进行对话了。