在 LobeHub 中使用 vLLM

vLLM是一个开源的本地大型语言模型（LLM）部署工具，允许用户在本地设备上高效运行 LLM 模型，并提供兼容 OpenAI API 的服务接口。

本文档将指导你如何在 LobeHub 中使用 vLLM:

<Steps> ### 步骤一：准备工作

vLLM 对于硬件和软件环境均有一定要求，请务必根据以下要求进行配置：

硬件需求
GPU	- NVIDIA CUDA

软件需求
- OS: Linux

如果你正在使用 NVIDIA GPU，你可以直接使用pip安装 vLLM。但这里建议使用uv，它一个非常快速的 Python 环境管理器，来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后，你可以使用以下命令创建一个新的 Python 环境并安装 vLLM：

shell

uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm

另一种方法是使用uv run与--with [dependency]选项，这允许你运行vllm serve等命令而无需创建环境：

shell

uv run --with vllm vllm --help

你也可以使用 conda 来创建和管理你的 Python 环境。

shell

conda create -n myenv python=3.12 -y
conda activate myenv
pip install vllm

<Callout type={'note'}> 对于非 CUDA 平台，请参考官方文档了解如何安装 vLLM </Callout>

vLLM 可以部署为一个 OpenAI API 协议兼容的服务器。默认情况下，它将在 http://localhost:8000 启动服务器。你可以使用 --host 和 --port 参数指定地址。服务器目前一次仅运行一个模型。

以下命令将启动一个 vLLM 服务器并运行 Qwen2.5-1.5B-Instruct 模型：

shell

vllm serve Qwen/Qwen2.5-1.5B-Instruct

你可以通过传递参数 --api-key 或环境变量 VLLM_API_KEY 来启用服务器检查头部中的 API 密钥。如不设置，则无需 API Key 即可访问。

<Callout type={'note'}> 更详细的 vLLM 服务器配置，请参考官方文档 </Callout>

<Callout type={'warning'}> * 如果你的 vLLM 没有配置 API Key，请将 API Key 留空 * 如果你的 vLLM 运行在本地，请确保打开客户端请求模式 </Callout>

在下方的模型列表中添加你运行的模型
为你的助手选择一个 vLLM 运行的模型即可开始对话

<Image alt={'选择 vLLM 模型'} inStep src={'/blog/assets8477415ecec1f37e38ab38ff1217d0a7.webp'} />
</Steps>

至此你已经可以在 LobeHub 中使用 vLLM 提供的模型进行对话了。

在 LobeHub 中使用 vLLM API Key