docs/usage/providers/vllm.zh-CN.mdx
<Image alt={'在 LobeHub 中使用 vLLM'} cover src={'/blog/assets1049abec5850cebf8ce12cd50199b9c5.webp'} />
vLLM是一个开源的本地大型语言模型(LLM)部署工具,允许用户在本地设备上高效运行 LLM 模型,并提供兼容 OpenAI API 的服务接口。
本文档将指导你如何在 LobeHub 中使用 vLLM:
<Steps> ### 步骤一:准备工作vLLM 对于硬件和软件环境均有一定要求,请务必根据以下要求进行配置:
| 硬件需求 | |
|---|---|
| GPU | - NVIDIA CUDA |
| 软件需求 |
|---|
| - OS: Linux |
如果你正在使用 NVIDIA GPU,你可以直接使用pip安装 vLLM。但这里建议使用uv,它一个非常快速的 Python 环境管理器,来创建和管理 Python 环境。请按照文档安装 uv。安装 uv 后,你可以使用以下命令创建一个新的 Python 环境并安装 vLLM:
uv venv myenv --python 3.12 --seed
source myenv/bin/activate
uv pip install vllm
另一种方法是使用uv run与--with [dependency]选项,这允许你运行vllm serve等命令而无需创建环境:
uv run --with vllm vllm --help
你也可以使用 conda 来创建和管理你的 Python 环境。
conda create -n myenv python=3.12 -y
conda activate myenv
pip install vllm
<Callout type={'note'}> 对于非 CUDA 平台,请参考官方文档了解如何安装 vLLM </Callout>
vLLM 可以部署为一个 OpenAI API 协议兼容的服务器。默认情况下,它将在 http://localhost:8000 启动服务器。你可以使用 --host 和 --port 参数指定地址。服务器目前一次仅运行一个模型。
以下命令将启动一个 vLLM 服务器并运行 Qwen2.5-1.5B-Instruct 模型:
vllm serve Qwen/Qwen2.5-1.5B-Instruct
你可以通过传递参数 --api-key 或环境变量 VLLM_API_KEY 来启用服务器检查头部中的 API 密钥。如不设置,则无需 API Key 即可访问。
<Callout type={'note'}> 更详细的 vLLM 服务器配置,请参考官方文档 </Callout>
应用设置界面AI 服务商 下找到 vLLM 的设置项<Image alt={'填写 vLLM API 密钥'} inStep src={'/blog/assets02dce7325584974cdba327fe2f996b9e.webp'} />
<Callout type={'warning'}>
* 如果你的 vLLM 没有配置 API Key,请将 API Key 留空 * 如果你的 vLLM
运行在本地,请确保打开客户端请求模式
</Callout>
在下方的模型列表中添加你运行的模型
为你的助手选择一个 vLLM 运行的模型即可开始对话
<Image alt={'选择 vLLM 模型'} inStep src={'/blog/assets8477415ecec1f37e38ab38ff1217d0a7.webp'} />
</Steps>至此你已经可以在 LobeHub 中使用 vLLM 提供的模型进行对话了。