vLLM
本文介绍如何在 OmniAgent 中配置 vLLM 模型服务。
vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。它通过 PagedAttention 等技术,在大规模并发请求场景下表现极其出色,广泛应用于生产环境部署。
官方网站:vllm.ai
启动 vLLM 服务
在您的宿主机或服务器上,使用以下方式启动 vLLM 的 OpenAI 兼容服务器:
# 示例:启动 Qwen2-7B 模型
python -m vllm.entrypoints.openai.api_server --model qwen/Qwen2-7B-Instruct启动完成后,服务器默认监听在 http://localhost:8000。
在 OmniAgent 中配置
-
打开 OmniAgent 的 API Key 管理 页面。
-
点击 + 新增 API 密钥,在该页面的提供商下拉菜单中选择 vLLM。
-
配置信息:
- 模型名称: 填入您启动 vLLM 时指定的
--model名称(示例:qwen/Qwen2-7B-Instruct)。 - API Key (密钥): 若未设置认证,可输入任意字符(如
vllm)或留空。 - Base URL (地址): 默认为
http://localhost:8000。若修改了端口,请同步更改。
- 模型名称: 填入您启动 vLLM 时指定的

常用参数参考
| 参数 | 默认值 | 说明 |
|---|---|---|
| 端口 | 8000 | vLLM 默认 API 监听端口。 |
| API 路径 | /v1 | vLLM 提供 OpenAI 兼容接口的路径后缀。 |
| 显存占用 | 0.9 (默认) | 可通过 --gpu-memory-utilization 调整显存分配。 |