vLLM

vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。它通过 PagedAttention 等技术，在大规模并发请求场景下表现极其出色，广泛应用于生产环境部署。

官方网站：vllm.ai

启动 vLLM 服务

在您的宿主机或服务器上，使用以下方式启动 vLLM 的 OpenAI 兼容服务器：

# 示例：启动 Qwen2-7B 模型
python -m vllm.entrypoints.openai.api_server --model qwen/Qwen2-7B-Instruct

启动完成后，服务器默认监听在 http://localhost:8000。

打开 OmniAgent 的 API Key 管理 页面。
点击 + 新增 API 密钥，在该页面的提供商下拉菜单中选择 vLLM。
配置信息:
- 模型名称: 填入您启动 vLLM 时指定的 --model 名称（示例：qwen/Qwen2-7B-Instruct）。
- API Key (密钥): 若未设置认证，可输入任意字符（如 vllm）或留空。
- Base URL (地址): 默认为 http://localhost:8000。若修改了端口，请同步更改。

vLLM 配置界面

参数	默认值	说明
端口	8000	vLLM 默认 API 监听端口。
API 路径	`/v1`	vLLM 提供 OpenAI 兼容接口的路径后缀。
显存占用	0.9 (默认)	可通过 `--gpu-memory-utilization` 调整显存分配。