搜索文档

输入关键词,回车打开结果

OmniAgent 文档

vLLM

本文介绍如何在 OmniAgent 中配置 vLLM 模型服务。

vLLM 是一个高吞吐量、内存高效的 LLM 推理和服务引擎。它通过 PagedAttention 等技术,在大规模并发请求场景下表现极其出色,广泛应用于生产环境部署。

官方网站:vllm.ai

启动 vLLM 服务

在您的宿主机或服务器上,使用以下方式启动 vLLM 的 OpenAI 兼容服务器:

# 示例:启动 Qwen2-7B 模型
python -m vllm.entrypoints.openai.api_server --model qwen/Qwen2-7B-Instruct

启动完成后,服务器默认监听在 http://localhost:8000

在 OmniAgent 中配置

  1. 打开 OmniAgent 的 API Key 管理 页面。

  2. 点击 + 新增 API 密钥,在该页面的提供商下拉菜单中选择 vLLM

  3. 配置信息:

    • 模型名称: 填入您启动 vLLM 时指定的 --model 名称(示例:qwen/Qwen2-7B-Instruct)。
    • API Key (密钥): 若未设置认证,可输入任意字符(如 vllm)或留空。
    • Base URL (地址): 默认为 http://localhost:8000。若修改了端口,请同步更改。

vLLM 配置界面


常用参数参考

参数默认值说明
端口8000vLLM 默认 API 监听端口。
API 路径/v1vLLM 提供 OpenAI 兼容接口的路径后缀。
显存占用0.9 (默认)可通过 --gpu-memory-utilization 调整显存分配。

On this page