大促采购季,新用户首购低至5折点此了解

多模型代理

发布时间 2025-03-03


场景描述

AI网关能够将外部调用不同大模型的请求,通过统一的调用方式转发到内部对应的大模型上,使得后端模型调度更加灵活;Higress AI网关支持常用的100+个模型的统一协议转换,并支持模型级Fallback。

在大模型评测过程中,多模型代理功能可以构造统一数据集,将模型请求转发到后端模型,验证模型的效果;结合可观测插件,能够清晰地追踪不同模型的链路。

部署Higress.AI

本指南中基于docker部署,如您需要其他部署方式(k8s、helm等),请参照快速开始

执行以下命令:

Terminal window
curl -sS https://higress.cn/ai-gateway/install.sh | bash

按照指引可以分别录入 Aliyun Dashscope或其他API-KEY;也可以键入回车后跳过,之后在控制台中修改。

上述命令的默认的HTTP的服务端口为8080,HTTPS的服务端口为8443,控制台的服务端口为8001。如您需要使用其他端口,可使用 wget https://higress.cn/ai-gateway/install.sh下载部署脚本后,修改DEFAULT_GATEWAY_HTTP_PORT/DEFAULT_GATEWAY_HTTPS_PORT/DEFAULT_CONSOLE_PORT结果;然后是使用bash执行脚本。

部署完成后,会出现以下界面:

控制台配置

通过浏览器访问控制台界面http://localhost:8001/,首次登录需要配置管理员及密码。

在AI服务提供者管理界面,可以配置已集成供应商的API-KEY。当前已集成的供应商有阿里云、DeepSeek、Azure OpenAI、OpenAI、豆包等。这里我们配置上通义千问及DeepSeek的多模型代理。

在AI路由管理中,为DeepSeek路由进行降级配置;当请求目标服务失败(如限流、访问失败等)时,降级到阿里云qwen-turbo模型。

调试

打开系统自带命令行,通过以下命令进行请求(如HTTP服务未部署在8080端口上,修改为对应端口即可)

curl 'http://localhost:8080/v1/chat/completions' \
-H 'Content-Type: application/json' \
-d '{
"model": "qwen-max",
"messages": [
{
"role": "user",
"content": "你是谁"
}
]
}'

请求结果示例:

结果观测

在AI监控面板界面,可以对AI请求进行观测。观测指标包括每秒输入输出Token数量、各供应商/模型Token使用数量等。

如您在部署过程中遇到问题,可在 Higress Github Issue 中留下您的信息。

如您对 Higress 后续更新感兴趣,或希望给 Higress 提供反馈,欢迎 Star Higress Github Repo