多模型代理

发布时间 2025-03-03

场景描述

AI网关能够将外部调用不同大模型的请求，通过统一的调用方式转发到内部对应的大模型上，使得后端模型调度更加灵活；Higress AI网关支持常用的100+个模型的统一协议转换，并支持模型级Fallback。

在大模型评测过程中，多模型代理功能可以构造统一数据集，将模型请求转发到后端模型，验证模型的效果；结合可观测插件，能够清晰地追踪不同模型的链路。

部署Higress.AI

本指南中基于docker部署，如您需要其他部署方式（k8s、helm等），请参照快速开始。

执行以下命令：

curl -sS https://higress.cn/ai-gateway/install.sh | bash

注意：AI 网关的启动过程需要访问公网资源。请确保其运行环境具备外网访问条件。

按照指引可以分别录入 Aliyun Dashscope或其他API-KEY；也可以键入回车后跳过，之后在控制台中修改。

上述命令的默认的HTTP的服务端口为8080，HTTPS的服务端口为8443，控制台的服务端口为8001。如您需要使用其他端口，可使用 wget https://higress.cn/ai-gateway/install.sh下载部署脚本后，修改DEFAULT_GATEWAY_HTTP_PORT/DEFAULT_GATEWAY_HTTPS_PORT/DEFAULT_CONSOLE_PORT结果；然后是使用bash执行脚本。

部署完成后，会出现以下界面：

控制台配置

通过浏览器访问控制台界面http://localhost:8001/，首次登录需要配置管理员及密码。

在AI服务提供者管理界面，可以配置已集成供应商的API-KEY。当前已集成的供应商有阿里云、DeepSeek、Azure OpenAI、OpenAI、豆包等。这里我们配置上通义千问及DeepSeek的多模型代理。

在AI路由管理中，为DeepSeek路由进行降级配置；当请求目标服务失败（如限流、访问失败等）时，降级到阿里云qwen-turbo模型。

调试

打开系统自带命令行，通过以下命令进行请求（如HTTP服务未部署在8080端口上，修改为对应端口即可）

curl 'http://localhost:8080/v1/chat/completions' \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "qwen-max",
    "messages": [
      {
        "role": "user",
        "content": "你是谁"
      }
    ]
  }'

请求结果示例：

结果观测

在AI监控面板界面，可以对AI请求进行观测。观测指标包括每秒输入输出Token数量、各供应商/模型Token使用数量等。

如您在部署过程中遇到问题，可在 Higress Github Issue 中留下您的信息。

如您对 Higress 后续更新感兴趣，或希望给 Higress 提供反馈，欢迎 Star Higress Github Repo。