August 4, 2025
不增加 GPU,首 Token 延迟下降50%|LLM 服务负载均衡的新实践
作者:钰诚
简介
传统的负载均衡算法主要设计用于通用的Web服务或微服务架构中,其目标是通过最小化响应时间、最大化吞吐量或保持服务器负载平衡来提高系统的整体效率,常见的负载均衡算法有轮询、随机、最小请求数、一致性哈希等。然而,在面对LLM服务时,这些传统方法往往暴露出以下几个关键缺陷:
1. 忽略任务复杂度差异:LLM推理请求的复杂度差异极大。例如,一个长文本生成任务可能需要数十倍于短文本分类任务的计算资源。而传统负载均衡器无法感知这种差异,容易导致某些节点过载,而其他节点空闲,造成资源浪费和响应延迟。
2. 缺乏对GPU资源水位的感知:在LLM推理服务中,计算瓶颈主要集中在GPU上,...
August 4, 2025
Higress 入选《AI Cloud 大模型推理与交互典型案例》
中国信通院于2025年7月23日举办的2025年可信云大会大模型推理与信息交互分论坛上,携手阿里云、中兴通讯、网易数之帆、长亮科技等企业单位,共同发布了《人工智能云 AI 网关能力要求》标准,AI 网关能力要求概述如下,覆盖插件集管理、多模型适配能力、可观测性、模型服务集成能力、流量治理、安全防护、大模型工具信息交互支持七大能力板块。
同时,会上发布了 AI Cloud 大模型推理与交互典型案例,共7家案例入选,包含 Higress 服务的3家用户。
+ 携程:基于 AI 网关的大模型应用实践
+
+
July 24, 2025
Higress v2.1.5:41 项引擎更新 + 8 项控制台更新
Higress 引擎更新
本次发布概览
本次发布包含 41 项更新,涵盖了功能增强、Bug修复、性能优化等多个方面。
更新内容分布
+ 新功能: 19项
+ Bug修复: 14项
+ 重构优化: 2项
+ 文档更新: 6项
重点关注
本次发布包含 2 项重要更新,建议重点关注:
+ feat: add DB MCP Server execute, list tables, describe table tools (): 通过增加这些工具,用户能够更方便地管理和操作数据库,提高了系统的灵活性和可用性,使得数据库操作更加直观和高效。
+ feat: advanced load...
July 24, 2025
AI Gateway 分析:OpenRouter vs Higress
作者:望宸
在经典应用架构中,「网关」往往意味着对用户请求的统一接入、认证鉴权、流控、协议转换等功能,Nginx、Envoy、Kong 等网关项目便是这一类能力的典型代表。而无论是微服务架构,还是云原生架构,这类产品的使用逻辑相对清晰、选型依据也相对稳定。
但进入 AI 应用时代后,原本定义清晰的「网关」概念正在被重新塑造。例如近期较热的 OpenRouter,早期以 LLM MarketPlace 自居的产品,如今也开始将自己定位为 “AI Gateway”。
这标志着三个重要变化:
+ AI Gateway 的供应商类型更多元化了:不仅有公共云厂商,如阿里云 API 网关...
July 22, 2025
手把手带你玩转基于 Nacos + Higress 的 MCP 开发新范式
作者:子葵
Naocs 3.0 中已经支持和Higress配合使用实现存量Http转化为MCP服务,3.0.1 及以上版本在支持存量转化的基础上同时支持同步Nacos中已经注册的原生的MCP服务,并在Higress上进行暴露,完成了对所有Remote Server类型的代理访问支持。
通过结合 Spring AI Alibaba,FastMCP 等框架,可以实现应用自动注册到Nacos中,并通过 Higress 自动将注册的应用对外暴露给Client侧访问。此文档从0到一完成Higress+Nacos配合实现REST API转MCP和透明代理暴露标准 MCP 服务。
环境准备
...
July 3, 2025
Higress MCP 服务管理,助力构建私有 MCP 市场
作者:岛风、绿水、十眠
前言
今年 3 月份 MCP 协议成为了 AI 的新一轮热点,被大多数人所熟知,彼时 Higress 快速进行跟进,新增了 MCP 协议转换功能,详见:,该方案解决了以下问题:
1. 引入 Redis,借助其 pub/sub 特性,解决了 SSE 协议会话保持的问题
2. 提供了 OpenAPI 转换成 MCP Server 的能力,仅需提供符合 OAS 3.0 规范的 OpenAPI 文档,即可自动转换成网关托管的 MCP Server
3. 提供了 Go Template 和 GJSON 表达式,来对请求和响应模版进行精细化处理,这使得用户只需要变更配置即可...
June 18, 2025
这家公司对网关性能的优化历程,在 Reddit 上爆了
作者:望宸
Sealos 在 Reddit r/kubernetes 社区分享了他们对网关性能的优化历程,包括业务特点带来的生产问题、应对方案选型、性能比对、代码片段、火焰图、改进成果等,阅读量超4w,并获得了一众国外网友们的点赞。
我有时几乎感觉自己在工作中从事有影响力的技术工程。
然后我看到这样的帖子,立刻感觉自己就像一个三岁的小孩,刚刚因为成功地将三角形放入方孔中而受到父亲的表扬,而父亲刚刚将他的 PR 合并到 Linux 内核中……
我喜欢有一份薪水优厚、舒适的工作,但是该死的,我可能不得不搬到一个能让我从事目前最先进的工作的地方。
不过,我的问题是——...
June 18, 2025
Higress 开源 Plugin Server,简化 Wasm 插件私有化部署难题
作者:岛风
这篇文章将向大家介绍 Higress 近期在 Wasm 插件生态方面的一个进展——Higress Wasm 插件服务器(Higress Plugin Server)。这个新的组件解决了用户在私有化部署 Higress 网关时拉取插件的痛点,优化了插件的下载与管理效率。
仓库地址:https://github.com/higressgroup/pluginserver
Wasm 插件:Higress 的扩展能力与挑战
Higress 自开源以来就一直将 Wasm 技术视为核心的网关扩展手段。Wasm 带来的工程可靠性、沙箱安全性、热更新能力以及 Higress 团队在此...
June 17, 2025
AI Agent 的工程化被低估了
作者:望宸
近期热度较高的两篇文章[1][2],不约而同的提到了 AI 发展至今,工程化对 AI 应用的作用被低估了。
+ “比如更好的虚拟机、更长上下文、大量的 MCP、甚至智能合约……等等一系列工程问题都是巨大的需求。”
+ “AI 的工程化工具很多,例如 LangGraph、LangChain,这些都是用于搭建的乐高积木,积木越丰富,组装成复杂结构的能力就越强。”
但工程化一词是很泛化的技术用语,包含的内容极广。广义的讲,非算法类的技术实现和产品设计,都可以归类为工程化。本文暂把工程化分类为产品工程和技术工程,试图通过这个视角,去简单拆解构建 AI Agent 的工程...