Blog Background
Community / Blog
Blog
All Articles Technical Articles Ecological Articles Best Practices Community Activities
基于 AI 网关的 LLM 高可用最佳实践
作者:桂楚,阿里云AI网关实习工程师 随着LLM服务广泛部署,服务的可用性和流量治理面临新的可靠性要求。由于LLM服务参数量级限制,其服务部署和重启时间较长,如果服务因为过载而故障,则重启时间达到分钟级,对服务可用性影响极大。阿里云AI网关提供了多来源LLM服务的代理功能,不仅可以通过简单易用的配置对LLM服务进行代理,同时提供了丰富的LLM服务入口流量治理功能,提高LLM服务的可观测性和可用性。对于自部署的LLM服务,传统网关的检测和过载保护机制往往滞后,阿里云AI网关提供了一系列如被动健康检测、首包超时和fallback等高可用机制,通过合理配置,能够实现对LLM服务的过载状态实时...
CH3CHO | 2025-09-05
基于 AI 网关的 LLM 高可用最佳实践
Higress v2.1.7:42 项引擎更新 + 12 项控制台更新
Higress 引擎更新 本次发布概览 本次发布包含 42 项更新,涵盖了功能增强、Bug修复、性能优化等多个方面。 更新内容分布 + 新功能: 21项 + Bug修复: 14项 + 重构优化: 4项 + 文档更新: 2项 + 测试改进: 1项 重点关注 本次发布包含 3 项重要更新,建议重点关注: + feat: add MCP SSE stateful session load balancer support (): 此功能使得基于SSE协议的MCP服务能够更好地保持客户端与服务器之间的持久连接,增强用户体验和应用性能,特别是在需要维持长时间连接以进行数据推送的场景中。...
CH3CHO | 2025-09-03
Higress v2.1.7:42 项引擎更新 + 12 项控制台更新
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
作者:岛风、十眠、严研 HiMarket 正式开源 由 Higress 社区和 Nacos 社区共同发起的全新开源项目 HiMarket AI 开放平台,正式发布。 GitHub 地址: 在 AI 浪潮席卷千行百业的今天,我们看到无数企业和开发者满怀激情地投身其中。无论是将内部的大模型能力赋能给各个业务线,还是希望将昂贵的 AI 资产对外开放、构建生态,一个强大的“AI 开放平台”都已成为刚需。 作为 Higress 的贡献者,我们在与许多开发者和企业用户的交流中发现:当企业借助 Higress AI 网关完成模型与工具的统一接入后,难点便从“连通”转向“协作与产品化”。工具提供...
CH3CHO | 2025-09-02
HiMarket 正式开源,为企业落地开箱即用的 AI 开放平台
释放 RAG 潜能,用 AI 网关帮助 Dify 应用“开外挂”
作者:王灏廷、赵源筱 Dify 是一款开源的 AI 应用开发平台,旨在帮助开发者和非技术人员快速构建和运营基于生成式AI的应用。截至目前,Dify 开源 Star 数量已经突破 11 万,具有庞大的用户群体,已成为构建生成式 AI 应用的热门选择之一。 然而,随着 Dify 在实际生产实践中持续落地,根据云上客户以及社区反馈,其内置的 RAG 引擎逐渐暴露出复杂文本分块处理能力低、检索功能薄弱、配置不够简洁智能等问题,这些问题直接导致 Dify 内置 RAG 的召回质量不理想,进而影响了大模型生成内容的准确性与可靠性,难以满足企业级生产环境对高精度知识检索的需求。 为解决上述云上客户以及...
CH3CHO | 2025-08-29
释放 RAG 潜能,用 AI 网关帮助 Dify 应用“开外挂”
Dify 性能瓶颈?Higress AI 网关为它注入「高可用之魂」!
作者:赵源筱、王灏廷 Dify 作为一款开源的 AI 应用开发平台,凭借其灵活的工作流编排和易用的界面,在社区和云上部署中获得了广泛的关注。在 github 上,Dify 平均日增 20 个左右 issue,在开源也具有较高的活跃度。 然而,随着 Dify 用户规模扩大、生产落地增加,Dify 应用在性能方面的问题也逐渐暴露,影响了用户体验和生产环境的稳定性。 针对 Dify 性能问题,本文将介绍如何使用 Higress AI 网关保证 Dify 应用的全链路高可用性,并给出操作实践指南。 Dify 应用性能问题 对于一个对外提供服务的 Dify AI 应用,能够正常运行的核心基础依...
CH3CHO | 2025-08-19
Dify 性能瓶颈?Higress AI 网关为它注入「高可用之魂」!
从体验到系统工程|上手评测国内首款 AI 电商 APP
作者:望宸 产品界面,往往体现了产品的设计哲学,界面是产品的第一入口。 近期,1688 推出了 1688 AI APP,这貌似是国内第一个电商领域的独立 AI APP 应用(若不是,欢迎评论指正)。本文试图通过产品界面这一入口,窥探其背后的系统工程。(笔者并非就职于 1688 团队,仅从一位 1688 普通用户的视角做些体验评测)。 1688 在 AI 领域的技术实践,推荐阅读阿里巴巴高级算法专家张进的这篇分享: 产品界面即用户认知:1688 APP 和 1688 AI APP 的不同 在软件产品的演化史中,首页界面往往折射出产品的设计哲学。对比 1688 App 和 1...
CH3CHO | 2025-08-08
从体验到系统工程|上手评测国内首款 AI 电商 APP
Higress v2.1.6:31 项引擎更新 + 12 项控制台更新
Higress 本次发布概览 本次发布包含 31 项更新,涵盖了功能增强、Bug修复、性能优化等多个方面。 更新内容分布 + 新功能: 13项 + Bug修复: 5项 + 重构优化: 7项 + 文档更新: 6项 重点关注 本次发布包含 2 项重要更新,建议重点关注: + feat: Add Higress API MCP server (): 新增的Higress API MCP服务器功能增强了AI Agent对Higress资源的管理能力,支持通过MCP进行路由和服务的增删改查操作,提升了系统的灵活性和可维护性。 + Migrate WASM Go Plugins to N...
CH3CHO | 2025-08-06
Higress v2.1.6:31 项引擎更新 + 12 项控制台更新
不增加 GPU,首 Token 延迟下降50%|LLM 服务负载均衡的新实践
作者:钰诚 简介 传统的负载均衡算法主要设计用于通用的Web服务或微服务架构中,其目标是通过最小化响应时间、最大化吞吐量或保持服务器负载平衡来提高系统的整体效率,常见的负载均衡算法有轮询、随机、最小请求数、一致性哈希等。然而,在面对LLM服务时,这些传统方法往往暴露出以下几个关键缺陷: 1. 忽略任务复杂度差异:LLM推理请求的复杂度差异极大。例如,一个长文本生成任务可能需要数十倍于短文本分类任务的计算资源。而传统负载均衡器无法感知这种差异,容易导致某些节点过载,而其他节点空闲,造成资源浪费和响应延迟。 2. 缺乏对GPU资源水位的感知:在LLM推理服务中,计算瓶颈主要集中在GPU上,传...
CH3CHO | 2025-08-04
不增加 GPU,首 Token 延迟下降50%|LLM 服务负载均衡的新实践
Higress 入选《AI Cloud 大模型推理与交互典型案例》
中国信通院于2025年7月23日举办的2025年可信云大会大模型推理与信息交互分论坛上,携手阿里云、中兴通讯、网易数之帆、长亮科技等企业单位,共同发布了《人工智能云 AI 网关能力要求》标准,AI 网关能力要求概述如下,覆盖插件集管理、多模型适配能力、可观测性、模型服务集成能力、流量治理、安全防护、大模型工具信息交互支持七大能力板块。 同时,会上发布了 AI Cloud 大模型推理与交互典型案例,共7家案例入选,包含 Higress 服务的3家用户。 + 携程:基于 AI 网关的大模型应用实践 + +
CH3CHO | 2025-08-04
Higress 入选《AI Cloud 大模型推理与交互典型案例》
Page 5 of 13