March 13, 2025
AI 网关代理LLMs最佳实践
作者:付宇轩(计缘)
DeepSeek/QWen普惠AI趋势
随着DeepSeek R1的横空出世,又一次点燃了原本已经有点冷淡的大语言模型市场和话题,并且快速成为了现象级,小到中小学生,大到父母辈都知道了中国出了一个叫DeepSeek的大语言模型。各个行业,各个企业又都开启了新一轮的AI赋能/改进业务的浪潮。工信部发文力推最新AI技术普惠应用,三家运营商全面接入DeepSeek。国务院国资委召开中央企业“AI+”专项行动深化部署会。种种现象都表名,在DeepSeek引发的“鲶鱼效应”下,AI热潮持续升温,各个企业都愿意花钱进行尝试,云厂商GPU形态,线下一体机形态,云厂商DS API形...
March 12, 2025
大模型 Token 的消耗可能是一笔糊涂账
作者:望宸
如果您正在部署大模型应用,务必提前和 CEO 打好预防针,大模型应用远不如 Web 应用在资源成本上那么可控。
经典的 Web 应用,例如电商、游戏、出行、新能源、教育和医疗等,CPU 的消耗是可控的,和应用的在线人数和登陆时长成正相关,如果计算资源突增,可能是运营团队在做活动,也可能是预期外的突发流量,通过服务器弹性扩容后,稳定一段时间就会缩容到平时的状态,后端所消耗的资源是可追踪、可管控的。但大模型的 token 消耗并不是。
目录
01 大模型 token 消耗和哪些因素有关
02 大模型 token 消耗的隐蔽性来源
03 Agent 的资源消耗账本...
March 11, 2025
大模型带火 API 后,分享我对 API 安全之认证鉴权的实践
前言
云原生API网关(以下简称网关)是云原生网关的升级版,除继承了原云原生网关的全部能力,为用户叠加了API管理的能力。API作为企业的重要数字资源,在给企业带来巨大便利的同时也带来了新的安全问题,一旦被攻击可能导致数据泄漏重大安全问题,从而给企业的业务发展带来极大的安全风险。
正是在这样的背景下,OpenAPI规范中针对API安全做了明确的定义和引导,以便用户可以安全的管理自己的API。
以下为openapi的定义:
An OpenAPI file allows you to describe your entire API, including:
+ Available en...
March 10, 2025
大模型无缝切换,QwQ-32B 和 DeepSeek-R1 全都要
近期,通义千问发布最新推理模型 QwQ32B。
在各类基准测试中,拥有 320 亿参数的 QwQ 模型,其性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeekR1 媲美。这意味着:
+ 个人用户可以在更小的移动设备上、本地就能运行。
+ 企业用户推理大模型 API 的调用成本,可再降 90%。
价格对比:
如果是通过调用官方 API 的方式:
DeepSeek R1:$0.14/M 输入, $2.19/M 输出
QwQ32B:$0.20/M 输入, $0.20/M 输出
如果是通过云上自建的方式,例如阿里云 PAI:
DeepS...
March 10, 2025
教程:使用开源Higress实现DeepSeek联网搜索
之前发了Higress支持DeepSeek联网搜索的文章,但里面没有提供StepbyStep的指导,这篇文章是一个补充,希望对想使用这个功能的朋友有帮助。
安装 Higress 的过程不再赘述,让我们直接从一个安装好的 Higress 开始。
Step.0 配置 DeepSeek 的 API Key
可能你在安装 Higress 时没有填写 DeepSeek 的 API Key,那么可以在这里进行配置
Step.1 配置搜索引擎API域名
首先在 Higress 控制台,通过创建服务来源方式配置各个搜索引擎的域名:
google 搜索 API 的域名是:customsearc...
February 18, 2025
AI 网关需要具备的10大基本能力
作者:望宸、澄潭
大模型主战场从训练转向推理,已经成为业内共识。越来越多的公司已经开始设计符满足企业内部需求和外部商业方向的大模型应用,并在生产环境中进行部署。这个过程中,我们遇到了一系列新的需求,这些需求与最初的大模型应用在 “概念验证阶段” 有所不同。这些新需求更多地源于对规模化和安全使用,其中,AI 网关成为被讨论较多的 AI 基础设施关键组件之一。
我们认为 AI 网关并不是独立于 API 网关的新形态,本质也是一种 API 网关,区别在于针对 AI 场景的新需求专门做了扩展,它既是 API 网关的继承,也是 API 网关的演进。因此我们从 API 视角,对 AI 网关的...
February 14, 2025
玩转 DeepSeek:和 ChatGPT 对弈中国象棋
国外 up 主让 DeepSeek 跟 ChatGPT 下了一把国际象棋,DeepSeek 借助“孙子兵法”,让 ChatGPT 在优势局面下,直接认输:
如果让两个 AI 在中国象棋上对弈一把,效果会如何呢?话不多说,让我们直接来看看效果:
相比传统基于搜索算法等棋类 AI,至少目前看大模型没有太多优势。不过相比传统 AI,因为大模型可以输出一些聊天对话,会让棋局变得更有趣味性。
如果你对此感兴趣,可以看看下方的实现原理,在你自己的电脑上复现一把。
对弈实现原理
首先找了一个开源的基于终端命令行输出的象棋对弈程序:
因为是基于终端命令行的,棋局也很方便通...
February 5, 2025
浏览量超10w的热图,描述 RAG 的主流架构
作者:望宸
大模型性能的持续提升,进一步挖掘了 RAG 的潜力,突破“检索拼贴”的原始范式。
详见下方“RAG 的定义、优势和常见架构”
这张图近期在国外社区传播比较多,结构化的描述了 RAG 的主流架构。RAG 用于提升大模型的生成效果,使得大模型更加智能,而持续提升的大模型语义和逻辑推理能力,又能更加精准的识别和应用专业知识库。本文将梳理 RAG 的基本信息,旨在获得更加清晰的理解。
目录
+ 为什么需要 RAG
+ RAG 的定义、优势和常见架构
+ 还有哪些方式,可以提升大模型的生成结果
+ RAG 实践
为什么需要 RAG?
早期,大模型在进行训练的...
February 5, 2025
大模型推理服务全景图
作者:望宸
随着 DeepSeek R1 和 Qwen2.5Max 的发布,国内大模型推理需求激增,性能提升的主战场将从训练转移到推理。
由于无论是训练还是推理,如何提升性能都是业内讨论最多的话题之一。为什么是性能呢?做过在线业务工程化的人都知道,性能的提升,直接带来的效果有两个:
+ 计算资源成本的下降,更便宜
+ 客户端体验的提升,内容生成更快
在大模型消耗计算资源多、客户端内容流式生成的场景下,性能显得尤为重要。。
推理性能的提升涉及底层硬件、模型层,以及其他各个软件中间件层的相互协同,因此了解大模型技术架构的全局视角,有助于我们对推理性能的优化方案进行评估和选型...