阿里云为何要将数据采集开发套件开源_博客-Higress官网
下载量破万,《AI 原生应用架构白皮书》免费下载点此了解

阿里云为何要将数据采集开发套件开源

发布时间 2026-01-16


作者:望宸

一、数据采集正成为决定 Agent 品质的核心基础设施

随着 Agent 的不断演进和供应链的持续繁荣,数据采集正从传统的运维工具进化成为决定 Agent 品质的核心基础设施。为什么这么说呢?以下我们从 Agent 的服务可用性、Agent 的输出可靠性,以及 Agent 成本三个维度来分析。

Agent 的服务可用性

一个典型的 Agent 应用,远比传统应用复杂得多。

在用户终端之外,Agent 往往还包含认证与权限体系、会话与上下文管理、推理服务、大模型路由与降级策略、流程编排引擎等核心模块。同时,模型推理本身又高度依赖外部世界:它可能会调用多个模型服务,通过工具执行真实操作,借助向量数据库维护长期记忆,再通过缓存机制控制 LLM 的重复调用成本。

这些组件共同构成了一条高度动态、跨系统、跨语义的执行链路。数据类型更多、来源更分散、关联关系更复杂,这已经不是传统软件可以类比的应用形态了。

在这种背景下,孤立的数据几乎没有价值。

只有将模型、工具、流程与基础设施产生的信号统一关联起来,才能真正回答:系统到底哪里出了问题?这就要求数据采集具备三个能力:统一的数据语义、低成本且高质量的采集方式,以及端到端的全链路追踪能力。

Agent 的输出可靠性

Agent 与传统软件的根本差异,在于其自主决策特性。

它涉及多模态输入、大模型推理、工具调用和状态反馈等多层交互,本质上是一种非线性工作流。当这种工作流被投入真实业务场景后,任何一个节点的不确定性,都会被后续步骤不断放大,最终影响整体结果。

因此,AI 的非确定性,或者说没有标准答案,催生了评估经济。

评估开始从阶段性工作,演进为一种持续存在的工程实践。评估不再发生在系统上线之后,而是与开发过程并行展开。这背后逐渐形成了一种新的治理范式:由可观测性(包含数据采集)、度量框架(Benchmark)以及自动化评估共同构成的 Agent 治理体系。在这个体系中,高质量、可关联的数据,是一切评估与改进的前提。

成本可控

当 Agent 与模型进行多轮交互时,Token 消耗往往呈指数级增长。在某些复杂场景下,系统甚至可能陷入无止境的推理循环,形成典型的“Token 黑洞”。

如果缺乏链路级的可观测能力,开发者既无法判断消耗发生在哪一环,也无法评估优化的真实收益。系统的成本控制,最终只能依赖经验与猜测。而一旦具备端到端的观测能力,决策就有了依据:哪些步骤值得保留,哪些推理可以裁剪,哪些工具调用正在制造不必要的消耗。

而统一的数据采集是建立端到端的观测能力的前提。

正是在这样的技术背景下,阿里云选择开源 LoongSuite 数据采集开发套件,希望在顺应 AI 工程演进趋势的同时,帮助更多企业以更低的成本、更高的效率,构建标准化、可持续演进的可观测体系。


二、LoongSuite 的构成

作为一款开源的数据采集开发套件, LoongSuite(/lʊŋ swiːt/,音译 龙-sweet)包含主机探针、进程级探针和数据采集引擎三部分,其中:

  • LoongCollector:

是主机探针,基于 eBPF 提供日志收集、Prometheus 指标收集以及网络和安全收集功能。实现了高效灵活的数据处理,以及通过 eBPF 等技术实现了进程外数据的采集能力。同时,其作为数据采集引擎,实现了主机级探针与进程级插桩的有效结合。

  • LoongSuite 多语言 Agent

是进程级探针,实现了应用内细粒度可观测数据的采集,目前提供了Java、Go(编译时插桩)、Python 等主流编程语言 Agent,能够自动捕获进程中的函数调用链路、参数传递路径及资源消耗,无需修改业务代码即可实现运行时状态的精准采集。

这种无侵入式设计特别适用于动态更新频繁的技术环境,既保障观测数据的完整性,又避免对核心业务逻辑产生干扰。当面对复杂工作流时,系统可自动关联分布式追踪上下文,构建完整的执行路径拓扑。

  • 核心数据采集引擎

LoongCollector 除了主机探针的能力,作为核心数据采集引擎,还实现了多维度观测数据的统一处理,从原始数据采集到结构化转换,再到智能路由分发,整个流程通过模块化架构实现灵活编排。这种架构使观测数据既可对接开源分析平台实现自主治理,也可无缝衔接托管服务构建云原生观测体系。

三、LoongSuite 有哪些特点

从工程实现角度看,LoongSuite 的设计目标非常明确:在不干扰业务的前提下,把该采的都采到,把不该付出的成本降到最低。

  • 零侵入采集:通过进程级插桩与主机级探针结合,无需修改代码即可捕获全链路数据。
  • 全栈支持:覆盖 Java、Go、Python 等主流语言,适配当前绝大多数 AI 应用形态。
  • 生态兼容:LoongSuite 是 OpenTelemetry 的一个发行版,深度兼容 OT,遵循社区 GenAI 语义规范,并基于上游进行同步;此外,我们在 AI 场景下做创新功能的孵化器,会持续把新特性贡献给 OTel 社区。例如像 Go 探针,我们已经捐献给社区了。

在此基础之上,LoongSuite 内的 LoongCollector 进一步提供了三项关键能力。

多维度数据的统一采集能力

在 Agent 场景中,单一视角已经无法解释系统行为。

一个看似简单的用户请求,背后往往同时涉及模型推理、工具调用、上下文检索和状态更新等多个步骤。日志只能回答“发生了什么”,指标只能反映“整体是否异常”,而 Trace 只能展示“调用顺序”。如果这些信号彼此割裂,工程师面对的永远是片段化的事实,既无法判断问题的根因,也难以评估一次优化是否真正生效。

LoongCollector 将 Logs、Metrics、Traces、Events、Profiles 统一纳入同一采集与关联体系,本质上是在还原 Agent 的真实执行过程,让问题不再停留在“感觉不对”,而是可以被完整描述、复现和分析。LoongCollector 采用 All-in-One 架构,支持包括 Logs、Metrics、Traces、Events、Profiles 的全类型数据采集,同时通过 eBPF 实现进程外采集,降低业务干扰。

极致的性能与稳定性

极致的性能与稳定性是数据采集层不可妥协的前提。

采集系统位于业务系统的关键路径,一旦自身引入额外抖动,影响往往会被迅速放大。尤其是在 Agent 应用中,多轮推理和频繁的工具调用会带来突发性的数据洪峰,如果采集组件在高并发下出现锁竞争、阻塞或无序堆积,很容易将原本可控的性能波动升级为全链路问题。

LoongCollector 通过时间片调度、无锁化设计、高低水位反馈队列与持久化缓存,在高并发场景下实现低资源消耗与高吞吐,确保数据不丢失、系统不抖动,保障业务稳定性。

灵活部署与智能路由

灵活部署与智能路由能力,决定了这套采集体系能否适应持续演进的 AI 工程实践。

可观测系统并非一次性建设完成,随着模型、框架和业务形态的变化,数据的价值密度和使用方式都会不断调整。如果采集层与下游存储、分析系统强耦合,每一次调整都意味着重构和风险累积。

LoongCollector 通过模块化架构,将采集、处理与分发解耦,使不同来源、不同语义的数据可以在采集层完成结构化转换,并根据策略被路由至不同的下游系统。这种设计让工程团队可以在不破坏既有体系的前提下,引入新的分析平台或评估系统,从而保证可观测能力能够伴随 Agent 应用一同演进,而不是成为制约创新的瓶颈。

四、为何要开源

在 AI 时代,数据采集早已不是一个“实现问题”,而是一个生态问题。

一方面,Agent 应用的复杂性正在快速外溢。无论是基于低代码平台快速拼装的 Agent,还是在高代码框架中精细打磨的复杂系统,其技术栈、运行形态和交互模式都高度多样化。如果数据采集能力被封装在单一厂商或封闭体系中,就不可避免地面临覆盖不足、语义割裂和适配成本指数级上升的问题。可观测性要真正成为 AI 的基础设施,前提是它必须先成为公共能力。

另一方面,AI 可观测正在形成事实上的行业共识和技术标准。从 OpenTelemetry 在可观测领域的成功经验可以看到:只有通过开源,才能在语义规范、数据模型和采集方式上形成最大公约数,避免重复造轮子,也避免各自为政。尤其在 Agent 场景下,函数调用、工具使用、推理链路、评估结果等新型信号层出不穷,任何一家厂商都不可能独立定义标准答案。开源,是对不确定性最务实的回应。

从工程视角看,开源也是对性能与成本的长期负责。数据采集位于系统最底层,运行在主机、容器和进程的关键路径上,任何额外开销都会被成倍放大。通过开源,LoongSuite 能够在更广泛的真实生产环境中被验证、被审视、被优化,让极致性能不再只是实验室指标,而是在社区共建中不断逼近的工程现实。

更重要的是,阿里云并不希望 LoongSuite 只是“另一个采集器”。将其开源,意味着它不只服务于某一个平台或产品,而是成为 AI 可观测体系中的一块通用拼图:既可以被集成进不同的 Agent 框架,也可以与多种存储、分析和评估系统自由组合,最终帮助开发者构建真正端到端、可演进的 Agent 治理体系。

因此,开源并非终点,而是一种选择:选择用开放换取标准,用共建对抗复杂,用工程理性推动 AI 应用走向规模化和可持续。LoongSuite 的开源,正是在这一判断之上的自然结果。

参考资料:

  • 阿里云正式开源 LoongSuite:打造 AI 时代的高性能低成本可观测采集套件:

https://mp.weixin.qq.com/s/EPaeVXiR51ZcysFYJ6cHLA

  • LoongCollector:构建智能时代的数据采集新范式

https://mp.weixin.qq.com/s/2QhRHsf6tFiZeGQUg3Q-FA