<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>监控 on 技术博客</title>
    <link>https://xlwh.github.io/xlwh/categories/%E7%9B%91%E6%8E%A7/</link>
    <description>Recent content in 监控 on 技术博客</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <lastBuildDate>Sat, 11 Apr 2026 11:00:00 +0800</lastBuildDate>
    <atom:link href="https://xlwh.github.io/xlwh/categories/%E7%9B%91%E6%8E%A7/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>AI Observability Agent：大模型时代的监控利器</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/00-overview/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/00-overview/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;用 Rust 构建的高性能 AI 可观测性平台，让 AI 成本、性能、质量一目了然&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;项目简介&#34;&gt;项目简介&lt;/h2&gt;
&lt;h3 id=&#34;prometheus-agent-是什么&#34;&gt;Prometheus Agent 是什么？&lt;/h3&gt;
&lt;p&gt;Prometheus Agent（又名 AI Observability Agent）是一个使用 Rust 实现的高性能监控数据采集与上报代理。它不仅继承了传统监控代理的所有能力，还专门针对 AI/LLM 时代的需求进行了深度优化。&lt;/p&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────────────┐
│                    AI Observability Agent                        │
├─────────────────────────────────────────────────────────────────┤
│  传统监控能力              │           AI 专属能力              │
│  ─────────────             │           ─────────────            │
│  • 系统指标采集            │           • OTLP 协议接收          │
│  • 服务指标抓取            │           • AI 专用采集器          │
│  • Remote Write 上报       │           • 成本追踪引擎          │
│  • 多端点故障转移          │           • 质量监控系统          │
└─────────────────────────────────────────────────────────────────┘
&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;为什么需要-ai-observability-agent&#34;&gt;为什么需要 AI Observability Agent？&lt;/h3&gt;
&lt;p&gt;在大模型时代，企业和开发者面临着全新的监控挑战：&lt;/p&gt;</description>
    </item>
    <item>
      <title>AI 采集器：Claude Code、OpenAI、LiteLLM 监控</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/03-ai-collectors/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/03-ai-collectors/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的 AI 专用采集能力&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;ai-监控的挑战&#34;&gt;AI 监控的挑战&lt;/h2&gt;
&lt;p&gt;在大模型时代，企业和开发者面临着独特的监控挑战：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;挑战&lt;/th&gt;
          &lt;th&gt;传统监控的局限&lt;/th&gt;
          &lt;th&gt;AI 采集器的解决&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;多源数据&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;各 AI 工具指标格式不统一&lt;/td&gt;
          &lt;td&gt;统一采集接口&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;成本透明&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;无法追踪 AI API 调用成本&lt;/td&gt;
          &lt;td&gt;实时成本计算&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Token 监控&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;不支持 Token 维度分析&lt;/td&gt;
          &lt;td&gt;细粒度 Token 统计&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;质量评估&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;缺少 AI 服务质量指标&lt;/td&gt;
          &lt;td&gt;响应时间、错误率监控&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;平台差异&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;不同 AI 平台接口不同&lt;/td&gt;
          &lt;td&gt;统一抽象层&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;内置-ai-采集器&#34;&gt;内置 AI 采集器&lt;/h2&gt;
&lt;p&gt;AI Observability Agent 提供了多种 AI 专用采集器，覆盖主流 AI 平台：&lt;/p&gt;
&lt;h3 id=&#34;1-openai-usage-api-采集器&#34;&gt;1. OpenAI Usage API 采集器&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;功能&lt;/strong&gt;：从 OpenAI Usage API 采集使用数据&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;配置示例&lt;/strong&gt;：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;ai_collectors&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;enabled&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;openai&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    - &lt;span style=&#34;color:#f92672&#34;&gt;name&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;openai_usage&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;enabled&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;api_key&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;${OPENAI_API_KEY}     &lt;/span&gt; &lt;span style=&#34;color:#75715e&#34;&gt;# OpenAI API Key&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;org_id&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;${OPENAI_ORG_ID}       &lt;/span&gt; &lt;span style=&#34;color:#75715e&#34;&gt;# 组织 ID（可选）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;scrape_interval_secs&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;3600&lt;/span&gt;      &lt;span style=&#34;color:#75715e&#34;&gt;# 采集间隔（默认 1 小时）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;labels&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#f92672&#34;&gt;source&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;openai&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#f92672&#34;&gt;environment&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;production&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;采集的指标&lt;/strong&gt;：&lt;/p&gt;</description>
    </item>
    <item>
      <title>Grafana 可视化：开箱即用的监控面板</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/09-grafana-dashboards/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/09-grafana-dashboards/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的 Grafana Dashboard，实现 AI 监控数据的可视化&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;预置-dashboard-介绍&#34;&gt;预置 Dashboard 介绍&lt;/h2&gt;
&lt;p&gt;AI Observability Agent 提供了预置的 Grafana Dashboard，开箱即用，无需手动配置。&lt;/p&gt;
&lt;h3 id=&#34;1-ai-observability-dashboard&#34;&gt;1. AI Observability Dashboard&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;文件&lt;/strong&gt;：&lt;code&gt;dashboards/ai-observability.json&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;功能&lt;/strong&gt;：全面监控 AI 服务的成本、Token 使用、请求延迟等指标。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;包含面板&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;每日成本统计&lt;/strong&gt;：显示每日 AI API 成本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;最近一小时请求数&lt;/strong&gt;：显示最近一小时的请求量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;按模型的每小时成本趋势&lt;/strong&gt;：展示各模型的成本变化&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;按模型的 Token 使用趋势&lt;/strong&gt;：展示输入/输出 Token 使用情况&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;请求延迟分布&lt;/strong&gt;：P95/P99 延迟统计&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;成本分布饼图&lt;/strong&gt;：按模型/提供商的成本分布&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;按提供商的请求分布&lt;/strong&gt;：各 AI 提供商的请求占比&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-claude-code-dashboard&#34;&gt;2. Claude Code Dashboard&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;文件&lt;/strong&gt;：&lt;code&gt;dashboards/claude-code-dashboard.json&lt;/code&gt;&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;功能&lt;/strong&gt;：专门监控 Claude Code 的开发效率和使用情况。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;包含面板&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;24小时会话数&lt;/strong&gt;：显示最近 24 小时的会话数量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Claude Code 成本&lt;/strong&gt;：显示 Claude Code 的使用成本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Token 使用量&lt;/strong&gt;：输入/输出 Token 的使用趋势&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;按模型的成本趋势&lt;/strong&gt;：各模型的成本变化&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生成的代码行数&lt;/strong&gt;：Claude Code 生成的代码量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;PR 统计&lt;/strong&gt;：Pull Request 数量统计&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;导入方法&#34;&gt;导入方法&lt;/h2&gt;
&lt;h3 id=&#34;方法一通过-ui-导入&#34;&gt;方法一：通过 UI 导入&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;打开 Grafana UI&lt;/strong&gt;：访问 Grafana 网页界面（默认 http://localhost:3000）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;导航到 Dashboards&lt;/strong&gt;：点击左侧菜单的 &amp;ldquo;Dashboards&amp;rdquo;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;点击 Import&lt;/strong&gt;：在 Dashboards 页面点击 &amp;ldquo;Import&amp;rdquo; 按钮&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;上传 JSON 文件&lt;/strong&gt;：点击 &amp;ldquo;Upload JSON file&amp;rdquo;，选择对应的 Dashboard JSON 文件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;选择数据源&lt;/strong&gt;：在 &amp;ldquo;Prometheus&amp;rdquo; 下拉菜单中选择你的 Prometheus 数据源&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;点击 Import&lt;/strong&gt;：完成导入&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;方法二通过-api-导入&#34;&gt;方法二：通过 API 导入&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;步骤&lt;/strong&gt;：&lt;/p&gt;</description>
    </item>
    <item>
      <title>OTLP 协议支持：OpenTelemetry 原生集成</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/02-otlp-protocol/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/02-otlp-protocol/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的 OpenTelemetry 集成能力&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;opentelemetry-简介&#34;&gt;OpenTelemetry 简介&lt;/h2&gt;
&lt;h3 id=&#34;什么是-opentelemetry&#34;&gt;什么是 OpenTelemetry？&lt;/h3&gt;
&lt;p&gt;OpenTelemetry（简称 OTel）是一个开源的可观测性框架，提供了统一的标准和工具集，用于生成、收集和导出遥测数据（指标、日志、追踪）。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心价值&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;标准化&lt;/strong&gt;：统一的遥测数据格式和采集标准&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;可扩展&lt;/strong&gt;：丰富的插件生态系统&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;厂商中立&lt;/strong&gt;：支持多种后端存储&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;跨语言&lt;/strong&gt;：支持多种编程语言&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;opentelemetry-protocol-otlp&#34;&gt;OpenTelemetry Protocol (OTLP)&lt;/h3&gt;
&lt;p&gt;OTLP 是 OpenTelemetry 的标准数据传输协议，定义了遥测数据如何在不同组件之间传输。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;协议版本&lt;/strong&gt;：v1.0+
&lt;strong&gt;传输方式&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;gRPC&lt;/strong&gt;：高性能二进制协议，默认端口 4317&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;HTTP/JSON&lt;/strong&gt;：基于 HTTP 的文本协议，默认端口 4318&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;otlp-协议详解&#34;&gt;OTLP 协议详解&lt;/h2&gt;
&lt;h3 id=&#34;1-grpc-接收器&#34;&gt;1. gRPC 接收器&lt;/h3&gt;
&lt;p&gt;AI Observability Agent 通过 gRPC 协议接收 OTLP 指标：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;配置&lt;/strong&gt;：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;otlp&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;enabled&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;grpc_endpoint&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;0.0.0.0&lt;/span&gt;:&lt;span style=&#34;color:#ae81ff&#34;&gt;4317&lt;/span&gt;  &lt;span style=&#34;color:#75715e&#34;&gt;# gRPC 监听地址&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;技术实现&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;使用 &lt;code&gt;tonic&lt;/code&gt; crate 实现 gRPC 服务&lt;/li&gt;
&lt;li&gt;实现 &lt;code&gt;collector.metrics.v1.MetricsService/Export&lt;/code&gt; 方法&lt;/li&gt;
&lt;li&gt;异步处理请求，支持高并发&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;性能特性&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;二进制协议，传输效率高&lt;/li&gt;
&lt;li&gt;支持流式传输&lt;/li&gt;
&lt;li&gt;适合高吞吐量场景&lt;/li&gt;
&lt;li&gt;支持 TLS 加密&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-http-接收器&#34;&gt;2. HTTP 接收器&lt;/h3&gt;
&lt;p&gt;Agent 同时支持 HTTP 协议接收 OTLP 指标：&lt;/p&gt;</description>
    </item>
    <item>
      <title>Remote Write：高效数据推送</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/08-remote-write/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/08-remote-write/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的 Remote Write 功能，实现高效可靠的数据推送&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;prometheus-remote-write-协议&#34;&gt;Prometheus Remote Write 协议&lt;/h2&gt;
&lt;h3 id=&#34;协议概述&#34;&gt;协议概述&lt;/h3&gt;
&lt;p&gt;Prometheus Remote Write 是 Prometheus 生态系统中的一种数据传输协议，用于将监控数据从采集器推送到存储后端。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;核心特点&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;基于 HTTP&lt;/strong&gt;：使用 HTTP POST 请求&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Protobuf 编码&lt;/strong&gt;：高效的二进制编码&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Snappy 压缩&lt;/strong&gt;：减小传输体积&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量发送&lt;/strong&gt;：提高传输效率&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;协议版本&#34;&gt;协议版本&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;版本&lt;/strong&gt;：0.1.0&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Content-Type&lt;/strong&gt;：application/x-protobuf&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Content-Encoding&lt;/strong&gt;：snappy&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;X-Prometheus-Remote-Write-Version&lt;/strong&gt;：0.1.0&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;兼容的存储后端&#34;&gt;兼容的存储后端&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;存储后端&lt;/th&gt;
          &lt;th&gt;兼容性&lt;/th&gt;
          &lt;th&gt;特点&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Prometheus&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 完全兼容&lt;/td&gt;
          &lt;td&gt;原生支持&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;VictoriaMetrics&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 完全兼容&lt;/td&gt;
          &lt;td&gt;高性能时序数据库&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Cortex&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 完全兼容&lt;/td&gt;
          &lt;td&gt;可扩展的 Prometheus 水平扩展方案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Mimir&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 完全兼容&lt;/td&gt;
          &lt;td&gt;Grafana 开源的 Prometheus 兼容存储&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Thanos&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 完全兼容&lt;/td&gt;
          &lt;td&gt;高可用 Prometheus 方案&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;InfluxDB&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;✅ 兼容（需适配器）&lt;/td&gt;
          &lt;td&gt;时间序列数据库&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;数据编码流程&#34;&gt;数据编码流程&lt;/h2&gt;
&lt;h3 id=&#34;1-数据准备&#34;&gt;1. 数据准备&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Sample 收集&lt;/strong&gt;：从采集器和抓取器收集 Sample 数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据聚合&lt;/strong&gt;：按 metric_name + labels 分组&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;标签处理&lt;/strong&gt;：添加 &lt;code&gt;__name__&lt;/code&gt; 标签，排序标签&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-protobuf-编码&#34;&gt;2. Protobuf 编码&lt;/h3&gt;
&lt;p&gt;使用 prost 库进行 Protobuf 编码：&lt;/p&gt;</description>
    </item>
    <item>
      <title>快速开始：5分钟部署指南</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/10-getting-started/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/10-getting-started/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;快速部署和使用 AI Observability Agent 的完整指南&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;环境准备&#34;&gt;环境准备&lt;/h2&gt;
&lt;h3 id=&#34;系统要求&#34;&gt;系统要求&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;平台&lt;/th&gt;
          &lt;th&gt;最低配置&lt;/th&gt;
          &lt;th&gt;推荐配置&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Linux&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;1 CPU, 512MB RAM&lt;/td&gt;
          &lt;td&gt;2 CPU, 1GB RAM&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;macOS&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;1 CPU, 512MB RAM&lt;/td&gt;
          &lt;td&gt;2 CPU, 1GB RAM&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Windows&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;1 CPU, 1GB RAM&lt;/td&gt;
          &lt;td&gt;2 CPU, 2GB RAM&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;软件要求&#34;&gt;软件要求&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Rust&lt;/strong&gt; 1.70+（仅用于从源码构建）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Prometheus&lt;/strong&gt; 2.33+（用于接收 Remote Write 数据）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Grafana&lt;/strong&gt; 9.0+（用于可视化，可选）&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;网络要求&#34;&gt;网络要求&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;端口&lt;/th&gt;
          &lt;th&gt;用途&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;9090&lt;/td&gt;
          &lt;td&gt;HTTP 服务&lt;/td&gt;
          &lt;td&gt;Agent 自身的 HTTP 服务&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;4317&lt;/td&gt;
          &lt;td&gt;OTLP gRPC&lt;/td&gt;
          &lt;td&gt;OpenTelemetry gRPC 接收器&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;4318&lt;/td&gt;
          &lt;td&gt;OTLP HTTP&lt;/td&gt;
          &lt;td&gt;OpenTelemetry HTTP 接收器&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;快速部署&#34;&gt;快速部署&lt;/h2&gt;
&lt;h3 id=&#34;1-二进制部署&#34;&gt;1. 二进制部署&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;步骤 1：下载二进制文件&lt;/strong&gt;&lt;/p&gt;</description>
    </item>
    <item>
      <title>成本追踪：AI API 成本计算与预算管理</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/04-cost-tracking/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/04-cost-tracking/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;全面了解 AI Observability Agent 的成本追踪系统，实现 AI 支出的透明化管理&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;ai-成本监控的重要性&#34;&gt;AI 成本监控的重要性&lt;/h2&gt;
&lt;p&gt;在大模型时代，AI API 调用成本已经成为企业的重要支出项。有效的成本监控可以：&lt;/p&gt;
&lt;h3 id=&#34;1-成本透明化&#34;&gt;1. 成本透明化&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;实时了解支出&lt;/strong&gt;：实时掌握 AI API 调用成本&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;识别成本异常&lt;/strong&gt;：及时发现异常的成本增长&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;优化资源分配&lt;/strong&gt;：基于成本数据调整资源分配&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;2-预算控制&#34;&gt;2. 预算控制&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;设置预算限制&lt;/strong&gt;：避免超支风险&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;阈值告警&lt;/strong&gt;：预算接近限额时及时提醒&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;成本预测&lt;/strong&gt;：基于历史数据预测未来支出&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;3-决策支持&#34;&gt;3. 决策支持&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;模型选择&lt;/strong&gt;：基于成本效益分析选择合适的模型&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;使用模式优化&lt;/strong&gt;：识别并优化高成本使用模式&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;ROI 分析&lt;/strong&gt;：评估 AI 投资回报率&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;内置定价表&#34;&gt;内置定价表&lt;/h2&gt;
&lt;p&gt;AI Observability Agent 内置了主流 AI 模型的定价数据，确保成本计算的准确性。&lt;/p&gt;
&lt;h3 id=&#34;支持的模型列表&#34;&gt;支持的模型列表&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;提供商&lt;/th&gt;
          &lt;th&gt;输入成本 ($/1K tokens)&lt;/th&gt;
          &lt;th&gt;输出成本 ($/1K tokens)&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;claude-3-opus&lt;/td&gt;
          &lt;td&gt;anthropic&lt;/td&gt;
          &lt;td&gt;0.015&lt;/td&gt;
          &lt;td&gt;0.075&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;claude-3-sonnet&lt;/td&gt;
          &lt;td&gt;anthropic&lt;/td&gt;
          &lt;td&gt;0.003&lt;/td&gt;
          &lt;td&gt;0.015&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;claude-3-haiku&lt;/td&gt;
          &lt;td&gt;anthropic&lt;/td&gt;
          &lt;td&gt;0.00025&lt;/td&gt;
          &lt;td&gt;0.00125&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;gpt-4o&lt;/td&gt;
          &lt;td&gt;openai&lt;/td&gt;
          &lt;td&gt;0.005&lt;/td&gt;
          &lt;td&gt;0.015&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;gpt-4-turbo&lt;/td&gt;
          &lt;td&gt;openai&lt;/td&gt;
          &lt;td&gt;0.01&lt;/td&gt;
          &lt;td&gt;0.03&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;gpt-3.5-turbo&lt;/td&gt;
          &lt;td&gt;openai&lt;/td&gt;
          &lt;td&gt;0.0005&lt;/td&gt;
          &lt;td&gt;0.0015&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;o1&lt;/td&gt;
          &lt;td&gt;openai&lt;/td&gt;
          &lt;td&gt;0.015&lt;/td&gt;
          &lt;td&gt;0.06&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;o1-mini&lt;/td&gt;
          &lt;td&gt;openai&lt;/td&gt;
          &lt;td&gt;0.003&lt;/td&gt;
          &lt;td&gt;0.012&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;llama3-70b&lt;/td&gt;
          &lt;td&gt;meta&lt;/td&gt;
          &lt;td&gt;0.001&lt;/td&gt;
          &lt;td&gt;0.002&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;gemini-1.5-pro&lt;/td&gt;
          &lt;td&gt;google&lt;/td&gt;
          &lt;td&gt;0.0035&lt;/td&gt;
          &lt;td&gt;0.0105&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;定价数据来源&#34;&gt;定价数据来源&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;官方文档&lt;/strong&gt;：各 AI 提供商的官方定价页面&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;API 响应&lt;/strong&gt;：从 API 响应中获取实际定价&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;社区维护&lt;/strong&gt;：定期更新定价数据&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;自定义定价&#34;&gt;自定义定价&lt;/h3&gt;
&lt;p&gt;支持用户自定义模型定价：&lt;/p&gt;</description>
    </item>
    <item>
      <title>插件系统：灵活扩展采集能力</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/06-plugin-system/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/06-plugin-system/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的插件系统，通过插件扩展采集能力&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;插件架构设计&#34;&gt;插件架构设计&lt;/h2&gt;
&lt;p&gt;AI Observability Agent 的插件系统采用灵活的插件架构，允许用户通过插件扩展采集能力：&lt;/p&gt;
&lt;h3 id=&#34;核心设计&#34;&gt;核心设计&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;插件接口&lt;/strong&gt;：统一的插件接口&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;动态加载&lt;/strong&gt;：运行时动态加载插件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;并发执行&lt;/strong&gt;：插件并发执行，互不影响&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;错误隔离&lt;/strong&gt;：单个插件失败不影响其他插件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;生命周期管理&lt;/strong&gt;：插件的启动、停止、重启&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;插件类型&#34;&gt;插件类型&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;插件类型&lt;/th&gt;
          &lt;th&gt;数据源&lt;/th&gt;
          &lt;th&gt;适用场景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;HTTP 插件&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;HTTP 端点&lt;/td&gt;
          &lt;td&gt;从 HTTP 服务获取指标&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Exec 插件&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;命令输出&lt;/td&gt;
          &lt;td&gt;执行命令获取指标&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Script 插件&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;脚本输出&lt;/td&gt;
          &lt;td&gt;执行脚本获取指标&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h3 id=&#34;插件架构图&#34;&gt;插件架构图&lt;/h3&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────┐
│                  Plugin System                         │
├─────────────────────────────────────────────────────────┤
│  ┌─────────────────┐  ┌─────────────────┐  ┌───────────┐ │
│  │ HTTP 插件       │  │ Exec 插件       │  │ Script 插件│ │
│  └────────┬────────┘  └────────┬────────┘  └────┬──────┘ │
│           │                    │                 │        │
│           └────────────────────┼─────────────────┘        │
│                                │                         │
│  ┌─────────────────────────────────────────────────────┐ │
│  │                 Plugin Manager                     │ │
│  │  - 插件生命周期管理                                │ │
│  │  - 插件配置管理                                    │ │
│  │  - 插件执行调度                                    │ │
│  └─────────────────────────────────────────────────────┘ │
│                                │                         │
│  ┌─────────────────────────────────────────────────────┐ │
│  │                 Metrics Pipeline                    │ │
│  │  - 指标解析                                        │ │
│  │  - 标签处理                                        │ │
│  │  - 数据推送                                        │ │
│  └─────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────┘
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id=&#34;http-插件&#34;&gt;HTTP 插件&lt;/h2&gt;
&lt;h3 id=&#34;功能&#34;&gt;功能&lt;/h3&gt;
&lt;p&gt;HTTP 插件从 HTTP 端点获取 Prometheus 格式的指标。&lt;/p&gt;</description>
    </item>
    <item>
      <title>本地持久化：网络故障数据保护</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/07-local-persistence/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/07-local-persistence/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的本地持久化机制，确保网络故障时数据不丢失&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;为什么需要本地持久化&#34;&gt;为什么需要本地持久化&lt;/h2&gt;
&lt;p&gt;在监控系统中，网络故障是常见的问题。当网络中断时，监控数据可能会丢失，导致监控空白期。本地持久化机制可以解决这个问题：&lt;/p&gt;
&lt;h3 id=&#34;核心价值&#34;&gt;核心价值&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;数据不丢失&lt;/strong&gt;：网络故障时数据持久化到磁盘&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;自动恢复&lt;/strong&gt;：网络恢复后自动重发数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;容错能力&lt;/strong&gt;：提高系统可靠性&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据完整性&lt;/strong&gt;：保证监控数据的连续性&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;应用场景&#34;&gt;应用场景&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;网络不稳定环境&lt;/strong&gt;：网络连接不稳定的场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;远程部署&lt;/strong&gt;：部署在边缘节点的场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;高可靠性要求&lt;/strong&gt;：对数据完整性要求高的场景&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;批量数据处理&lt;/strong&gt;：需要批量处理数据的场景&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;持久化机制&#34;&gt;持久化机制&lt;/h2&gt;
&lt;h3 id=&#34;工作原理&#34;&gt;工作原理&lt;/h3&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  数据采集       │────→│  数据缓冲       │────→│  网络发送       │
└─────────────────┘     └─────────────────┘     └────────┬────────┘
                                                      │
                                                      ↓
                                             ┌─────────────────┐
                                             │  本地持久化     │
                                             │  (磁盘存储)     │
                                             └─────────────────┘
                                                      │
                                                      ↓
┌─────────────────┐     ┌─────────────────┐     ┌─────────────────┐
│  远程存储       │←────│  数据恢复       │←────│  网络检测       │
└─────────────────┘     └─────────────────┘     └─────────────────┘
&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;数据写入流程&#34;&gt;数据写入流程&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;数据采集&lt;/strong&gt;：采集器和抓取器收集数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据缓冲&lt;/strong&gt;：数据进入 Batcher 缓冲区&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;网络发送&lt;/strong&gt;：尝试发送数据到远程存储&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;失败处理&lt;/strong&gt;：发送失败时将数据写入本地存储&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件管理&lt;/strong&gt;：按时间和大小管理持久化文件&lt;/li&gt;
&lt;/ol&gt;
&lt;h3 id=&#34;数据恢复流程&#34;&gt;数据恢复流程&lt;/h3&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;网络检测&lt;/strong&gt;：定期检测网络连接状态&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据读取&lt;/strong&gt;：网络恢复后读取本地存储的数据&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据重发&lt;/strong&gt;：将读取的数据重新发送到远程存储&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件清理&lt;/strong&gt;：成功发送后清理持久化文件&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;状态更新&lt;/strong&gt;：更新持久化状态&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;配置说明&#34;&gt;配置说明&lt;/h2&gt;
&lt;h3 id=&#34;基本配置&#34;&gt;基本配置&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;remote_write&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;persistence&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;enabled&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;                &lt;span style=&#34;color:#75715e&#34;&gt;# 是否启用持久化&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;data_dir&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;./data/persistence&lt;/span&gt; &lt;span style=&#34;color:#75715e&#34;&gt;# 数据存储目录&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;max_file_size_mb&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;100&lt;/span&gt;       &lt;span style=&#34;color:#75715e&#34;&gt;# 单文件最大大小&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;retention_hours&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;24&lt;/span&gt;         &lt;span style=&#34;color:#75715e&#34;&gt;# 数据保留时间&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;flush_interval_secs&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;30&lt;/span&gt;      &lt;span style=&#34;color:#75715e&#34;&gt;# 刷新间隔&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#f92672&#34;&gt;max_retries&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;5&lt;/span&gt;              &lt;span style=&#34;color:#75715e&#34;&gt;# 最大重试次数&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h3 id=&#34;配置项详解&#34;&gt;配置项详解&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;配置项&lt;/th&gt;
          &lt;th&gt;类型&lt;/th&gt;
          &lt;th&gt;默认值&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;enabled&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;bool&lt;/td&gt;
          &lt;td&gt;false&lt;/td&gt;
          &lt;td&gt;是否启用本地持久化&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;data_dir&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;string&lt;/td&gt;
          &lt;td&gt;./data/persistence&lt;/td&gt;
          &lt;td&gt;数据存储目录&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;max_file_size_mb&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;u64&lt;/td&gt;
          &lt;td&gt;100&lt;/td&gt;
          &lt;td&gt;单个持久化文件的最大大小（MB）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;retention_hours&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;u64&lt;/td&gt;
          &lt;td&gt;24&lt;/td&gt;
          &lt;td&gt;数据保留时间（小时）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;flush_interval_secs&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;u64&lt;/td&gt;
          &lt;td&gt;30&lt;/td&gt;
          &lt;td&gt;数据刷新到磁盘的间隔（秒）&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;max_retries&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;u32&lt;/td&gt;
          &lt;td&gt;5&lt;/td&gt;
          &lt;td&gt;数据恢复时的最大重试次数&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id=&#34;存储格式&#34;&gt;存储格式&lt;/h2&gt;
&lt;h3 id=&#34;文件结构&#34;&gt;文件结构&lt;/h3&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;data/persistence/
├── 2024-04-11T10:00:00Z-000001.protobuf
├── 2024-04-11T10:30:00Z-000002.protobuf
├── 2024-04-11T11:00:00Z-000003.protobuf
└── metadata.json
&lt;/code&gt;&lt;/pre&gt;&lt;h3 id=&#34;文件命名规则&#34;&gt;文件命名规则&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;命名格式&lt;/strong&gt;：&lt;code&gt;{timestamp}-{sequence}.protobuf&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;timestamp&lt;/strong&gt;：文件创建时间（UTC）&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;sequence&lt;/strong&gt;：递增序号&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件格式&lt;/strong&gt;：Protobuf 编码的 WriteRequest&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;元数据文件&#34;&gt;元数据文件&lt;/h3&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-json&#34; data-lang=&#34;json&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;{
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;&amp;#34;last_flush&amp;#34;&lt;/span&gt;: &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;2024-04-11T10:30:00Z&amp;#34;&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;&amp;#34;total_files&amp;#34;&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;3&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;&amp;#34;total_size_mb&amp;#34;&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;150.5&lt;/span&gt;,
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;&amp;#34;last_recovery&amp;#34;&lt;/span&gt;: &lt;span style=&#34;color:#e6db74&#34;&gt;&amp;#34;2024-04-11T09:00:00Z&amp;#34;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;}
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;h2 id=&#34;性能影响&#34;&gt;性能影响&lt;/h2&gt;
&lt;h3 id=&#34;磁盘使用&#34;&gt;磁盘使用&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;存储容量&lt;/strong&gt;：根据 &lt;code&gt;max_file_size_mb&lt;/code&gt; 和 &lt;code&gt;retention_hours&lt;/code&gt; 计算&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;磁盘 I/O&lt;/strong&gt;：定期写入和读取操作&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;文件数量&lt;/strong&gt;：按时间分割的文件数量&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;内存使用&#34;&gt;内存使用&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;缓冲区大小&lt;/strong&gt;：与 Batcher 容量相关&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;恢复过程&lt;/strong&gt;：数据恢复时的内存使用&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;并发处理&lt;/strong&gt;：多文件并发处理&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id=&#34;恢复速度&#34;&gt;恢复速度&lt;/h3&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;网络带宽&lt;/strong&gt;：网络恢复后的发送速度&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;数据量&lt;/strong&gt;：需要恢复的数据量&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;并发发送&lt;/strong&gt;：分片并发发送能力&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;最佳实践&#34;&gt;最佳实践&lt;/h2&gt;
&lt;h3 id=&#34;1-配置最佳实践&#34;&gt;1. 配置最佳实践&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;存储目录&lt;/strong&gt;：&lt;/p&gt;</description>
    </item>
    <item>
      <title>架构设计：高性能、可扩展的监控架构</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/01-architecture/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/01-architecture/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的系统架构和设计理念&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;整体架构图&#34;&gt;整体架构图&lt;/h2&gt;
&lt;pre tabindex=&#34;0&#34;&gt;&lt;code&gt;┌─────────────────────────────────────────────────────────────────────────────┐
│                              AI Observability Agent                          │
├─────────────────────────────────────────────────────────────────────────────┤
│                                                                             │
│  ┌─────────────────┐  ┌─────────────────┐  ┌─────────────────────┐  ┌───────┐ │
│  │ 系统采集器      │  │ 服务抓取器      │  │ OTLP 接收器        │  │ 插件  │ │
│  │ System Collectors│  │ Service Scrapers│  │ (gRPC/HTTP)        │  │ 系统  │ │
│  └────────┬────────┘  └────────┬────────┘  └────────┬────────────┘  └──┬────┘ │
│           │                    │                     │                   │      │
│           └────────────────────┼─────────────────────┼───────────────────┘      │
│                                │                     │                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐ │
│  │                          数据处理层                                          │ │
│  │  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────────┐  ┌────────┐ │ │
│  │  │ 指标转换    │  │ 成本计算    │  │ 质量评估               │  │ 缓存   │ │ │
│  │  │ (OTLP→Prom) │  │ 引擎        │  │ (规则引擎)             │  │ 批处理 │ │ │
│  │  └─────────────┘  └─────────────┘  └─────────────────────────┘  └────────┘ │ │
│  └─────────────────────────────────────────────────────────────────────────────┘ │
│                                │                     │                            │
│  ┌─────────────────────────────────────────────────────────────────────────────┐ │
│  │                          数据上报层                                          │ │
│  │  ┌─────────────┐  ┌─────────────┐  ┌─────────────────────────┐  ┌────────┐ │ │
│  │  │ Remote      │  │ 重试策略    │  │ 多端点故障转移         │  │ 本地   │ │ │
│  │  │ Write 客户端 │  │ (指数退避)  │  │ (健康检查)             │  │ 持久化 │ │ │
│  │  └─────────────┘  └─────────────┘  └─────────────────────────┘  └────────┘ │ │
│  └─────────────────────────────────────────────────────────────────────────────┘ │
│                                │                     │                            │
└────────────────────────────────┼─────────────────────┼────────────────────────────┘
                                 ↓                     ↓
                          Prometheus/VictoriaMetrics  磁盘存储
&lt;/code&gt;&lt;/pre&gt;&lt;h2 id=&#34;核心模块介绍&#34;&gt;核心模块介绍&lt;/h2&gt;
&lt;h3 id=&#34;1-数据采集层&#34;&gt;1. 数据采集层&lt;/h3&gt;
&lt;h4 id=&#34;11-系统采集器-system-collectors&#34;&gt;1.1 系统采集器 (System Collectors)&lt;/h4&gt;
&lt;p&gt;系统采集器负责采集主机或容器的系统指标：&lt;/p&gt;</description>
    </item>
    <item>
      <title>质量监控：AI 服务质量评估</title>
      <link>https://xlwh.github.io/xlwh/ai-observability/05-quality-monitoring/</link>
      <pubDate>Sat, 11 Apr 2026 11:00:00 +0800</pubDate>
      <guid>https://xlwh.github.io/xlwh/ai-observability/05-quality-monitoring/</guid>
      <description>&lt;blockquote&gt;
&lt;p&gt;深入了解 AI Observability Agent 的质量监控系统，确保 AI 服务的稳定性和可靠性&lt;/p&gt;
&lt;/blockquote&gt;
&lt;h2 id=&#34;ai-服务质量评估维度&#34;&gt;AI 服务质量评估维度&lt;/h2&gt;
&lt;p&gt;在大模型时代，AI 服务的质量评估需要考虑多个维度：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;维度&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
          &lt;th&gt;重要性&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;响应时间&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;AI 服务的响应速度&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Token 效率&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;输入/输出 Token 比率&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;错误率&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;API 调用失败的比例&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;吞吐量&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;单位时间处理的 Token 数&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;一致性&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;相同输入的输出一致性&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;准确性&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;输出结果的准确程度&lt;/td&gt;
          &lt;td&gt;⭐⭐⭐⭐&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;AI Observability Agent 的质量监控系统针对这些维度提供了全面的监控能力。&lt;/p&gt;
&lt;h2 id=&#34;规则引擎&#34;&gt;规则引擎&lt;/h2&gt;
&lt;p&gt;质量监控系统基于规则引擎，支持多种类型的质量规则：&lt;/p&gt;
&lt;h3 id=&#34;1-响应时间规则&#34;&gt;1. 响应时间规则&lt;/h3&gt;
&lt;p&gt;&lt;strong&gt;功能&lt;/strong&gt;：监控 AI 服务的响应时间&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;配置示例&lt;/strong&gt;：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;-webkit-text-size-adjust:none;&#34;&gt;&lt;code class=&#34;language-yaml&#34; data-lang=&#34;yaml&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;quality_monitoring&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#f92672&#34;&gt;rules&lt;/span&gt;:
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    - &lt;span style=&#34;color:#f92672&#34;&gt;name&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;high_latency&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;type&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;response_time&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;enabled&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;threshold&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;5000&lt;/span&gt;              &lt;span style=&#34;color:#75715e&#34;&gt;# 阈值（毫秒）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;max_value&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;30000&lt;/span&gt;             &lt;span style=&#34;color:#75715e&#34;&gt;# 最大允许值&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;severity&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;warning           &lt;/span&gt; &lt;span style=&#34;color:#75715e&#34;&gt;# 严重程度：info, warning, critical&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#f92672&#34;&gt;weight&lt;/span&gt;: &lt;span style=&#34;color:#ae81ff&#34;&gt;1.0&lt;/span&gt;                  &lt;span style=&#34;color:#75715e&#34;&gt;# 权重（用于计算总分）&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;p&gt;&lt;strong&gt;评估逻辑&lt;/strong&gt;：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;计算平均响应时间&lt;/li&gt;
&lt;li&gt;与阈值比较&lt;/li&gt;
&lt;li&gt;超过阈值触发告警&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;指标&lt;/strong&gt;：&lt;code&gt;ai_request_latency_seconds&lt;/code&gt;&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
