Zum Inhalt

Prometheus-Metriken der Polycrate API

Übersicht

Die Polycrate API stellt unter GET /api/v1/metrics Prometheus-kompatible Metriken bereit. Diese können von VictoriaMetrics, Prometheus oder anderen Scraping-Systemen abgerufen werden – ohne Authentifizierung.

  • Endpoint: /api/v1/metrics
  • Caching: Metriken werden per Celery-Task vorberechnet und 120 Sekunden gecacht
  • Basis-Labels: Alle Metriken tragen polycrate_io_metrics_source=api und polycrate_io_system_name

Metriken-Kategorien

SLO/SLA

Metrik Beschreibung
polycrate_io_api_breaches_active_count Aktive SLO/SLA-Breaches nach Typ
polycrate_io_api_overall_availability_percent Gewichtete Verfügbarkeit (SLO/SLA)
polycrate_io_api_error_budget_consumed_avg_percent Ø verbrauchtes Error-Budget

Endpoints

Metrik Beschreibung
polycrate_io_api_endpoints_by_state Endpoints nach State (OK, WARNING, CRITICAL)

Betriebsmetriken

Metrik Beschreibung
polycrate_io_api_action_runs_count Action Runs nach Status
polycrate_io_api_downtimes_active_count Aktive Downtimes pro Organisation
polycrate_io_api_maintenances_active_count Aktive Wartungsfenster

Ressourcen

Metrik Beschreibung
polycrate_io_api_resource_count Ressourcen (Cluster, Apps, Loadbalancer, Buckets) nach Organisation/Workspace
polycrate_io_api_workspaces_total Gesamtzahl Workspaces
polycrate_io_api_organizations_total Gesamtzahl Organisationen
polycrate_io_api_workspaces_count Workspaces pro Organisation

Todos

Metrik Beschreibung
polycrate_io_api_todos_count Todo-Notes nach Status (open, resolved)

Endpoint-Monitoring (Agent/Coverage)

Metrik Beschreibung
polycrate_io_api_agent_capacity Max Endpoint-Kapazität pro Agent
polycrate_io_api_agent_assigned_endpoints Zugeordnete Endpoints pro Agent
polycrate_io_api_agent_utilization_percent Agent-Auslastung
polycrate_io_api_endpoint_coverage_total Endpoints nach Coverage (uncovered, single, multi)
polycrate_io_api_endpoint_coverage_rate_percent Anteil Endpoints mit ≥1 Agent
polycrate_io_api_endpoint_multi_coverage_rate_percent Anteil Endpoints mit ≥2 Agenten

PoP-zu-PoP Latenz

Metrik Beschreibung
polycrate_io_api_pop_latency_avg_ms Ø Latenz zwischen PoP-Paaren
polycrate_io_api_pop_check_count Anzahl Checks zwischen PoP-Paaren

Nutzung für Compliance & Monitoring

  • Kapazitätsplanung: Ressourcen-Zahlen und Workspace-Growth überwachen
  • SLO-Dashboards: Verfügbarkeit und Error-Budget in Grafana visualisieren
  • Agent-Überwachung: Coverage und Auslastung der Monitoring-Agents prüfen
  • Betriebsübersicht: Downtimes, Maintenances und Action-Run-Status im Blick behalten

Scraping-Konfiguration

# Prometheus / VictoriaMetrics scrape_config
scrape_configs:
  - job_name: 'polycrate-api'
    static_configs:
      - targets: ['api.polycrate.io']
    metrics_path: '/api/v1/metrics'