Monitoring & Observability

Monitoring umfasst die Überwachung von Systemen durch das Messen und Sammeln von Metriken wie CPU-Auslastung oder Speicher. Observability hingegen zielt auf ein tieferes Verständnis des Systems ab und die Fähigkeit, interne Zustände und Zusammenhänge basierend auf diesen Metriken zu verstehen. Dies wird oft durch Instrumentierung und Logging erreicht.

Kurz gesagt: Monitoring zeigt, was passiert, während Observability hilft zu verstehen, warum es passiert.

Insgesamt unterteilt sich eine vollständige Monitoring-Lösung in viele verschiedene Bereiche:
- Infrastrukturüberwachung
  Setup von Monitoring-Technologien, welche die zugrunde liegende Infrastruktur überwachen, einschließlich Server, Netzwerkgeräte, Speicher und andere physische oder virtuelle Ressourcen.
- Anwendungsüberwachung
  Überwachung der Leistung und Verfügbarkeit von Anwendungen und Diensten durch kontinuierliche Erfassung von Metriken wie Antwortzeiten, Durchsatz, Fehlerquoten und Benutzerinteraktionen.
- Log-Analyse
  Log-Management-Tools zur Erfassung, Speicherung und Analyse von Logs, um kontextbezogene Informationen und Metriken zu sammeln, die bei der Fehlerbehebung und der Leistungsanalyse helfen.
- Tracing
  Technologie-Stacks welche es ermöglichen, den Fluss von Anfragen durch verteilte Systeme zu verfolgen und detaillierte Einblicke in die Interaktionen zwischen Services zu erhalten.
- Visualisierung und Dashboarding
  Plattformen, die es ermöglichen, Metriken, Logs und Ereignisse zu aufzubereiten und zu visualisieren.
Ein gutes Monitoring- und Observability-Setup ist entscheidend für den erfolgreichen Betrieb moderner IT-Infrastrukturen und Anwendungen. Einige der Hauptgründe, Monitoring von Anfang an als zentralen Baustein der Betriebsplattform zu betrachten sind:
- Früherkennung von Problemen
  Ein robustes Monitoring-System erkennt Probleme, bevor sie sich zu größeren Ausfällen entwickeln, was eine proaktive Fehlerbehebung ermöglicht.
- Reduzierte Ausfallzeiten
  Durch die schnelle Identifikation und Behebung von Problemen können Ausfallzeiten minimiert werden, was die Zuverlässigkeit und Verfügbarkeit der Dienste erhöht.
- Leistungsüberwachung
  Monitoring hilft dabei, die Leistung der Anwendungen und Infrastruktur kontinuierlich zu überwachen, Engpässe zu identifizieren und Optimierungen vorzunehmen.
- Kapazitätsplanung
  Durch das Sammeln und Analysieren von Leistungsdaten können zukünftige Ressourcenanforderungen besser geplant und Ressourcen richtig dimensioniert bereitgestellt werden.
- Transparenz
  Observability bietet einen tieferen Einblick in die Systeme und Anwendungen, indem es nicht nur Metriken, sondern auch Logs und Traces analysiert. Dies führt zu einem besseren Verständnis der Systemzustände und dessen Verhalten.
- Ursachenanalyse
  Mit umfassender Observability können die Ursachen von Problemen schneller identifiziert werden, da detaillierte Daten zur Verfügung stehen, die Einblicke in das Verhalten der Systeme geben.
- Kontinuierliche Integration und Bereitstellung
  Monitoring und Observability sind entscheidend für DevOps-Praktiken wie Continuous Deployment, da sie die kontinuierliche Überwachung der in Produktion befindlichen Anwendungen ermöglichen und die schnelle Rückmeldung an Entwicklerteams sicherstellen.
- Reduzierte Betriebskosten
  Durch die Optimierung der Ressourcennutzung und die Vermeidung ungeplanter Ausfallzeiten können Betriebskosten gesenkt werden.
Monitoring ist immer eine Auswertung und Bewertung von Daten welche aus den verschiedensten Datenquellen gesammelt und erfasst werden. Datenquellen können sein:
- Server und Infrastruktur
  CPU-Auslastung, Speicherverbrauch, Netzwerkverkehr, Festplatten-I/O
- Anwendungen
  Antwortzeiten, Fehlerraten, Durchsatz, spezifische Anwendungsmetriken
- Datenbanken
  Abfragezeiten, Verbindungsanzahl, Cache-Trefferquote
- Netzwerkkomponenten
  Bandbreitennutzung, Paketverlust, Latenzzeiten
- Logs
  Ereignisprotokolle, Fehlerprotokolle, Anwendungslogs
Die Daten können abhängig von Ihrer Art mit den entsprechenden Monitoring-Tools erfasst, aufbereitet und visualisiert werden. Einige Beispielhafte Tools sind:
- Prometheus
  Ein Open-Source-System zur Überwachung und Alarmierung, das für die Sammlung von Metriken und die Generierung von Zeitreihen-Daten bekannt ist
- Grafana
  Eine Plattform zur Visualisierung von Metriken, die häufig mit Prometheus kombiniert wird aber auch sehr viele andere Datasources unterstützt
- Zabbix
  Ein weit verbreitetes Open-Source-Tool für die Überwachung von Netzwerkressourcen und Infrastruktur
- Opentelemetry
  
  Ist ein OpenSource-Framework welches SDKs für die verschiedensten Programmiersprachen anbietet um Metriken, Spans und Traces zu sammeln und diese an ein Backend wie z.B. Jaeger zu exportieren
- Jaeger
  Backend um Traces und Spans z.B. von Opentelemetrie zu speichern. Jaeger bietet darüber hinaus aber auch eine sehr mächtige und für diese Metriken spezialisierte Visualisierungsebene um diese dann aufbereitet darzustellen.