· Strategische Konzeption, Betrieb und Weiterentwicklung der Observability-Plattformen, mit besonderem Fokus auf verteiltes Tracing und Grafana-Anwendungen wie Tempo, Alloy, Mimir und Loki
· Entwerfen, fortschreiben und dokumentieren der Systemarchitektur für Observability-Lösungen, insbesondere für die Integration von Metriken, Logs und Traces
· Bereitstellen, konfigurieren, skalieren und Betreiben von Logging, Monitoring und Tracing-Instanzen, inklusive Fehlerbehebung und Performanceoptimierung
· Integrieren von Grafana Tempo mit weiteren Komponenten des Grafana-Stacks (z.B. Prometheus für Metriken, Loki/ELK für Logs) zur Schaffung einer ganzheitlichen Überwachungslösung
· Implementieren und betreuen von Open-Source-Tracing-Protokollen (OpenTelemetry, Jaeger, Zipkin) in Zusammenarbeit mit Entwicklungsteams
· Bereitstellen und pflegen von Observability-Anwendungen in containerisierten Umgebungen (z.B. Kubernetes), unter Einsatz von Tools wie Helm Charts oder Operatoren
· Abfragen und analysieren von Tracing-Daten mittels TraceQL zur Identifikation und Untersuchung von Performance- und Fehlerursachen
· Konfigurieren und optimieren von Tempo-Instanzen (z.B. Sampling, Caching) zur Sicherstellung eines stabilen und leistungsfähigen Betriebs
· Einrichten der Überwachung des Tempo-Backends, Diagnostizieren von Fehlern in verteilten Systemen und Sicherstellen der Datengenauigkeit und -vollständigkeit
· Verwalten von Benutzerzugriffen und Authentifizierungsmethoden (LDAP, SAML, OAuth) sowie Sicherstellen der Datenintegrität und Compliance
· Planen und managen von Hardwareanforderungen (CPU, Speicher) und Speicherkapazitäten für die langfristige und performante Datenspeicherung