Site Reliability Engineer

Zuverlässigkeit als Ingenieursaufgabe: SLOs, Observability, Incident Management und systematisch stabiler Produktionsbetrieb.

  • SRE
  • Site Reliability Engineering
  • Monitoring
  • Alerting
  • SLO
  • SLA
  • Incident Response
  • Observability
  • Chaos Engineering
  • Reliability

SREs behandeln Betriebsprobleme als Ingenieursprobleme. Statt reaktiver Brandbekämpfung entstehen systematische, messbare Zuverlässigkeitsprozesse, die sich mit den Anforderungen des Produkts weiterentwickeln.

Wer Systeme betreibt, weiß, dass 100 % Uptime kein realistisches Ziel ist. Ein SRE definiert, was wirklich zählt, macht es messbar und stellt sicher, dass Fehler in kontrollierten Mengen passieren können, ohne dass sie zum Ausfall werden.

Core Skills

SLO / SLA / Error Budgets, Observability, Prometheus, Grafana, Loki, OpenTelemetry, Alertmanager, PagerDuty / Opsgenie, Incident Management, Runbooks, Blameless Postmortems, On-Call-Prozesse, Chaos Engineering, SLI-Definition, Toil Reduction, Kubernetes, Linux

Common Skills sind grundlegende Fähigkeiten, die alle unsere Experten mitbringen. Common Skills anzeigen Weniger anzeigen
  • Git / GitHub / GitLab
  • Jira / Confluence
  • Slack / Microsoft Teams
  • Scrum / Kanban
  • Agile Methoden
  • CI/CD
  • Code Review
  • REST APIs
  • Docker
  • Linux
  • Technische Dokumentation
  • Deutsch / Englisch
  • Remote-Arbeit

Technologie-Stack

  • Prometheus / Thanos
  • Grafana / Loki
  • OpenTelemetry
  • PagerDuty / Opsgenie
  • Kubernetes
  • Chaos Engineering Tools
  • Runbooks / Playbooks

Projekt besprechen?

Erzählen Sie uns von Ihrem Vorhaben. Wir antworten schnell und unverbindlich.

Schreiben Sie uns

Wir melden uns in der Regel innerhalb eines Werktages.