Das Unternehmen sucht einen engagierten Site Reliability Engineer, der innerhalb eines Produktteams Verantwortung für die Zuverlässigkeit übernimmt und die Resilienz sowie Skalierbarkeit der angebotenen Dienste vorantreibt. In dieser Rolle werden Sie robuste Infrastrukturen auf der Google Cloud Platform (GCP) entwerfen, implementieren und warten, um sicherzustellen, dass die Dienste die von den geschäftsorientierten Service Level Objectives (SLOs) definierten Zuverlässigkeitsziele erreichen. Sie agieren als Fachexperte und setzen die Prinzipien von 'You Build It, You Run It' sowie moderne Reliability Engineering- und DevOps-Best Practices durch praktische Implementierung und Beratung um. Zudem nehmen Sie an der Incident Management- und Bereitschaftsrotation teil, um aus Fehlern zu lernen und Änderungen sicher vorzubereiten. Ein weiterer Bestandteil Ihrer Aufgaben wird die Verbesserung und Wartung von CI/CD-Pipelines sowie von Observability-Tools sein, wobei der Fokus auf der Erstellung gemeinsamer, wiederverwendbarer Komponenten und der Etablierung geeigneter Leitplanken liegt. Sie werden aktiv an der Weiterentwicklung der Systemarchitektur und der nicht-funktionalen Anforderungen teilnehmen, um ein modernes, resilientes und beobachtbares Anwendungssystem zu fördern.
Site Reliability Engineer
Beschreibung
Anforderungen
Der ideale Kandidat bringt nachweisbare Erfahrung in einer Rolle als Site Reliability Engineer, DevOps oder in einer vergleichbaren Position mit, sowie nachgewiesene Expertise im Entwerfen und Betreiben von Diensten auf einer großen öffentlichen Cloud-Plattform, vorzugsweise GCP. Relevante Zertifizierungen sind von Vorteil. Ein Wachstumsmindset und die Leidenschaft für kontinuierliche Verbesserung sind ebenso wichtig wie ein Interesse an Branchentrends wie Platform Engineering und der Anwendung von KI in den Betriebsabläufen. Sie sollten in der Lage sein, geschäftliche Anforderungen in technische Zuverlässigkeitsziele (SLOs/SLIs) zu übersetzen und eine solide interdisziplinäre Zusammenarbeit mit Produktverantwortlichen, Architekten, Software- und QA-Ingenieuren zu pflegen. Zu den technischen Fähigkeiten gehören Erfahrung mit serverlosen Plattformen wie Cloud Run oder AWS Fargate, Containerisierung und Orchestrierung mit Docker und Kubernetes (oder OpenShift), sowie ein starkes Verständnis von Infrastructure as Code (IaC) mit Terraform und CI/CD-Tools wie GitHub Actions. Kenntnisse über Netzwerke, Lastverteilung und Datenbanken sind ebenfalls erforderlich. Erfahrung in der Softwareentwicklung mit Kenntnissen in mindestens einer Programmiersprache wie Python, Java oder Go ist wünschenswert. Kommunikations- und Zusammenarbeitfähigkeiten sind entscheidend, ebenso wie die Bereitschaft, an einer nachhaltigen Bereitschaftsrotation teilzunehmen, um die Serviceverfügbarkeit zu gewährleisten. Berufliche Englischkenntnisse sind erforderlich, Deutsch ist optional, aber willkommen.