9.017 IT-Jobs

Site Reliability Engineer (f/m/d)

Jobriver HR Service (9015 weitere Jobs)
Berlin
Vor Ort
Vollzeit
Mid-Level
vor 54 Tagen
Aktualisiert vor 52 Tagen
59.000 € – 79.000 € / Jahr
Jobriver schätzt: 45.042 € – 88.189 € / Jahr Site Reliability Engineer

Beschreibung

Das Unternehmen ist ein führender Anbieter von Unternehmenssoftware und bietet eine herausfordernde und dynamische Arbeitsumgebung. In der Rolle des Site Reliability Engineer sind Sie verantwortlich für die Sicherstellung der operativen Exzellenz der Cloud-Infrastruktur. Ihre Aufgaben umfassen den Aufbau und die Wartung von Unternehmens-Cloud-Infrastrukturen, die europäische Datenhoheit gewährleisten und hyperscaler-grade Fähigkeiten bieten. Sie werden an komplexen Herausforderungen in verteilten Systemen arbeiten, einschließlich Multi-Region-Netzwerken, Container-Orchestrierung und Speichersystemen. In Ihrem Team werden Sie innovative Lösungen entwickeln, um die Verfügbarkeit und Leistung der Systeme zu optimieren. Sie tragen zur Entwicklung von Monitoring- und Alarmierungssystemen bei und implementieren Praktiken des Reliability Engineerings, um die Zuverlässigkeit der Unternehmens-Cloud-Dienste zu verbessern. Ihr Beitrag wird sicherstellen, dass Organisationen kritische Anwendungen mit der erwarteten Leistung und Zuverlässigkeit betreiben können. Das Unternehmen fördert eine Kultur der kontinuierlichen Weiterbildung und des persönlichen Wachstums, wobei Wert auf Teamarbeit und Innovation gelegt wird.

Anforderungen

Der ideale Kandidat bringt mehr als 5 Jahre Erfahrung im Bereich Site Reliability Engineering oder in operativen Rollen mit und hat ein tiefes Verständnis für SLI/SLO/SLA-Konzepte sowie die Implementierung von Fehlerbudgets. Eine relevante Erfahrung in der Datenanalyse oder Datenengineering ist von Vorteil. Sie sollten über fundierte Kenntnisse in virtualisierten Infrastrukturen verfügen, insbesondere mit OpenStack und Kubernetes, sowie Erfahrung in der Verwaltung von hyperscaler-grade Plattformen. Automatisierung und Monitoring sind ebenfalls entscheidend; daher sind Kenntnisse in Python, Go und Bash zur Automatisierung von Berichten sowie Erfahrung mit Tools wie Prometheus, Grafana und ELK Stack wünschenswert. Darüber hinaus sind Erfahrung in der Hochverfügbarkeitsgestaltung, Fehlertoleranz und Chaos Engineering erforderlich. Praktische Erfahrungen im Incident Management und der systematischen Reduzierung von Arbeitsaufwand durch Automatisierung sind ebenfalls wichtig. Starke Fähigkeiten im Umgang mit verschiedenen Datensätzen und Datenqualitäten sind von Vorteil.

Technologien

Python Go PostgreSQL Redis Kubernetes Shell/Bash Prometheus Grafana

Soft Skills

Teamfähigkeit Kommunikation Analytisches Denken

Erforderliche Sprachen

Deutsch Englisch

Jetzt bewerben

69.000 €
0 / 800 Zeichen

Lebenslauf, Zeugnisse, Anschreiben (PDF, max. 10MB pro Datei, max. 5 Dateien)

Dateien hier ablegen oder klicken
Weitere Informationen findest du in der Datenschutzerklärung. Du kannst deine Einwilligung jederzeit widerrufen.