Unser Kunde ist ein führendes Unternehmen im Bereich Software-as-a-Service (SaaS) und bietet innovative Lösungen zur Verbesserung der Resilienz für Unternehmen und Organisationen weltweit an. In der Rolle des Site Reliability Engineer (m/w/d) sind Sie Teil eines professionellen und hochmotivierten Operations-Teams, das sich mit der Entwicklung und dem Betrieb einer modernen, hochverfügbaren Infrastruktur beschäftigt. Zu Ihren Hauptaufgaben gehört die Sicherstellung der Verfügbarkeit, Performance und Skalierbarkeit der Systeme in Cloud- und On-Prem-Umgebungen. Sie werden mit modernen Monitoring- und Logging-Tools wie Prometheus, Grafana und Elastic Stack arbeiten, um die Infrastruktur und Applikationen zu überwachen. Zudem sind Sie verantwortlich für die Automatisierung der Infrastruktur-Provisionierung und Konfiguration mittels Infrastructure as Code, unter Verwendung von Ansible, Terraform und Helm. Sie werden eng mit den Teams aus Development, Security und Operations zusammenarbeiten, um die DevOps- und SRE-Prinzipien zu fördern. Darüber hinaus betreuen Sie die produktiven Umgebungen im Rahmen einer 24/7 Bereitschaft und evaluieren kontinuierlich neue Technologien, um die Infrastruktur weiterzuentwickeln. Das Unternehmen bietet Ihnen ein agiles Arbeitsumfeld, in dem Sie einen spürbaren Impact haben und die Möglichkeit, Ihre berufliche Entwicklung aktiv mitzugestalten.
Site Reliability Engineer (m/w/d)
Beschreibung
Anforderungen
Der ideale Kandidat verfügt über ein abgeschlossenes Studium oder eine Ausbildung im Bereich IT sowie fundierte Berufserfahrung im Betrieb und in der Automatisierung von Cloud-Infrastrukturen. Sie bringen tiefgreifende Kenntnisse in der Linux/Unix-Administration mit, insbesondere mit Ubuntu, CentOS und Amazon Linux. Erfahrung in der Container-Orchestrierung mit Docker und Kubernetes ist ebenfalls erforderlich. Zudem sollten Sie mit Cloud-Plattformen wie AWS, Azure oder GCP vertraut sein. Kenntnisse in Infrastructure as Code, insbesondere mit Ansible, Terraform und Helm, sind von Vorteil. Sie sollten Erfahrung in Monitoring und Observability mit Tools wie Prometheus, Grafana, Kibana und Logstash haben. Ein solides Verständnis von Netzwerken und IT-Security, einschließlich Firewalls, VPNs und System-Hardening, ist ebenfalls wichtig. Erfahrung mit Scripting und CI/CD-Tools wie Shell, Python, GitLab CI/CD, Nexus und Maven wird vorausgesetzt. Darüber hinaus sollten Sie Erfahrung in der Arbeit in agilen Teams haben und mit Tools wie Jira und Confluence vertraut sein. Persönlich zeichnen Sie sich durch Teamgeist, Eigeninitiative sowie eine strukturierte und verantwortungsbewusste Arbeitsweise aus.