Deine Hundertserver-Mission:

Als Site Reliability Engineer (SRE) bei Hundertserver bist du verantwortlich für den stabilen, performanten und sicheren Betrieb moderner Cloud-Plattformen. Du sorgst mit Automatisierung, Monitoring, SLAs und Incident Response dafür, dass unsere Systeme nicht nur laufen – sondern sich kontinuierlich verbessern. Dabei arbeitest du eng mit Kunden, Entwicklung und Infrastruktur-Teams zusammen, bringst Klarheit in komplexe Betriebsfragen und schaffst nachhaltige Lösungen – hands-on, pragmatisch und mit viel Eigenverantwortung.

Die Main Tasks:

Hauptverantwortlichkeiten
Verfügbarkeit & Stabilität

Sicherstellung der Plattformverfügbarkeit entlang definierter SLOs / SLAs
Analyse und Behebung von Incidents & Performance-Problemen (On-Call inkl.)
Aufbau und Pflege robuster Alerting-, Logging- und Monitoring-Setups
Fehlerursachenanalyse (Root Cause) & präventive Maßnahmen

Automatisierung & Infrastruktur

Automatisierung von Bereitstellung, Skalierung und Wartung (IaC mit Terraform, Ansible etc.)
Betrieb und Weiterentwicklung von Kubernetes-Umgebungen (Cloud & On-Prem)
Entwicklung und Pflege von Self-Healing- und Auto-Scaling-Mechanismen
Einführung und Pflege von Runbooks & Playbooks

Monitoring, Observability & Performance

End-to-End Monitoring mit Tools wie Prometheus, Grafana, Loki, ELK
Aufbau und Betreuung von SLIs und SLOs – datenbasierte Plattformsteuerung
Performance-Analysen (Workloads, Traffic, DBs) und kontinuierliche Optimierung
Einrichtung & Wartung verteilter Tracing- und Logging-Systeme

Sicherheit & Betriebshygiene

Umsetzung und Kontrolle von Sicherheitsstandards (Least Privilege, TLS, Secrets Mgmt.)
Regelmäßige Health-Checks, Updates und Patching
Verfügbarkeitssicherung durch gelebte Backup- & Disaster-Recovery-Prozesse

Kollaboration & Beratung

Enge Zusammenarbeit mit Dev-, Support- und Plattformteams
Beratung von Kunden zu Betriebsmodellen, Plattformmetriken & Architekturentscheidungen

Schulung interner Teams in Themen wie Monitoring, SRE-Basics & Troubleshooting
Dein Background:

Was du mitbringen solltest
Technisches Profil

Linux-Expertise (Debian, Ubuntu, RHEL)
Tiefe Kubernetes-Kenntnisse – Cluster, Ingress, Operators, Helm etc.
Erfahrung mit Cloud-Plattformen (AWS, Azure, GCP)
Sehr gute Kenntnisse in Monitoring-Stacks (Prometheus, Grafana, Loki, ELK)
Know-how in Infrastructure-as-Code (Terraform, Ansible, Puppet)
Scripting- und Automatisierungskenntnisse (Bash, Python, Go)
Vertraut mit Logging, Tracing & Incident-Management-Prozessen

Soft Skills & Arbeitsweise

Proaktives Troubleshooting & hohes Qualitätsbewusstsein
Strukturierte, analytische Denkweise – lösungsorientiert und pragmatisch
Sehr gute Kommunikationsfähigkeit (Kunde, Dev, Ops)
Fokus auf Nachhaltigkeit & Automatisierung statt Firefighting
Bereitschaft zu Bereitschaftsdiensten (Rufbereitschaft, SLA-Fenster)

Nice to Have

Zertifizierungen wie CKA / CKS / AWS DevOps oder vergleichbar
Erfahrung mit GitOps, ArgoCD oder Policy-as-Code
Kenntnisse in FinOps / Kostenoptimierung in Cloud-Plattformen

Deine Benefits:

Was dich bei Hundertserver erwartet

Echte Weiterentwicklung – in Technik, Methodik & Kultur
Moderne Plattformen & Tools – mit Raum für eigene Gestaltung
Eigenverantwortung & Vertrauen – wir arbeiten partnerschaftlich, nicht hierarchisch
Flexible Arbeitszeit & Remote-First-Kultur
Hands-on-Mentalität & direkter Kundenimpact

Senior Site Reliability Engineer (SRE)