Deine Hundertserver-Mission:Als Site Reliability Engineer (SRE) bei Hundertserver bist du verantwortlich für den stabilen, performanten und sicheren Betrieb moderner Cloud-Plattformen. Du sorgst mit Automatisierung, Monitoring, SLAs und Incident Response dafür, dass unsere Systeme nicht nur laufen – sondern sich kontinuierlich verbessern. Dabei arbeitest du eng mit Kunden, Entwicklung und Infrastruktur-Teams zusammen, bringst Klarheit in komplexe Betriebsfragen und schaffst nachhaltige Lösungen – hands-on, pragmatisch und mit viel Eigenverantwortung.
Die Main Tasks:Hauptverantwortlichkeiten
Verfügbarkeit & Stabilität
- Sicherstellung der Plattformverfügbarkeit entlang definierter SLOs / SLAs
- Analyse und Behebung von Incidents & Performance-Problemen (On-Call inkl.)
- Aufbau und Pflege robuster Alerting-, Logging- und Monitoring-Setups
- Fehlerursachenanalyse (Root Cause) & präventive Maßnahmen
Automatisierung & Infrastruktur- Automatisierung von Bereitstellung, Skalierung und Wartung (IaC mit Terraform, Ansible etc.)
- Betrieb und Weiterentwicklung von Kubernetes-Umgebungen (Cloud & On-Prem)
- Entwicklung und Pflege von Self-Healing- und Auto-Scaling-Mechanismen
- Einführung und Pflege von Runbooks & Playbooks
Monitoring, Observability & Performance- End-to-End Monitoring mit Tools wie Prometheus, Grafana, Loki, ELK
- Aufbau und Betreuung von SLIs und SLOs – datenbasierte Plattformsteuerung
- Performance-Analysen (Workloads, Traffic, DBs) und kontinuierliche Optimierung
- Einrichtung & Wartung verteilter Tracing- und Logging-Systeme
Sicherheit & Betriebshygiene- Umsetzung und Kontrolle von Sicherheitsstandards (Least Privilege, TLS, Secrets Mgmt.)
- Regelmäßige Health-Checks, Updates und Patching
- Verfügbarkeitssicherung durch gelebte Backup- & Disaster-Recovery-Prozesse
Kollaboration & Beratung- Enge Zusammenarbeit mit Dev-, Support- und Plattformteams
- Beratung von Kunden zu Betriebsmodellen, Plattformmetriken & Architekturentscheidungen
Schulung interner Teams in Themen wie Monitoring, SRE-Basics & Troubleshooting
Dein Background:Was du mitbringen solltest
Technisches Profil
- Linux-Expertise (Debian, Ubuntu, RHEL)
- Tiefe Kubernetes-Kenntnisse – Cluster, Ingress, Operators, Helm etc.
- Erfahrung mit Cloud-Plattformen (AWS, Azure, GCP)
- Sehr gute Kenntnisse in Monitoring-Stacks (Prometheus, Grafana, Loki, ELK)
- Know-how in Infrastructure-as-Code (Terraform, Ansible, Puppet)
- Scripting- und Automatisierungskenntnisse (Bash, Python, Go)
- Vertraut mit Logging, Tracing & Incident-Management-Prozessen
Soft Skills & Arbeitsweise- Proaktives Troubleshooting & hohes Qualitätsbewusstsein
- Strukturierte, analytische Denkweise – lösungsorientiert und pragmatisch
- Sehr gute Kommunikationsfähigkeit (Kunde, Dev, Ops)
- Fokus auf Nachhaltigkeit & Automatisierung statt Firefighting
- Bereitschaft zu Bereitschaftsdiensten (Rufbereitschaft, SLA-Fenster)
Nice to Have- Zertifizierungen wie CKA / CKS / AWS DevOps oder vergleichbar
- Erfahrung mit GitOps, ArgoCD oder Policy-as-Code
- Kenntnisse in FinOps / Kostenoptimierung in Cloud-Plattformen
Deine Benefits:Was dich bei Hundertserver erwartet
- Echte Weiterentwicklung – in Technik, Methodik & Kultur
- Moderne Plattformen & Tools – mit Raum für eigene Gestaltung
- Eigenverantwortung & Vertrauen – wir arbeiten partnerschaftlich, nicht hierarchisch
- Flexible Arbeitszeit & Remote-First-Kultur
- Hands-on-Mentalität & direkter Kundenimpact