Jobs in Germany

Home  | Hundertserver  | Senior Site Reliability Engine...
  • Frankfurt am Main


  • Deine Hundertserver-Mission:

    Als Site Reliability Engineer (SRE) bei Hundertserver bist du verantwortlich für den stabilen, performanten und sicheren Betrieb moderner Cloud-Plattformen. Du sorgst mit Automatisierung, Monitoring, SLAs und Incident Response dafür, dass unsere Systeme nicht nur laufen – sondern sich kontinuierlich verbessern. Dabei arbeitest du eng mit Kunden, Entwicklung und Infrastruktur-Teams zusammen, bringst Klarheit in komplexe Betriebsfragen und schaffst nachhaltige Lösungen – hands-on, pragmatisch und mit viel Eigenverantwortung.


    Die Main Tasks:

    Hauptverantwortlichkeiten
    Verfügbarkeit & Stabilität

    • Sicherstellung der Plattformverfügbarkeit entlang definierter SLOs / SLAs
    • Analyse und Behebung von Incidents & Performance-Problemen (On-Call inkl.)
    • Aufbau und Pflege robuster Alerting-, Logging- und Monitoring-Setups
    • Fehlerursachenanalyse (Root Cause) & präventive Maßnahmen
    Automatisierung & Infrastruktur
    • Automatisierung von Bereitstellung, Skalierung und Wartung (IaC mit Terraform, Ansible etc.)
    • Betrieb und Weiterentwicklung von Kubernetes-Umgebungen (Cloud & On-Prem)
    • Entwicklung und Pflege von Self-Healing- und Auto-Scaling-Mechanismen
    • Einführung und Pflege von Runbooks & Playbooks
    Monitoring, Observability & Performance
    • End-to-End Monitoring mit Tools wie Prometheus, Grafana, Loki, ELK
    • Aufbau und Betreuung von SLIs und SLOs – datenbasierte Plattformsteuerung
    • Performance-Analysen (Workloads, Traffic, DBs) und kontinuierliche Optimierung
    • Einrichtung & Wartung verteilter Tracing- und Logging-Systeme
    Sicherheit & Betriebshygiene
    • Umsetzung und Kontrolle von Sicherheitsstandards (Least Privilege, TLS, Secrets Mgmt.)
    • Regelmäßige Health-Checks, Updates und Patching
    • Verfügbarkeitssicherung durch gelebte Backup- & Disaster-Recovery-Prozesse
    Kollaboration & Beratung
    • Enge Zusammenarbeit mit Dev-, Support- und Plattformteams
    • Beratung von Kunden zu Betriebsmodellen, Plattformmetriken & Architekturentscheidungen
    Schulung interner Teams in Themen wie Monitoring, SRE-Basics & Troubleshooting
    Dein Background:

    Was du mitbringen solltest
    Technisches Profil

    • Linux-Expertise (Debian, Ubuntu, RHEL)
    • Tiefe Kubernetes-Kenntnisse – Cluster, Ingress, Operators, Helm etc.
    • Erfahrung mit Cloud-Plattformen (AWS, Azure, GCP)
    • Sehr gute Kenntnisse in Monitoring-Stacks (Prometheus, Grafana, Loki, ELK)
    • Know-how in Infrastructure-as-Code (Terraform, Ansible, Puppet)
    • Scripting- und Automatisierungskenntnisse (Bash, Python, Go)
    • Vertraut mit Logging, Tracing & Incident-Management-Prozessen
    Soft Skills & Arbeitsweise
    • Proaktives Troubleshooting & hohes Qualitätsbewusstsein
    • Strukturierte, analytische Denkweise – lösungsorientiert und pragmatisch
    • Sehr gute Kommunikationsfähigkeit (Kunde, Dev, Ops)
    • Fokus auf Nachhaltigkeit & Automatisierung statt Firefighting
    • Bereitschaft zu Bereitschaftsdiensten (Rufbereitschaft, SLA-Fenster)
    Nice to Have
    • Zertifizierungen wie CKA / CKS / AWS DevOps oder vergleichbar
    • Erfahrung mit GitOps, ArgoCD oder Policy-as-Code
    • Kenntnisse in FinOps / Kostenoptimierung in Cloud-Plattformen

    Deine Benefits:

    Was dich bei Hundertserver erwartet

    • Echte Weiterentwicklung – in Technik, Methodik & Kultur
    • Moderne Plattformen & Tools – mit Raum für eigene Gestaltung
    • Eigenverantwortung & Vertrauen – wir arbeiten partnerschaftlich, nicht hierarchisch
    • Flexible Arbeitszeit & Remote-First-Kultur
    • Hands-on-Mentalität & direkter Kundenimpact

    Jobs at Hundertserver

    Job recommendations