DevOps & CI/CD-Einrichtung

"Hoffentlich klappt"
mit git push origin main.

Container, CI/CD-Pipelines, Kubernetes, Infrastructure-as-Code, Observability und Release-Automatisierung — alles aus einer Hand. Entwickler macht "git push"; Lint, Test, Build, Security-Scan, Image-Push und Deploy laufen in Minuten automatisch. Stimmt etwas nicht, wird in 18 Sekunden zurückgerollt. Nach deutschen DevOps-Standards gebaut.

Releases werden nur durch disziplinierte Automatisierung zum Nicht-Ereignis. Wenn Sie keine Freitagnacht-Schichten mehr schieben wollen — Sie sind richtig hier.

Pipeline-Audit anfragen Kontakt aufnehmen

Deploys diese Woche +2250%

vorher: 2/Woche

~/app — zsh

$ git push origin main

Enumerating objects: 24, done.

Counting objects: 100% (24/24), done.

Delta compression using up to 8 threads

Writing objects: 100% (13/13), 2.41 KiB | done.

To github.com:partnerfy/api.git

a3f12b9..c8e441d main -> main

Pushed to GitHub.

# workflow #4719 started

CI/CD-Pipeline #4719 PASS

Lint

Test

Build

Scan

Push

Deploy

lint → test → build → security → image → rollout

Produktion — Rolling-Update 0s Downtime

v1.2.1 (alt)

v1.2.2 (neu)

Rollout 78% • Readiness OK • Healthcheck PASS

Das Problem

"Hoffentlich klappt"-Releases brennen Ihr Team aus.

Sprechen wir ehrlich über die Zahlen: ein gescheitertes Release kostet nicht nur Umsatz — es kostet Vertrauen im Team. Hier sind die fünf häufigsten Muster, die wir sehen.

01 — Manuelles Deploy = Zweitages-Freitag

Wenn ein Mensch per SSH auf einen Server geht, Dateien zieht und Dienste neustartet, frisst dieses Release einen halben Arbeitstag. Wird ein Schritt vergessen, zeigt es sich am Montag. Das Freitag-Abend-Deploy zieht sich bis Mitternacht; der DevOps-Ingenieur, der eigentlich frei hat, hat es nicht wirklich. Am Monatsende erzeugt diese Schleife Burnout, am Quartalsende Kündigungen. Die Lösung: nicht ein Mensch, sondern die Pipeline drückt den Deploy-Knopf.

02 — Kein Rollback-Plan

Tritt nach einem Release ein Fehler auf, dauert "git revert + redeploy" Stunden statt Minuten. Zahlungen schlagen fehl, Registrierungen schlagen fehl, das Callcenter ertrinkt. In einer guten Pipeline ist Rollback ein Knopfdruck — das vorige Image liegt noch in der Registry, das Kubernetes-Deployment wird auf die vorige Revision zurückgesetzt, in 18 Sekunden ist alles wieder oben. Sie brauchen keinen Rollback-"Plan", sondern einen Mechanismus.

03 — Ungetesteter Code in Produktion

Ohne CI-Pipeline laufen Tests nicht — weil "wir gerade in Eile sind". Jeder kleine Produktionsbug stapelt sich intern, weil er dem Kunden nie gemeldet wird. Nach einer Weile schreiben Entwickler keinen Code mehr, sondern Antworten auf Support-Tickets. Die Lösung: jeder Commit löst automatisch die volle Testsuite, statische Analyse, Type-Checks und Security-Scan aus. Fehlerhafter Code wird nie nach main gemergt.

04 — Undokumentierte Infrastrukturänderungen

Vor sechs Monaten hat jemand eine nginx-Config auf dem Produktionsserver geändert. Diese Person ist nicht mehr da. Niemand erinnert sich an die Änderung. Wenn Sie einen neuen Server hochziehen, können Sie das Verhalten nicht reproduzieren. Infrastructure-as-Code löst das: Terraform, Pulumi, Helm-Charts, Kubernetes-Manifeste — alles lebt in git. Zerstören Sie einen Server und bauen Sie ihn in acht Minuten identisch neu auf.

05 — Wochenend-Feuerwehr

Das System fiel Samstag um 03:14 aus. Kein Slack-Alarm, nur ein Kunde am Montagmorgen mit "geht nicht auf". Vier Stunden, um Logs zu finden, drei Stunden, um die Ursache zu verstehen. Echtes DevOps heißt: ein Prometheus-Alarm weckt Sie Samstag um 03:14, die Ursache ist im Grafana-Dashboard sichtbar, das Runbook wird ausgeführt, in zwölf Minuten ist das Problem gelöst. Wochenende bleibt Wochenende.

Engineering

Eine selbstheilende, kontinuierlich verbessernde Produktion.

Von Kubernetes-Pod-Auto-Healing zu Terraform-IaC, von DORA-Metriken bis zum One-Click-Rollback — so sieht der tägliche Betrieb wirklich aus.

Kubernetes — Auto-Heal

Stirbt ein Pod, holt der Kubelet sofort einen neuen hoch

SELF-HEALING

replicas

6/6

restarts

uptime

99.98%

> Liveness-Probe fehlgeschlagen, Container neugestartet (OOMKilled)
> Pod web-7d4 bereit in 2.1s — Dienst läuft weiter

infrastructure/main.tf

resource "aws_eks_cluster" "prod" { name = "partnerfy-prod" version = "1.29" role_arn = aws_iam_role.eks.arn vpc_config { subnet_ids = aws_subnet.priv[*].id } }

$ terraform apply -auto-approve
Plan: 14 to add, 0 to change, 0 to destroy.
Apply complete! Resources: 14 added.

DORA-Metriken

Die vier Kernindikatoren der Produktionsgesundheit

Letzte 30 Tage

Deploy-Frequenz

47 / Woche

Elite-Tier

Lead Time

34 min

Elite-Tier

MTTR

12 min

Elite-Tier

Change-Failure

2.1 %

Elite-Tier

One-Click-Rollback

Zur vorigen Revision zurück

kubectl rollout undo deployment/web

In 18 Sekunden zurückgerollt

Für wen

Wo es den größten Unterschied macht.

Wir haben über die Jahre DevOps in vielen Branchen aufgebaut. Die acht Profile unten holen am meisten aus uns heraus.

Täglich liefernde SaaS

Kundenanfrage → Branch → Review → in 30 Minuten in Produktion. 5–15 Releases pro Tag sollten Routine sein.

E-Commerce mit häufigen A/B-Tests

Feature-Flags schicken Variante an 5% Traffic, Metriken vergleichen automatisch, Gewinner rollt automatisch aus.

Reguliertes Fintech

Freigabekette, Audit-Log, unveränderliche Builds, Funktionstrennung. Pipeline ready für SOC2 und PCI.

Multi-Tenant-B2B

Pro-Tenant-Umgebung, gestaffelter Rollout, Tenant-aware Flags, Kundenspezifisches SLA-Monitoring.

CD an TestFlight / Play

Fastlane + Bitrise + Signing-Automation. Jeder PR baut IPA/AAB, Verteilung an Testgeräte.

Startup vom Monolith zu Services

Strangler-Fig-Pattern, Service Mesh (Istio/Linkerd), schrittweiser Cutover. Beide Welten laufen parallel.

Enterprise modernisiert Legacy

On-Prem-VMs containerisieren, alten Jenkins zu GitOps, Active Directory zu OIDC migrieren.

Agentur mit 20+ Client-Repos

Pipeline-Templates, Repo-of-Repos, zentrales Secret-Management. Neuer Kunde = in 2 Stunden live.

Umfang

Die zehn Schichten eines DevOps-Stacks.

Auf jeder Schicht wählen wir das passende Werkzeug — statt einen Stack zu erzwingen, balancieren wir Team-Gewohnheiten gegen langfristige Nachhaltigkeit.

Docker · Buildah · Podman

Containerisierung

App wird in ein Dockerfile gepackt, Multi-Stage-Builds erzeugen minimale Images, Auto-Push zur Registry. Dasselbe Image wandert dev → staging → prod.

GitHub Actions · GitLab CI · Jenkins · CircleCI

CI-Pipeline

Jeder Commit: Lint, Unit- + Integrationstests, statische Analyse, Security-Scan, Image-Build. Fehlerhafter Code merged nicht.

ArgoCD · Flux · Spinnaker

CD-Pipeline

GitOps-Ansatz: git-Manifeste sind die einzige Wahrheit. ArgoCD synct kontinuierlich; bei Drift wird automatisch korrigiert oder alarmiert.

EKS · GKE · AKS · k3s

Kubernetes-Setup

Managed (EKS/GKE/AKS) oder Self-Hosted (k3s, kubeadm). Cluster-Sizing, Node-Pools, Autoscaling und Network-Policy gemeinsam designed.

Helm · Kustomize

Helm-Charts

App wird als parametrisierter Chart paketiert — unterschiedliche Werte-Dateien für Staging und Prod. Versions-Upgrade ist ein Befehl.

Terraform · Pulumi · OpenTofu

Terraform / Pulumi IaC

Cloud-Ressourcen (VPC, RDS, S3, IAM) als Code definiert. Plan → Review → Apply-Loop, State remote + locked, Drift-Detection.

Vault · SOPS · AWS Secrets · Doppler

Secret-Management

Leck-anfällige .env-Dateien sind Geschichte. Mit Vault oder SOPS verschlüsselt — Pipeline holt dynamisch zur Laufzeit, Entwickler sieht sie nie.

Prometheus · Grafana · Loki · Tempo

Observability

Metriken (Prometheus) + Logs (Loki) + Traces (Tempo) + Dashboards (Grafana). SLO-basierte Alarme und Error-Budget-Tracking.

PagerDuty · Opsgenie · Grafana OnCall

On-Call & Alerting

Welcher Alarm weckt wen? Rotation, Eskalation, Alarme mit Runbooks verknüpft. Schluss mit dem Falschen um 3 Uhr wecken.

Snyk · Trivy · Anchore · Dependabot

Security-Scanning

CVE im Image? Kritische Lücke in einer Dependency? Pipeline stoppt den Build, öffnet Auto-Fix-PR. Shift-Left-Security.

Prozess

Vom alten Stack zur modernen Pipeline in sechs Schritten.

Wir stellen nicht die gesamte Infrastruktur über Nacht um. Phasenweise, ohne Geschäftsunterbrechung, mit Ihrem Team an Bord.

Audit aktuelle Pipeline

Zwei-Wochen-Sprint: wie deployen Sie heute, welcher Schritt ist manuell, welcher Dienst ist Single-Point, wo liegen Secrets.

Apps containerisieren

Jeder Dienst bekommt ein Dockerfile, mit Multi-Stage-Build verschlankt, in Registry gepusht. Dev + Prod gleiches Paket.

CI-Pipeline aufbauen

Lint + Test + Build + Scan automatisiert. Wird ein PR geöffnet, gibt der Bot in 6–8 Minuten grün/rot zurück.

CD-Pipeline aufbauen

GitOps mit ArgoCD oder Flux; Staging automatisch bei jedem Merge, Prod mit einer Freigabe. Canary + Rollback bereit.

Observability anbinden

Prometheus + Grafana + Loki. SLOs definiert, Alarmregeln mit Runbooks verknüpft, On-Call-Rotation eingerichtet.

Team schulen, übergeben

Zwei-Tage-Workshop + Dokumentation + Runbook-Set. Nächste drei Monate: stiller Support, Antworten innerhalb einer Stunde.

Toolset

Die Technologien, die wir in Produktion fahren.

Docker Kubernetes GitHub Actions GitLab CI ArgoCD Flux Terraform Pulumi Helm Ansible Prometheus Grafana Loki Sentry Datadog Vault Snyk Trivy

Fälle

Vorher / Nachher — in Zahlen.

SaaS · 35-Personen-Team

2 Deploys / Woche 47 Deploys / Woche

Jenkins → GitHub Actions + ArgoCD. 12 Minuten nach Merge in Produktion. Freitagabend-Deploy-Angst beendet.

E-Commerce · 4M Besucher/Monat

MTTR 4 Stunden MTTR 12 Minuten

Prometheus + PagerDuty + Runbook-Automation. Alarme feuern vor dem Einbruch, an die richtige Person, mit Lösungsschritten.

Fintech · Payments-Plattform

Kein Audit-Log SOC2 Type II zertifiziert

Unveränderliche Builds, Funktionstrennung, vollständiger Audit-Trail, verschlüsselte Secrets. Audit-ready in 6 Monaten, null Findings.

B2B-SaaS · 200+ Tenants

Sichtbare Downtime 99.97% SLA erfüllt

Rolling-Updates + Readiness-Probes + Canary-Releases. In sechs Monaten kein einziger kundenseitig sichtbarer Ausfall.

Mobile-Spiel · 8 Länder

Manuelles TestFlight-Build Auto-Build bei PR

Fastlane + Bitrise + Signing-Automation. QA sieht in 4 Minuten nach jedem PR ein neues Build auf dem Gerät.

Agentur · 24 Client-Repos

Jeder Kunde anders Eine Pipeline-Vorlage

Wiederverwendbarer GitHub-Actions-Workflow + Bootstrap-CLI. Neuer Kunde öffnet Repo und ist in 2 Stunden live.

FAQ

Häufig gestellte Fragen

Kurz: nein. Bei kleiner Skala (1–3 Server in einer Region, unter 20k Requests/min) bringen Docker Compose, AWS ECS Fargate, GCP Cloud Run, Fly.io oder Render deutlich weniger operative Last. Kubernetes lohnt seine Komplexität bei 5+ Diensten, Multi-Region, Auto-Scaling, fortgeschrittenen Rollout-Strategien (Canary/Blue-Green) und Inter-Service-Mesh-Anforderungen. Die Entscheidung treffen wir gemeinsam im Audit; wir drängen Sie nicht, "dem Trend zu folgen". Bei K8s empfehlen wir managed (EKS/GKE/AKS) — Sie müssen Ihren Cluster nicht selbst betreiben.

In der Regel nein, nicht sofort. Wenn Jenkins läuft, fahren wir die neue Pipeline parallel (GitHub Actions / GitLab CI / Drone). Neue Dienste laufen über die neue Pipeline, alte bleiben auf Jenkins. Sie koexistieren 2–3 Monate; sobald das Team komfortabel ist, ist die Migration abgeschlossen. Der "alles wegwerfen und neuschreiben"-Ansatz dauert sechs Monate und lässt alles halbfertig zurück. Unsere Erfahrung: eine Strangler-Fig-Strategie gewinnt immer. Wenn Jenkins wirklich unwartbar ist (uralte Version, Plugin-Explosion, niemand versteht es) — sagen wir es direkt.

Typischer Zeitplan: Basis-CI/CD (Container + Test + Build + Deploy) 2–4 Wochen. Helm + Kubernetes ergänzen +2–4 Wochen. Volle Observability (Prometheus + Grafana + Loki + Alarme) +2–3 Wochen. Cloud-Management mit Terraform/IaC +3–6 Wochen (hängt von bestehenden Ressourcen ab). Insgesamt: kleines Team 4 Wochen, mittelgroß 8–10 Wochen, Enterprise 12–16 Wochen. Wichtig: phasenweise, das Geschäft pausiert nie. Sie profitieren, sobald Phase eins steht; jede weitere Phase fügt Wert hinzu. Wir warten nicht auf den einen "alles fertig"-Moment.

Ja, und wir sehen das als Teil der Arbeit. Nach Setup: (1) komplette Markdown-Doku der Pipeline, (2) zweitägiger Hands-on-Workshop, (3) 30-tägige Schatten-Phase — wir beobachten im Hintergrund, das Team führt, wir beantworten Fragen. Der Alltag eines Entwicklers ändert sich kaum: git push, Pipeline läuft. Die Komplexität versteckt sich in der Infrastruktur. Für die Ops-Seite (Alarmbehandlung, Runbooks, Rollback) bauen wir eine On-Call-Rotation. Nach 3 Monaten kann Ihr Team die Pipeline allein verantworten.

Zwei Posten: (a) unser Setup + 3-Monats-Übergabe — projektabhängig bepreist, niedriger vierstelliger Bereich für kleines Projekt, mittlerer fünfstelliger für Enterprise (EUR/USD, Festpreis). (b) Laufende Infrastrukturkosten — Sie zahlen direkt aus Ihrem Cloud-Konto, wir sind kein Mittler. Typische Zahlen: kleines SaaS 200–600 EUR/Monat Cloud, Mittel 1500–4000 EUR, Enterprise 8000+. Wichtig: korrektes Design spart meist 30–50% Cloud-Kosten (Rightsizing, Spot-Instanzen, Auto-Scaling). DevOps amortisiert sich meist in sechs Monaten.

Ja. AWS + GCP + Azure + Hetzner + DigitalOcean — aktive Produktionserfahrung in allen. Terraform/Pulumi bieten vendor-agnostische Abstraktion; Kubernetes-Manifeste laufen auf jedem Cluster. "Multi-Cloud" ist oft nicht das, was Sie wirklich wollen (operative Komplexität 2,5×) — wir empfehlen meist eine primäre Cloud + andere Region (Multi-Region) + zweiten Provider nur für DR. Wenn echtes Multi-Cloud nötig ist (z. B. EU-Daten auf AWS, US-Daten auf GCP), bauen wir das ebenfalls. Regionsauswahl wegen Datensouveränität (GDPR/KVKK) ist ein häufiges Thema.

Ja. Wir haben Pipelines konform zu ISO 27001, SOC2 Type II, PCI DSS, GDPR und KVKK gebaut. Was wir umsetzen: unveränderliche Builds (nicht rückwirkend änderbar), Funktionstrennung (Autor darf nicht deployen), vollständiger Audit-Trail (wer hat wann was freigegeben), verschlüsselte Secrets (Vault/SOPS), Verschlüsselung at Rest + in Transit, MFA-geschützter Produktionszugriff, Vulnerability-Scan bei jedem Build. Auditor-Beweispakete kommen als fertige Vorlagen. Wir haben 6+ Fälle, in denen unabhängige Auditoren unsere Pipelines abgenommen haben — Referenzen verfügbar.

Wird nach einem Release ein Problem entdeckt, zwei Wege. (1) Kubernetes Rollout Undo: die vorige Revision steckt noch in der Deployment-Historie; ein Befehl oder ein ArgoCD-UI-Button — das alte Image ist in Sekunden, nicht Minuten, wieder live. Typisch: 12–25 Sekunden. (2) Bei Datenbankmigration mehr Sorgfalt: erst Reverse-Migration, dann Container-Rollback. Deshalb designen wir Migrationen immer rückwärtskompatibel (NULL-allow → Backfill → NOT-NULL, Zwei-Schritt-Muster). Automatische Rollback-Regel: SLO-Verletzung oder Error-Rate-Spitze stoppt das progressive ArgoCD-Rollout und rollt bei Bedarf zurück. Menschliches Eingreifen ist optional.

Kostenloses Pipeline-Audit

Machen Sie Releases zum Nicht-Ereignis.

In einem 30-minütigen Gespräch prüfen wir gemeinsam Ihre Pipeline. Wo die Gewinne liegen, welche Schritte kritisch sind — wir entwerfen einen konkreten 90-Tage-Plan.

Termin vereinbaren Kontakt aufnehmen

Festpreis, fester Umfang 3 Monate Übergabe-Support Deutscher DevOps-Standard

Partnerfy kennenlernen

Warum Partnerfy?

Ressourcen & Support

"Hoffentlich klappt"
mit git push origin main.

"Hoffentlich klappt"-Releases brennen Ihr Team aus.

Eine selbstheilende, kontinuierlich verbessernde Produktion.

Die vier Kernindikatoren der Produktionsgesundheit

Zur vorigen Revision zurück

Wo es den größten Unterschied macht.

Täglich liefernde SaaS

E-Commerce mit häufigen A/B-Tests

Reguliertes Fintech

Multi-Tenant-B2B

CD an TestFlight / Play

Startup vom Monolith zu Services

Enterprise modernisiert Legacy

Agentur mit 20+ Client-Repos

Die zehn Schichten eines DevOps-Stacks.

Containerisierung

CI-Pipeline

CD-Pipeline

Kubernetes-Setup

Helm-Charts

Terraform / Pulumi IaC

Secret-Management

Observability

On-Call & Alerting

Security-Scanning

Vom alten Stack zur modernen Pipeline in sechs Schritten.

Audit aktuelle Pipeline

Apps containerisieren

CI-Pipeline aufbauen

CD-Pipeline aufbauen

Observability anbinden

Team schulen, übergeben

Die Technologien, die wir in Produktion fahren.

Vorher / Nachher — in Zahlen.

Häufig gestellte Fragen

Machen Sie Releases zum Nicht-Ereignis.

"Hoffentlich klappt" mit git push origin main.

"Hoffentlich klappt"-Releases brennen Ihr Team aus.

Eine selbstheilende, kontinuierlich verbessernde Produktion.

Die vier Kernindikatoren der Produktionsgesundheit

Zur vorigen Revision zurück

Wo es den größten Unterschied macht.

Täglich liefernde SaaS

E-Commerce mit häufigen A/B-Tests

Reguliertes Fintech

Multi-Tenant-B2B

CD an TestFlight / Play

Startup vom Monolith zu Services

Enterprise modernisiert Legacy

Agentur mit 20+ Client-Repos

Die zehn Schichten eines DevOps-Stacks.

Containerisierung

CI-Pipeline

CD-Pipeline

Kubernetes-Setup

Helm-Charts

Terraform / Pulumi IaC

Secret-Management

Observability

On-Call & Alerting

Security-Scanning

Vom alten Stack zur modernen Pipeline in sechs Schritten.

Audit aktuelle Pipeline

Apps containerisieren

CI-Pipeline aufbauen

CD-Pipeline aufbauen

Observability anbinden

Team schulen, übergeben

Die Technologien, die wir in Produktion fahren.

Vorher / Nachher — in Zahlen.

Häufig gestellte Fragen

Machen Sie Releases zum Nicht-Ereignis.

"Hoffentlich klappt"
mit git push origin main.