DevOps & CI/CD-Einrichtung

"Hoffentlich klappt"
mit git push origin main.

Container, CI/CD-Pipelines, Kubernetes, Infrastructure-as-Code, Observability und Release-Automatisierung — alles aus einer Hand. Entwickler macht "git push"; Lint, Test, Build, Security-Scan, Image-Push und Deploy laufen in Minuten automatisch. Stimmt etwas nicht, wird in 18 Sekunden zurückgerollt. Nach deutschen DevOps-Standards gebaut.

Releases werden nur durch disziplinierte Automatisierung zum Nicht-Ereignis. Wenn Sie keine Freitagnacht-Schichten mehr schieben wollen — Sie sind richtig hier.

Deploys diese Woche +2250%
47
vorher: 2/Woche
~/app — zsh
$ git push origin main
Enumerating objects: 24, done.
Counting objects: 100% (24/24), done.
Delta compression using up to 8 threads
Writing objects: 100% (13/13), 2.41 KiB | done.
To github.com:partnerfy/api.git
a3f12b9..c8e441d main -> main
Pushed to GitHub.
# workflow #4719 started
CI/CD-Pipeline #4719 PASS
1
Lint
2
Test
3
Build
4
Scan
5
Push
6
Deploy
lint → test → build → security → image → rollout
Produktion — Rolling-Update 0s Downtime
v1.2.1 (alt)
P
P
v1.2.2 (neu)
P
P
Rollout 78% • Readiness OK • Healthcheck PASS
Das Problem

"Hoffentlich klappt"-Releases brennen Ihr Team aus.

Sprechen wir ehrlich über die Zahlen: ein gescheitertes Release kostet nicht nur Umsatz — es kostet Vertrauen im Team. Hier sind die fünf häufigsten Muster, die wir sehen.

01 — Manuelles Deploy = Zweitages-Freitag

Wenn ein Mensch per SSH auf einen Server geht, Dateien zieht und Dienste neustartet, frisst dieses Release einen halben Arbeitstag. Wird ein Schritt vergessen, zeigt es sich am Montag. Das Freitag-Abend-Deploy zieht sich bis Mitternacht; der DevOps-Ingenieur, der eigentlich frei hat, hat es nicht wirklich. Am Monatsende erzeugt diese Schleife Burnout, am Quartalsende Kündigungen. Die Lösung: nicht ein Mensch, sondern die Pipeline drückt den Deploy-Knopf.

02 — Kein Rollback-Plan

Tritt nach einem Release ein Fehler auf, dauert "git revert + redeploy" Stunden statt Minuten. Zahlungen schlagen fehl, Registrierungen schlagen fehl, das Callcenter ertrinkt. In einer guten Pipeline ist Rollback ein Knopfdruck — das vorige Image liegt noch in der Registry, das Kubernetes-Deployment wird auf die vorige Revision zurückgesetzt, in 18 Sekunden ist alles wieder oben. Sie brauchen keinen Rollback-"Plan", sondern einen Mechanismus.

03 — Ungetesteter Code in Produktion

Ohne CI-Pipeline laufen Tests nicht — weil "wir gerade in Eile sind". Jeder kleine Produktionsbug stapelt sich intern, weil er dem Kunden nie gemeldet wird. Nach einer Weile schreiben Entwickler keinen Code mehr, sondern Antworten auf Support-Tickets. Die Lösung: jeder Commit löst automatisch die volle Testsuite, statische Analyse, Type-Checks und Security-Scan aus. Fehlerhafter Code wird nie nach main gemergt.

04 — Undokumentierte Infrastrukturänderungen

Vor sechs Monaten hat jemand eine nginx-Config auf dem Produktionsserver geändert. Diese Person ist nicht mehr da. Niemand erinnert sich an die Änderung. Wenn Sie einen neuen Server hochziehen, können Sie das Verhalten nicht reproduzieren. Infrastructure-as-Code löst das: Terraform, Pulumi, Helm-Charts, Kubernetes-Manifeste — alles lebt in git. Zerstören Sie einen Server und bauen Sie ihn in acht Minuten identisch neu auf.

05 — Wochenend-Feuerwehr

Das System fiel Samstag um 03:14 aus. Kein Slack-Alarm, nur ein Kunde am Montagmorgen mit "geht nicht auf". Vier Stunden, um Logs zu finden, drei Stunden, um die Ursache zu verstehen. Echtes DevOps heißt: ein Prometheus-Alarm weckt Sie Samstag um 03:14, die Ursache ist im Grafana-Dashboard sichtbar, das Runbook wird ausgeführt, in zwölf Minuten ist das Problem gelöst. Wochenende bleibt Wochenende.

Engineering

Eine selbstheilende, kontinuierlich verbessernde Produktion.

Von Kubernetes-Pod-Auto-Healing zu Terraform-IaC, von DORA-Metriken bis zum One-Click-Rollback — so sieht der tägliche Betrieb wirklich aus.

Kubernetes — Auto-Heal
Stirbt ein Pod, holt der Kubelet sofort einen neuen hoch
SELF-HEALING
P1
P2
P3
P4
P5
P6
replicas
6/6
restarts
3
uptime
99.98%
> Liveness-Probe fehlgeschlagen, Container neugestartet (OOMKilled)
> Pod web-7d4 bereit in 2.1s — Dienst läuft weiter
infrastructure/main.tf
resource "aws_eks_cluster" "prod" {   name = "partnerfy-prod"   version = "1.29"   role_arn = aws_iam_role.eks.arn   vpc_config {     subnet_ids = aws_subnet.priv[*].id   } }
$ terraform apply -auto-approve
Plan: 14 to add, 0 to change, 0 to destroy.
Apply complete! Resources: 14 added.
DORA-Metriken

Die vier Kernindikatoren der Produktionsgesundheit

Deploy-Frequenz
47 / Woche
Elite-Tier
Lead Time
34 min
Elite-Tier
MTTR
12 min
Elite-Tier
Change-Failure
2.1 %
Elite-Tier
One-Click-Rollback

Zur vorigen Revision zurück

kubectl rollout undo deployment/web

In 18 Sekunden zurückgerollt
Für wen

Wo es den größten Unterschied macht.

Wir haben über die Jahre DevOps in vielen Branchen aufgebaut. Die acht Profile unten holen am meisten aus uns heraus.

Täglich liefernde SaaS

Kundenanfrage → Branch → Review → in 30 Minuten in Produktion. 5–15 Releases pro Tag sollten Routine sein.

E-Commerce mit häufigen A/B-Tests

Feature-Flags schicken Variante an 5% Traffic, Metriken vergleichen automatisch, Gewinner rollt automatisch aus.

Reguliertes Fintech

Freigabekette, Audit-Log, unveränderliche Builds, Funktionstrennung. Pipeline ready für SOC2 und PCI.

Multi-Tenant-B2B

Pro-Tenant-Umgebung, gestaffelter Rollout, Tenant-aware Flags, Kundenspezifisches SLA-Monitoring.

CD an TestFlight / Play

Fastlane + Bitrise + Signing-Automation. Jeder PR baut IPA/AAB, Verteilung an Testgeräte.

Startup vom Monolith zu Services

Strangler-Fig-Pattern, Service Mesh (Istio/Linkerd), schrittweiser Cutover. Beide Welten laufen parallel.

Enterprise modernisiert Legacy

On-Prem-VMs containerisieren, alten Jenkins zu GitOps, Active Directory zu OIDC migrieren.

Agentur mit 20+ Client-Repos

Pipeline-Templates, Repo-of-Repos, zentrales Secret-Management. Neuer Kunde = in 2 Stunden live.

Umfang

Die zehn Schichten eines DevOps-Stacks.

Auf jeder Schicht wählen wir das passende Werkzeug — statt einen Stack zu erzwingen, balancieren wir Team-Gewohnheiten gegen langfristige Nachhaltigkeit.

01
Docker · Buildah · Podman

Containerisierung

App wird in ein Dockerfile gepackt, Multi-Stage-Builds erzeugen minimale Images, Auto-Push zur Registry. Dasselbe Image wandert dev → staging → prod.

02
GitHub Actions · GitLab CI · Jenkins · CircleCI

CI-Pipeline

Jeder Commit: Lint, Unit- + Integrationstests, statische Analyse, Security-Scan, Image-Build. Fehlerhafter Code merged nicht.

03
ArgoCD · Flux · Spinnaker

CD-Pipeline

GitOps-Ansatz: git-Manifeste sind die einzige Wahrheit. ArgoCD synct kontinuierlich; bei Drift wird automatisch korrigiert oder alarmiert.

04
EKS · GKE · AKS · k3s

Kubernetes-Setup

Managed (EKS/GKE/AKS) oder Self-Hosted (k3s, kubeadm). Cluster-Sizing, Node-Pools, Autoscaling und Network-Policy gemeinsam designed.

05
Helm · Kustomize

Helm-Charts

App wird als parametrisierter Chart paketiert — unterschiedliche Werte-Dateien für Staging und Prod. Versions-Upgrade ist ein Befehl.

06
Terraform · Pulumi · OpenTofu

Terraform / Pulumi IaC

Cloud-Ressourcen (VPC, RDS, S3, IAM) als Code definiert. Plan → Review → Apply-Loop, State remote + locked, Drift-Detection.

07
Vault · SOPS · AWS Secrets · Doppler

Secret-Management

Leck-anfällige .env-Dateien sind Geschichte. Mit Vault oder SOPS verschlüsselt — Pipeline holt dynamisch zur Laufzeit, Entwickler sieht sie nie.

08
Prometheus · Grafana · Loki · Tempo

Observability

Metriken (Prometheus) + Logs (Loki) + Traces (Tempo) + Dashboards (Grafana). SLO-basierte Alarme und Error-Budget-Tracking.

09
PagerDuty · Opsgenie · Grafana OnCall

On-Call & Alerting

Welcher Alarm weckt wen? Rotation, Eskalation, Alarme mit Runbooks verknüpft. Schluss mit dem Falschen um 3 Uhr wecken.

10
Snyk · Trivy · Anchore · Dependabot

Security-Scanning

CVE im Image? Kritische Lücke in einer Dependency? Pipeline stoppt den Build, öffnet Auto-Fix-PR. Shift-Left-Security.

Prozess

Vom alten Stack zur modernen Pipeline in sechs Schritten.

Wir stellen nicht die gesamte Infrastruktur über Nacht um. Phasenweise, ohne Geschäftsunterbrechung, mit Ihrem Team an Bord.

01

Audit aktuelle Pipeline

Zwei-Wochen-Sprint: wie deployen Sie heute, welcher Schritt ist manuell, welcher Dienst ist Single-Point, wo liegen Secrets.

02

Apps containerisieren

Jeder Dienst bekommt ein Dockerfile, mit Multi-Stage-Build verschlankt, in Registry gepusht. Dev + Prod gleiches Paket.

03

CI-Pipeline aufbauen

Lint + Test + Build + Scan automatisiert. Wird ein PR geöffnet, gibt der Bot in 6–8 Minuten grün/rot zurück.

04

CD-Pipeline aufbauen

GitOps mit ArgoCD oder Flux; Staging automatisch bei jedem Merge, Prod mit einer Freigabe. Canary + Rollback bereit.

05

Observability anbinden

Prometheus + Grafana + Loki. SLOs definiert, Alarmregeln mit Runbooks verknüpft, On-Call-Rotation eingerichtet.

06

Team schulen, übergeben

Zwei-Tage-Workshop + Dokumentation + Runbook-Set. Nächste drei Monate: stiller Support, Antworten innerhalb einer Stunde.

Toolset

Die Technologien, die wir in Produktion fahren.

Docker Kubernetes GitHub Actions GitLab CI ArgoCD Flux Terraform Pulumi Helm Ansible Prometheus Grafana Loki Sentry Datadog Vault Snyk Trivy
Fälle

Vorher / Nachher — in Zahlen.

SaaS · 35-Personen-Team
2 Deploys / Woche 47 Deploys / Woche

Jenkins → GitHub Actions + ArgoCD. 12 Minuten nach Merge in Produktion. Freitagabend-Deploy-Angst beendet.

E-Commerce · 4M Besucher/Monat
MTTR 4 Stunden MTTR 12 Minuten

Prometheus + PagerDuty + Runbook-Automation. Alarme feuern vor dem Einbruch, an die richtige Person, mit Lösungsschritten.

Fintech · Payments-Plattform
Kein Audit-Log SOC2 Type II zertifiziert

Unveränderliche Builds, Funktionstrennung, vollständiger Audit-Trail, verschlüsselte Secrets. Audit-ready in 6 Monaten, null Findings.

B2B-SaaS · 200+ Tenants
Sichtbare Downtime 99.97% SLA erfüllt

Rolling-Updates + Readiness-Probes + Canary-Releases. In sechs Monaten kein einziger kundenseitig sichtbarer Ausfall.

Mobile-Spiel · 8 Länder
Manuelles TestFlight-Build Auto-Build bei PR

Fastlane + Bitrise + Signing-Automation. QA sieht in 4 Minuten nach jedem PR ein neues Build auf dem Gerät.

Agentur · 24 Client-Repos
Jeder Kunde anders Eine Pipeline-Vorlage

Wiederverwendbarer GitHub-Actions-Workflow + Bootstrap-CLI. Neuer Kunde öffnet Repo und ist in 2 Stunden live.

FAQ

Häufig gestellte Fragen

Kurz: nein. Bei kleiner Skala (1–3 Server in einer Region, unter 20k Requests/min) bringen Docker Compose, AWS ECS Fargate, GCP Cloud Run, Fly.io oder Render deutlich weniger operative Last. Kubernetes lohnt seine Komplexität bei 5+ Diensten, Multi-Region, Auto-Scaling, fortgeschrittenen Rollout-Strategien (Canary/Blue-Green) und Inter-Service-Mesh-Anforderungen. Die Entscheidung treffen wir gemeinsam im Audit; wir drängen Sie nicht, "dem Trend zu folgen". Bei K8s empfehlen wir managed (EKS/GKE/AKS) — Sie müssen Ihren Cluster nicht selbst betreiben.

In der Regel nein, nicht sofort. Wenn Jenkins läuft, fahren wir die neue Pipeline parallel (GitHub Actions / GitLab CI / Drone). Neue Dienste laufen über die neue Pipeline, alte bleiben auf Jenkins. Sie koexistieren 2–3 Monate; sobald das Team komfortabel ist, ist die Migration abgeschlossen. Der "alles wegwerfen und neuschreiben"-Ansatz dauert sechs Monate und lässt alles halbfertig zurück. Unsere Erfahrung: eine Strangler-Fig-Strategie gewinnt immer. Wenn Jenkins wirklich unwartbar ist (uralte Version, Plugin-Explosion, niemand versteht es) — sagen wir es direkt.

Typischer Zeitplan: Basis-CI/CD (Container + Test + Build + Deploy) 2–4 Wochen. Helm + Kubernetes ergänzen +2–4 Wochen. Volle Observability (Prometheus + Grafana + Loki + Alarme) +2–3 Wochen. Cloud-Management mit Terraform/IaC +3–6 Wochen (hängt von bestehenden Ressourcen ab). Insgesamt: kleines Team 4 Wochen, mittelgroß 8–10 Wochen, Enterprise 12–16 Wochen. Wichtig: phasenweise, das Geschäft pausiert nie. Sie profitieren, sobald Phase eins steht; jede weitere Phase fügt Wert hinzu. Wir warten nicht auf den einen "alles fertig"-Moment.

Ja, und wir sehen das als Teil der Arbeit. Nach Setup: (1) komplette Markdown-Doku der Pipeline, (2) zweitägiger Hands-on-Workshop, (3) 30-tägige Schatten-Phase — wir beobachten im Hintergrund, das Team führt, wir beantworten Fragen. Der Alltag eines Entwicklers ändert sich kaum: git push, Pipeline läuft. Die Komplexität versteckt sich in der Infrastruktur. Für die Ops-Seite (Alarmbehandlung, Runbooks, Rollback) bauen wir eine On-Call-Rotation. Nach 3 Monaten kann Ihr Team die Pipeline allein verantworten.

Zwei Posten: (a) unser Setup + 3-Monats-Übergabe — projektabhängig bepreist, niedriger vierstelliger Bereich für kleines Projekt, mittlerer fünfstelliger für Enterprise (EUR/USD, Festpreis). (b) Laufende Infrastrukturkosten — Sie zahlen direkt aus Ihrem Cloud-Konto, wir sind kein Mittler. Typische Zahlen: kleines SaaS 200–600 EUR/Monat Cloud, Mittel 1500–4000 EUR, Enterprise 8000+. Wichtig: korrektes Design spart meist 30–50% Cloud-Kosten (Rightsizing, Spot-Instanzen, Auto-Scaling). DevOps amortisiert sich meist in sechs Monaten.

Ja. AWS + GCP + Azure + Hetzner + DigitalOcean — aktive Produktionserfahrung in allen. Terraform/Pulumi bieten vendor-agnostische Abstraktion; Kubernetes-Manifeste laufen auf jedem Cluster. "Multi-Cloud" ist oft nicht das, was Sie wirklich wollen (operative Komplexität 2,5×) — wir empfehlen meist eine primäre Cloud + andere Region (Multi-Region) + zweiten Provider nur für DR. Wenn echtes Multi-Cloud nötig ist (z. B. EU-Daten auf AWS, US-Daten auf GCP), bauen wir das ebenfalls. Regionsauswahl wegen Datensouveränität (GDPR/KVKK) ist ein häufiges Thema.

Ja. Wir haben Pipelines konform zu ISO 27001, SOC2 Type II, PCI DSS, GDPR und KVKK gebaut. Was wir umsetzen: unveränderliche Builds (nicht rückwirkend änderbar), Funktionstrennung (Autor darf nicht deployen), vollständiger Audit-Trail (wer hat wann was freigegeben), verschlüsselte Secrets (Vault/SOPS), Verschlüsselung at Rest + in Transit, MFA-geschützter Produktionszugriff, Vulnerability-Scan bei jedem Build. Auditor-Beweispakete kommen als fertige Vorlagen. Wir haben 6+ Fälle, in denen unabhängige Auditoren unsere Pipelines abgenommen haben — Referenzen verfügbar.

Wird nach einem Release ein Problem entdeckt, zwei Wege. (1) Kubernetes Rollout Undo: die vorige Revision steckt noch in der Deployment-Historie; ein Befehl oder ein ArgoCD-UI-Button — das alte Image ist in Sekunden, nicht Minuten, wieder live. Typisch: 12–25 Sekunden. (2) Bei Datenbankmigration mehr Sorgfalt: erst Reverse-Migration, dann Container-Rollback. Deshalb designen wir Migrationen immer rückwärtskompatibel (NULL-allow → Backfill → NOT-NULL, Zwei-Schritt-Muster). Automatische Rollback-Regel: SLO-Verletzung oder Error-Rate-Spitze stoppt das progressive ArgoCD-Rollout und rollt bei Bedarf zurück. Menschliches Eingreifen ist optional.

Kostenloses Pipeline-Audit

Machen Sie Releases zum Nicht-Ereignis.

In einem 30-minütigen Gespräch prüfen wir gemeinsam Ihre Pipeline. Wo die Gewinne liegen, welche Schritte kritisch sind — wir entwerfen einen konkreten 90-Tage-Plan.

Festpreis, fester Umfang 3 Monate Übergabe-Support Deutscher DevOps-Standard
Treffer