"Hoffentlich klappt"
mit git push origin main.
Container, CI/CD-Pipelines, Kubernetes, Infrastructure-as-Code, Observability und Release-Automatisierung — alles aus einer Hand. Entwickler macht "git push"; Lint, Test, Build, Security-Scan, Image-Push und Deploy laufen in Minuten automatisch. Stimmt etwas nicht, wird in 18 Sekunden zurückgerollt. Nach deutschen DevOps-Standards gebaut.
Releases werden nur durch disziplinierte Automatisierung zum Nicht-Ereignis. Wenn Sie keine Freitagnacht-Schichten mehr schieben wollen — Sie sind richtig hier.
"Hoffentlich klappt"-Releases brennen Ihr Team aus.
Sprechen wir ehrlich über die Zahlen: ein gescheitertes Release kostet nicht nur Umsatz — es kostet Vertrauen im Team. Hier sind die fünf häufigsten Muster, die wir sehen.
Wenn ein Mensch per SSH auf einen Server geht, Dateien zieht und Dienste neustartet, frisst dieses Release einen halben Arbeitstag. Wird ein Schritt vergessen, zeigt es sich am Montag. Das Freitag-Abend-Deploy zieht sich bis Mitternacht; der DevOps-Ingenieur, der eigentlich frei hat, hat es nicht wirklich. Am Monatsende erzeugt diese Schleife Burnout, am Quartalsende Kündigungen. Die Lösung: nicht ein Mensch, sondern die Pipeline drückt den Deploy-Knopf.
Tritt nach einem Release ein Fehler auf, dauert "git revert + redeploy" Stunden statt Minuten. Zahlungen schlagen fehl, Registrierungen schlagen fehl, das Callcenter ertrinkt. In einer guten Pipeline ist Rollback ein Knopfdruck — das vorige Image liegt noch in der Registry, das Kubernetes-Deployment wird auf die vorige Revision zurückgesetzt, in 18 Sekunden ist alles wieder oben. Sie brauchen keinen Rollback-"Plan", sondern einen Mechanismus.
Ohne CI-Pipeline laufen Tests nicht — weil "wir gerade in Eile sind". Jeder kleine Produktionsbug stapelt sich intern, weil er dem Kunden nie gemeldet wird. Nach einer Weile schreiben Entwickler keinen Code mehr, sondern Antworten auf Support-Tickets. Die Lösung: jeder Commit löst automatisch die volle Testsuite, statische Analyse, Type-Checks und Security-Scan aus. Fehlerhafter Code wird nie nach main gemergt.
Vor sechs Monaten hat jemand eine nginx-Config auf dem Produktionsserver geändert. Diese Person ist nicht mehr da. Niemand erinnert sich an die Änderung. Wenn Sie einen neuen Server hochziehen, können Sie das Verhalten nicht reproduzieren. Infrastructure-as-Code löst das: Terraform, Pulumi, Helm-Charts, Kubernetes-Manifeste — alles lebt in git. Zerstören Sie einen Server und bauen Sie ihn in acht Minuten identisch neu auf.
Das System fiel Samstag um 03:14 aus. Kein Slack-Alarm, nur ein Kunde am Montagmorgen mit "geht nicht auf". Vier Stunden, um Logs zu finden, drei Stunden, um die Ursache zu verstehen. Echtes DevOps heißt: ein Prometheus-Alarm weckt Sie Samstag um 03:14, die Ursache ist im Grafana-Dashboard sichtbar, das Runbook wird ausgeführt, in zwölf Minuten ist das Problem gelöst. Wochenende bleibt Wochenende.
Eine selbstheilende, kontinuierlich verbessernde Produktion.
Von Kubernetes-Pod-Auto-Healing zu Terraform-IaC, von DORA-Metriken bis zum One-Click-Rollback — so sieht der tägliche Betrieb wirklich aus.
> Pod web-7d4 bereit in 2.1s — Dienst läuft weiter
resource "aws_eks_cluster" "prod" {
name = "partnerfy-prod"
version = "1.29"
role_arn = aws_iam_role.eks.arn
vpc_config {
subnet_ids = aws_subnet.priv[*].id
}
}
Plan: 14 to add, 0 to change, 0 to destroy.
Apply complete! Resources: 14 added.
Die vier Kernindikatoren der Produktionsgesundheit
Zur vorigen Revision zurück
kubectl rollout undo deployment/web
Wo es den größten Unterschied macht.
Wir haben über die Jahre DevOps in vielen Branchen aufgebaut. Die acht Profile unten holen am meisten aus uns heraus.
Täglich liefernde SaaS
Kundenanfrage → Branch → Review → in 30 Minuten in Produktion. 5–15 Releases pro Tag sollten Routine sein.
E-Commerce mit häufigen A/B-Tests
Feature-Flags schicken Variante an 5% Traffic, Metriken vergleichen automatisch, Gewinner rollt automatisch aus.
Reguliertes Fintech
Freigabekette, Audit-Log, unveränderliche Builds, Funktionstrennung. Pipeline ready für SOC2 und PCI.
Multi-Tenant-B2B
Pro-Tenant-Umgebung, gestaffelter Rollout, Tenant-aware Flags, Kundenspezifisches SLA-Monitoring.
CD an TestFlight / Play
Fastlane + Bitrise + Signing-Automation. Jeder PR baut IPA/AAB, Verteilung an Testgeräte.
Startup vom Monolith zu Services
Strangler-Fig-Pattern, Service Mesh (Istio/Linkerd), schrittweiser Cutover. Beide Welten laufen parallel.
Enterprise modernisiert Legacy
On-Prem-VMs containerisieren, alten Jenkins zu GitOps, Active Directory zu OIDC migrieren.
Agentur mit 20+ Client-Repos
Pipeline-Templates, Repo-of-Repos, zentrales Secret-Management. Neuer Kunde = in 2 Stunden live.
Die zehn Schichten eines DevOps-Stacks.
Auf jeder Schicht wählen wir das passende Werkzeug — statt einen Stack zu erzwingen, balancieren wir Team-Gewohnheiten gegen langfristige Nachhaltigkeit.
Containerisierung
App wird in ein Dockerfile gepackt, Multi-Stage-Builds erzeugen minimale Images, Auto-Push zur Registry. Dasselbe Image wandert dev → staging → prod.
CI-Pipeline
Jeder Commit: Lint, Unit- + Integrationstests, statische Analyse, Security-Scan, Image-Build. Fehlerhafter Code merged nicht.
CD-Pipeline
GitOps-Ansatz: git-Manifeste sind die einzige Wahrheit. ArgoCD synct kontinuierlich; bei Drift wird automatisch korrigiert oder alarmiert.
Kubernetes-Setup
Managed (EKS/GKE/AKS) oder Self-Hosted (k3s, kubeadm). Cluster-Sizing, Node-Pools, Autoscaling und Network-Policy gemeinsam designed.
Helm-Charts
App wird als parametrisierter Chart paketiert — unterschiedliche Werte-Dateien für Staging und Prod. Versions-Upgrade ist ein Befehl.
Terraform / Pulumi IaC
Cloud-Ressourcen (VPC, RDS, S3, IAM) als Code definiert. Plan → Review → Apply-Loop, State remote + locked, Drift-Detection.
Secret-Management
Leck-anfällige .env-Dateien sind Geschichte. Mit Vault oder SOPS verschlüsselt — Pipeline holt dynamisch zur Laufzeit, Entwickler sieht sie nie.
Observability
Metriken (Prometheus) + Logs (Loki) + Traces (Tempo) + Dashboards (Grafana). SLO-basierte Alarme und Error-Budget-Tracking.
On-Call & Alerting
Welcher Alarm weckt wen? Rotation, Eskalation, Alarme mit Runbooks verknüpft. Schluss mit dem Falschen um 3 Uhr wecken.
Security-Scanning
CVE im Image? Kritische Lücke in einer Dependency? Pipeline stoppt den Build, öffnet Auto-Fix-PR. Shift-Left-Security.
Vom alten Stack zur modernen Pipeline in sechs Schritten.
Wir stellen nicht die gesamte Infrastruktur über Nacht um. Phasenweise, ohne Geschäftsunterbrechung, mit Ihrem Team an Bord.
Audit aktuelle Pipeline
Zwei-Wochen-Sprint: wie deployen Sie heute, welcher Schritt ist manuell, welcher Dienst ist Single-Point, wo liegen Secrets.
Apps containerisieren
Jeder Dienst bekommt ein Dockerfile, mit Multi-Stage-Build verschlankt, in Registry gepusht. Dev + Prod gleiches Paket.
CI-Pipeline aufbauen
Lint + Test + Build + Scan automatisiert. Wird ein PR geöffnet, gibt der Bot in 6–8 Minuten grün/rot zurück.
CD-Pipeline aufbauen
GitOps mit ArgoCD oder Flux; Staging automatisch bei jedem Merge, Prod mit einer Freigabe. Canary + Rollback bereit.
Observability anbinden
Prometheus + Grafana + Loki. SLOs definiert, Alarmregeln mit Runbooks verknüpft, On-Call-Rotation eingerichtet.
Team schulen, übergeben
Zwei-Tage-Workshop + Dokumentation + Runbook-Set. Nächste drei Monate: stiller Support, Antworten innerhalb einer Stunde.
Die Technologien, die wir in Produktion fahren.
Vorher / Nachher — in Zahlen.
Jenkins → GitHub Actions + ArgoCD. 12 Minuten nach Merge in Produktion. Freitagabend-Deploy-Angst beendet.
Prometheus + PagerDuty + Runbook-Automation. Alarme feuern vor dem Einbruch, an die richtige Person, mit Lösungsschritten.
Unveränderliche Builds, Funktionstrennung, vollständiger Audit-Trail, verschlüsselte Secrets. Audit-ready in 6 Monaten, null Findings.
Rolling-Updates + Readiness-Probes + Canary-Releases. In sechs Monaten kein einziger kundenseitig sichtbarer Ausfall.
Fastlane + Bitrise + Signing-Automation. QA sieht in 4 Minuten nach jedem PR ein neues Build auf dem Gerät.
Wiederverwendbarer GitHub-Actions-Workflow + Bootstrap-CLI. Neuer Kunde öffnet Repo und ist in 2 Stunden live.
Häufig gestellte Fragen
Kurz: nein. Bei kleiner Skala (1–3 Server in einer Region, unter 20k Requests/min) bringen Docker Compose, AWS ECS Fargate, GCP Cloud Run, Fly.io oder Render deutlich weniger operative Last. Kubernetes lohnt seine Komplexität bei 5+ Diensten, Multi-Region, Auto-Scaling, fortgeschrittenen Rollout-Strategien (Canary/Blue-Green) und Inter-Service-Mesh-Anforderungen. Die Entscheidung treffen wir gemeinsam im Audit; wir drängen Sie nicht, "dem Trend zu folgen". Bei K8s empfehlen wir managed (EKS/GKE/AKS) — Sie müssen Ihren Cluster nicht selbst betreiben.
In der Regel nein, nicht sofort. Wenn Jenkins läuft, fahren wir die neue Pipeline parallel (GitHub Actions / GitLab CI / Drone). Neue Dienste laufen über die neue Pipeline, alte bleiben auf Jenkins. Sie koexistieren 2–3 Monate; sobald das Team komfortabel ist, ist die Migration abgeschlossen. Der "alles wegwerfen und neuschreiben"-Ansatz dauert sechs Monate und lässt alles halbfertig zurück. Unsere Erfahrung: eine Strangler-Fig-Strategie gewinnt immer. Wenn Jenkins wirklich unwartbar ist (uralte Version, Plugin-Explosion, niemand versteht es) — sagen wir es direkt.
Typischer Zeitplan: Basis-CI/CD (Container + Test + Build + Deploy) 2–4 Wochen. Helm + Kubernetes ergänzen +2–4 Wochen. Volle Observability (Prometheus + Grafana + Loki + Alarme) +2–3 Wochen. Cloud-Management mit Terraform/IaC +3–6 Wochen (hängt von bestehenden Ressourcen ab). Insgesamt: kleines Team 4 Wochen, mittelgroß 8–10 Wochen, Enterprise 12–16 Wochen. Wichtig: phasenweise, das Geschäft pausiert nie. Sie profitieren, sobald Phase eins steht; jede weitere Phase fügt Wert hinzu. Wir warten nicht auf den einen "alles fertig"-Moment.
Ja, und wir sehen das als Teil der Arbeit. Nach Setup: (1) komplette Markdown-Doku der Pipeline, (2) zweitägiger Hands-on-Workshop, (3) 30-tägige Schatten-Phase — wir beobachten im Hintergrund, das Team führt, wir beantworten Fragen. Der Alltag eines Entwicklers ändert sich kaum: git push, Pipeline läuft. Die Komplexität versteckt sich in der Infrastruktur. Für die Ops-Seite (Alarmbehandlung, Runbooks, Rollback) bauen wir eine On-Call-Rotation. Nach 3 Monaten kann Ihr Team die Pipeline allein verantworten.
Zwei Posten: (a) unser Setup + 3-Monats-Übergabe — projektabhängig bepreist, niedriger vierstelliger Bereich für kleines Projekt, mittlerer fünfstelliger für Enterprise (EUR/USD, Festpreis). (b) Laufende Infrastrukturkosten — Sie zahlen direkt aus Ihrem Cloud-Konto, wir sind kein Mittler. Typische Zahlen: kleines SaaS 200–600 EUR/Monat Cloud, Mittel 1500–4000 EUR, Enterprise 8000+. Wichtig: korrektes Design spart meist 30–50% Cloud-Kosten (Rightsizing, Spot-Instanzen, Auto-Scaling). DevOps amortisiert sich meist in sechs Monaten.
Ja. AWS + GCP + Azure + Hetzner + DigitalOcean — aktive Produktionserfahrung in allen. Terraform/Pulumi bieten vendor-agnostische Abstraktion; Kubernetes-Manifeste laufen auf jedem Cluster. "Multi-Cloud" ist oft nicht das, was Sie wirklich wollen (operative Komplexität 2,5×) — wir empfehlen meist eine primäre Cloud + andere Region (Multi-Region) + zweiten Provider nur für DR. Wenn echtes Multi-Cloud nötig ist (z. B. EU-Daten auf AWS, US-Daten auf GCP), bauen wir das ebenfalls. Regionsauswahl wegen Datensouveränität (GDPR/KVKK) ist ein häufiges Thema.
Ja. Wir haben Pipelines konform zu ISO 27001, SOC2 Type II, PCI DSS, GDPR und KVKK gebaut. Was wir umsetzen: unveränderliche Builds (nicht rückwirkend änderbar), Funktionstrennung (Autor darf nicht deployen), vollständiger Audit-Trail (wer hat wann was freigegeben), verschlüsselte Secrets (Vault/SOPS), Verschlüsselung at Rest + in Transit, MFA-geschützter Produktionszugriff, Vulnerability-Scan bei jedem Build. Auditor-Beweispakete kommen als fertige Vorlagen. Wir haben 6+ Fälle, in denen unabhängige Auditoren unsere Pipelines abgenommen haben — Referenzen verfügbar.
Wird nach einem Release ein Problem entdeckt, zwei Wege. (1) Kubernetes Rollout Undo: die vorige Revision steckt noch in der Deployment-Historie; ein Befehl oder ein ArgoCD-UI-Button — das alte Image ist in Sekunden, nicht Minuten, wieder live. Typisch: 12–25 Sekunden. (2) Bei Datenbankmigration mehr Sorgfalt: erst Reverse-Migration, dann Container-Rollback. Deshalb designen wir Migrationen immer rückwärtskompatibel (NULL-allow → Backfill → NOT-NULL, Zwei-Schritt-Muster). Automatische Rollback-Regel: SLO-Verletzung oder Error-Rate-Spitze stoppt das progressive ArgoCD-Rollout und rollt bei Bedarf zurück. Menschliches Eingreifen ist optional.
Machen Sie Releases zum Nicht-Ereignis.
In einem 30-minütigen Gespräch prüfen wir gemeinsam Ihre Pipeline. Wo die Gewinne liegen, welche Schritte kritisch sind — wir entwerfen einen konkreten 90-Tage-Plan.