IT-Management & Infrastruktur

Ein Server ist ausgefallen. Es ist 03:14.
Ihr Team schläft. Wir nicht.

24/7-Monitoring, proaktives Patch-Management, Asset-Inventar, Runbooks und Automation — statt eines internen IT-Aufbaus oder als Kraftverstärker daneben. Ein NOC, das Vorfälle vor dem Eintreten erkennt und in 8 Minuten reagiert, wenn es doch passiert.

IT muss unsichtbar sein. Wenn alles läuft, merkt niemand etwas — das ist der beste Zustand. Unsere Metrik: weniger Incidents, kürzere MTTR, höhere stabile Uptime.

noc.partnerfy / live tenant: acme-corp · 03:14:27 UTC
Rack A · 6 Units 5/6 OK
srv-01
srv-02
srv-03
srv-04
srv-05
srv-06
Telemetrie · 60s live
CPU %42%
MEM %67%
NET Mb/s812 Mb/s
Event-Feed 3 active
Disk 78% on srv-04 03:14
Backup job completed 03:12
Patch deployed to 12 endpoints 03:09
High CPU on db-02 (94%) 03:07
Failover restored on srv-04 03:05
Cert renewed: api.acme.com 03:03
Auth spike from 45.62.10.0/24 03:01
Snapshot finalized — Rack A 02:58
Disk 78% on srv-04 03:14
Backup job completed 03:12
Patch deployed to 12 endpoints 03:09
High CPU on db-02 (94%) 03:07
Failover restored on srv-04 03:05
Cert renewed: api.acme.com 03:03
Auth spike from 45.62.10.0/24 03:01
Snapshot finalized — Rack A 02:58
Topologie · Paketfluss link OK
FW RTR SW AP-01 AP-02 PC-1 PC-2 PC-3
Uptime 99,96%

Feuerwehr-Modus

IT ist kein Kostenposten. IT ist die Disziplin, die Stille aufrechterhält.

In den meisten Firmen wird IT erst bemerkt, wenn etwas kaputtgeht. Helpdesk-Rückstaus, "der Drucker geht wieder nicht"-Meldungen, Mitternachtsanrufe, gesperrte Bildschirme am Montagmorgen — das sind keine Zeichen fehlender IT, sondern unsystematischer IT. Ohne Disziplin wird ein Drittel des Arbeitstages zur Kerzenjagd.

Ohne Monitoring erfahren Sie von Incidents, wenn Kunden anrufen — nicht beim Eintreten. Ohne definierte Patch-Cadence hören Sie von Zero-Days Wochen nach dem Hit. Ohne aktuelles Asset-Inventar weiß niemand, welche Maschine welche Lizenz mit welcher Laufzeit hat. Ohne Dokumentation gehen 70% des Systemwissens raus, wenn der Senior-ITler kündigt.

Ohne Playbooks ist jeder Incident eine Erfahrung, die jemand irgendwo gelernt hat; die Reaktionszeit hängt am Gedächtnis. Ohne Automation dauert Onboarding einen Tag, Offboarding drei, eine Mail-Berechtigungsänderung einen halben — alles klick-für-klick. Netto: die Stunden, die in die Brandbekämpfung gehen, fressen die Zeit für die echte Arbeit auf.

In Compliance-lastigen Branchen (Finanzen, Gesundheit, Fertigung) ist diese IT-Lücke kein theoretisches Risiko. Sie fallen durch Audits, verlieren Verträge. ISO 27001, DSGVO, KVKK, HIPAA-Äquivalente — alle verlangen einen systematischen IT-Audit-Trail: wer hat wann was getan, welcher Patch lief auf welcher Maschine in welchem Fenster, welche Logs wurden wie lange aufbewahrt. Ohne System ist das nicht beantwortbar.

Die Lösung ist nicht eine weitere Einstellung. Die Lösung ist ein System — Monitoring, Inventar, Patching, Runbooks, Automation — alles miteinander verbunden. Hier beginnt die Arbeit von Partnerfy: Ist-Zustand kartieren, fehlende Schichten von Null bauen, dann kontinuierlich verbessern. Nicht den Menschen ersetzen — neben ihm oder anstelle von ihm, je nach Wunsch.

Vorher/Nachher · MTTR

Vom chaotischen Serverraum zu einem einzigen gemessenen Panel.

Typische IT-Landschaft vor uns: Schränke irgendwo hingequetscht, VLANs, die niemand komplett kennt, Ersatzplatten beim Lieferanten, Antivirus 2023 abgelaufen. Nach uns: ein einziges NOC-Panel, automatisierte Patch-Fenster, MTTR auf die Minute gemessen, Runbooks live in einer digitalen Workspace.

Vor uns

Unverwalteter Stack

  • x kein Monitoring
  • x Asset-Inventar in Excel
  • x keine Patch-Cadence
  • x Docs verstreut
  • x keine Runbooks
  • x MTTR > 4h

Mit uns

Verwalteter, überwachter Stack

  • + 24/7-Monitoring (Datadog)
  • + CMDB-Asset-Inventar
  • + monatliche Patch-Fenster
  • + ein Docs-Hub
  • + 14 Runbooks · stets aktuell
  • + MTTR < 22 min

Live-MTTR

Incident-Uhr

00:08:14 aktueller Incident

30-Tage-Ø

21:48

Branchen-Ø: 4h 12min

03:14:00 erkannt · srv-04 Disk 78%
03:15:42 Triage · Runbook RB-12
03:18:09 Fix · Log-Rotation
03:22:14 gelöst · Disk 42%

Warum wir messen

Drei Metriken sagen 85% der IT-Gesundheit.

MTTD

5 min

<?php echo e($tr(["tr"=>"olayı görme süresi","en"=>"time to detect","de"=>"Zeit bis Erkennung"])); ?>

MTTR

22 min

<?php echo e($tr(["tr"=>"çözüme kadar süre","en"=>"time to recover","de"=>"Zeit bis Recovery"])); ?>

Uptime

99.96%

<?php echo e($tr(["tr"=>"aylık çalışma","en"=>"monthly uptime","de"=>"monatliche Uptime"])); ?>

MTTD senken ist Aufgabe der Monitoring-Qualität. MTTR senken ist Aufgabe von Runbooks + Automation. Hohe Uptime ist die Folge beider Senkungen. Alle drei werden monatlich berichtet, vierteljährlich auf Ziel gebracht.

Für wen

Acht Unternehmenstypen, die IT als Flow wollen — nicht als einzelnen Helden.

01

50+ Mitarbeiter KMU

Keine dedizierte IT; der technikaffinste Mitarbeiter macht IT nebenher — brennt aus, Firma bleibt exponiert. Erst Kontrolle, dann Übergabe.

02

Professional Services

Kanzlei, Audit, Beratung — DSGVO + ISO 27001 + Mandanten-NDAs gleichzeitig. Ohne IT-Audit-Trail keine Vertragsverlängerung.

03

Fertigung OT/IT-Mix

PLC, SCADA, Industrienetz + Office-IT. Patchen ohne Produktionsstopp, OT segmentieren, OT-Security einhalten.

04

Multi-Site Retail

30-100 Filialen mit POS + Wi-Fi + IP-Kamera + Zahlungsgerät. Ein Monitoring-Pane; MTTR pro Site; null Zahlungs-Ausfall.

05

Bildung

Hunderte Schüler-/Lehrergeräte; Klassen-MDM, Schülernetz-Isolation, Prüfungstags-Uptime kritisch.

06

Gesundheit & Kliniken

HIPAA-äquivalente Patientendaten, PACS/EMR, Termin-Software — null Datenverlust, null Ausfalltoleranz.

07

Hospitality & Hotels

Gäste-Wi-Fi + Internes Netz + PMS + Restaurant-Systeme. Gäste-Internet-Problem = Rating-Drop = Umsatzverlust.

08

Financial Services

Broker, Payment-Ops, Neobanks — vertragliche SLAs, Regulator-Audit-Ready, P0-Reporting in Minuten.

10-schichtiges IT-Management

Jede Schicht gemessen. Jede Schicht reported. Jede Schicht unter SLA.

IT-Management ist nicht "draufschauen, wenn es kaputt ist". Zehn Disziplinen laufen parallel; ist eine schwach, kompensieren die anderen nicht. Alle Schichten unten werden von einem Team in einem Dashboard betrieben.

01

24/7-Monitoring (NOC)

Server, Netz, Apps, Cloud, Endpoints — Telemetrie fließt in ein Review-Pane. Anomalie-Erkennung + On-Call-Eskalation.

02

Endpoint-Management

Alle PCs, Macs, Server remote im Inventar + Management via RMM. Zertifikat-Rollout, Script-Ausführung, Zero-Touch-Deploys.

03

Patch-Management

OS + Apps + Firmware. Test-Ring → Pilot → Rollout-Fenster. Same-Day Out-of-Band-Patch für kritische CVEs.

04

Asset-Inventar & Lifecycle

Jedes Gerät, Lizenz, Garantie, Nutzer, Standort in einer CMDB. Refresh-Plan, Tausch vor Ausfall, EOL-Kalender.

05

Netzwerk-Management

Switch, Router, AP-Konfiguration (NCM), VLAN-Segmentierung, QoS, Kapazitätsplanung, Kabel-Beschriftungsstandard.

06

Firewall-Management

Regel-Review, IDS/IPS, Threat-Feed-Integration, Egress-Filter, VPN-Wartung, Zero-Trust-Migration.

07

Identity & SSO

Active Directory / Azure AD / Okta — User-Lifecycle, MFA, RBAC, JIT-Privilegien, 5-Minuten-Offboarding.

08

Mobile Device Management

Intune, JAMF, Workspace ONE — Firmen-Mobiles, BYOD-Trennung, Remote-Wipe, Compliance-Policies.

09

Backup-Aufsicht

3-2-1-Strategie, täglicher Erfolgsbericht, monatlicher Restore-Drill, immutable Kopien, Ransomware-Playbook.

10

Runbooks & Dokumentation

14+ Runbooks (Incident, Change, Patch, Onboarding, Offboarding, Restore, DR) — versioniert, durchsuchbar, stets aktuell.

Onboarding-Prozess

Vom Audit zur vollen Automation: 6 Schritte, 12 Wochen.

  1. 01

    Woche 1-2 · Audit

    Server, Netz, Endpoints, Lizenzen, Nutzer kartieren. Risiko-Score. Liste fehlender Kontrollen.

  2. 02

    Woche 2-3 · Asset-Inventar

    Discovery-Scan; CMDB-Import; Besitzer, Standort, Lifecycle-Stage pro Gerät.

  3. 03

    Woche 3-5 · Monitoring-Setup

    Server-, Netz-, App-Agenten verteilen; Baselines bilden; Alert-Schwellen tunen.

  4. 04

    Woche 4-7 · Runbook-Erstellung

    Step-by-Step-Runbook für die 14 häufigsten Szenarien; Review + Freigabe; in durchsuchbarem Hub.

  5. 05

    Woche 6-10 · Automation

    Onboarding, Offboarding, Patch-Deploy, Backup-Verify, Cert-Erneuerung — Scripts + Workflows.

  6. 06

    Woche 10+ · Kontinuierliches Tuning

    Monatliches Review · Tweaks an MTTR/MTTD/Uptime; vierteljährliche Dashboard-Erweiterung.

Eingesetzte Tools

Industriestandard für Monitoring, RMM und Security-Stack.

Wir behalten und betreiben Ihre vorhandenen Tools; fehlende Schichten füllen wir mit neuen. Bei Renewal: Consulting + effizienteste Konsolidierungsempfehlung.

Datadog New Relic Nagios Zabbix PRTG SolarWinds Microsoft Intune JAMF ConnectWise Atera NinjaOne Auvik ManageEngine Wazuh

Kunden-Ergebnisse

Selbe Methode. Drei Branchen. Drei verschiedene Wins.

Fertigung -76% Downtime

Auto-Zulieferer

PLC-Netz segmentiert, OT/IT-Brücke standardisiert. Line-Downtime in 12 Monaten −76%; Produktionsverlust-Posten aus dem Budget gestrichen.

Services ISO 27001

Kanzlei (180 MA)

DSGVO + ISO 27001 in 4 Monaten; 0 Major-Findings beim ersten Audit. Enterprise-Mandanten-NDAs erfüllt.

Retail 47 Filialen

47-Filialen-Kette

47 Sites in einem NOC-Dashboard; ø POS-Uptime 99,96%; automatisches Failover bei Nacht-Ausfällen.

Gesundheit 100% Restore

Multi-Standort-Klinik

Backup- + Restore-Drills für PACS standardisiert; 100% monatliche Erfolgsquote. HIPAA-Audit-ready.

Bildung 1.200 Geräte

Privatuni

1.200+ Studentengeräte ins MDM; Prüfungstags-Uptime 100%; Semester-Onboarding 14 → 3 Tage.

Finanzen 100% SLA

Brokerage

P0-SLA 15 Min; 100% Zielerreichung über 18 Monate. Regulator-Audit: 0 Findings, 2 Best-Practice-Noten.

Häufige Fragen

Die 8 häufigsten Fragen zum IT-Management

Ja — das ist unser häufigstes Modell. Zwei Strukturen: (a) Ihr Inhouse-Team macht L1 + Tagesgeschäft, wir L2/L3 + Infrastruktur-Architektur + 24/7-Monitoring; (b) wir ergänzen Ihr Team um eine spezifische Spezialität (Netz, Security, Cloud). In der ersten Woche werden Rollenabgrenzungen und Eskalationspfade schriftlich publiziert; beide Seiten wissen, wer was anfasst. Nicht ersetzen — die Kapazität Ihres Teams vervielfachen.
Telemetrie fließt von Servern, Netz, Apps, Cloud und Endpoints. Datadog / New Relic / Wazuh-Agenten werden installiert; Baselines bilden sich in 30 Tagen, dann übernimmt Anomalie-Erkennung. Wenn ein Alert feuert, filtern Auto-Triage-Regeln False Positives, echte Incidents eskalieren zum On-Call-Engineer. Auch in ruhigen Stunden decken zwei Schichten menschliche Augen ab. Ihre Eskalationsmatrix wird gemeinsam verfasst: wer wird wann bei welchem Event gerufen.
Drei Stufen. Standard: P0 (kritisch / Geschäft steht) 30 Min Reaktion + 4 Std Lösungsziel, P1 1 Std / 8 Std, P2 4 Std / 1 Werktag. Business: P0 15 Min / 2 Std, P1 30 Min / 4 Std, P2 2 Std / Werktag. Enterprise: P0 8 Min / 1 Std, P1 15 Min / 2 Std, Dual-On-Call. SLA-Performance wird monatlich berichtet; Vertragsklausel für Kredit bei verfehlten Monaten. SLA-Wahl wird je nach Geschäftskritikalität gemeinsam getroffen.
Das ist der Fall bei den meisten unserer Kunden. AWS-, Azure-, GCP-Workloads + Büro-Serverraum + Remote-Mitarbeiter — alles in einer CMDB und einer Monitoring-Schicht. Hybrid-SD-WAN, Azure Arc, AWS Systems Manager, Tailscale brücken Cloud und Prem. Pro Workload eine "Richtiger-Ort"-Entscheidung (Cloud-Fit-Analyse) — Low-Utilisation nach On-Prem, elastische Last in die Cloud. Wir liefern einen jährlichen Cost-Optimisation-Report.
Monitoring: Datadog / New Relic / Zabbix / PRTG (je nach Bedarf); RMM: NinjaOne / Atera / ConnectWise; MDM: Microsoft Intune und JAMF; Netzwerk-Monitoring: Auvik und SolarWinds; Security: Wazuh + EDR (CrowdStrike / SentinelOne / Defender for Endpoint); Docs: IT Glue oder Confluence; Ticketing: Jira Service Management oder Freshservice. Wir reißen keine bestehenden Tools heraus; wir integrieren in Ihr Ökosystem und füllen nur die fehlenden Schichten.
In den ersten 2 Wochen läuft Discovery: jedes netzangebundene Gerät wird gefunden (RMM-Agent + Netz-Scan + AD/Azure-AD-Integration kombiniert). Dann erhält jedes Gerät Besitzer, Standort, Service-Rolle, Lifecycle-Stage. Lizenzen werden aus Microsoft-365- / Adobe- / branchenspezifischen CAD/ERP-Verträgen gezogen; aktiv/inaktiv abgeglichen. Die CMDB bleibt live; jede Hardware-Ein-/Ausgang spiegelt sich automatisch. Das resultierende Inventar ist Basis des ersten Lieferreports und für Versicherung / Steuer / Abschreibung nutzbar.
Ein drei-Ring-Patch-Prozess. Test-Ring (Lab + einige Freiwillige) → Pilot-Ring (ausgewählte 10% einer Abteilung) → Production-Ring (gesamte Flotte). Zwischen jedem Ring ein Validierungsfenster (meist 48-72 Std). Für das monatliche Standard-Fenster brauchen Sie keine Einzelgenehmigung; der Prozess steht im Vertrag. Bei einem Out-of-Band-Kritisch-CVE: Change-Advisory-Call innerhalb 4 Std, gemeinsame Freigabe. Alle Patch-Logs werden kontinuierlich archiviert; für ISO/SOC-Audits zeigen wir 3 Jahre rückwärts.
Drei Modelle. Per-Endpoint: fester Monatsbetrag pro PC + Server + Netzgerät; am häufigsten bei kleinen und mittelgroßen Teams. Tier: fixes Monats-Bundle mit Incident-Anzahl + Stunden; Pay-as-you-go darüber. Voll-Outsourced: fester Monats-Retainer statt vollem IT-Department; macht das IT-Budget planbar. Im ersten Gespräch rechnen wir Ihre aktuelle Kostenlinie (Lizenzen + Personal + externe Hilfe + Ausfallkosten) gemeinsam aus; die Kosten der Zusammenarbeit zeigen wir daneben.

Lassen Sie IT keine Brandbekämpfung mehr sein, sondern stille Disziplin.

In einem kostenfreien 30-Minuten-Gespräch prüfen wir Ihre aktuelle IT und liefern die 3 Prioritäten, die Uptime nach oben und MTTR nach unten bringen — in den ersten 90 Tagen.

Treffer