Jeder kennt die Zahl: 99,9% Uptime. Steht im Vertrag, klingt solide, und am Ende des Quartals rechnet jemand aus, ob der Wert eingehalten wurde. Das Problem: Die Zahl ist fast bedeutungslos.

Was 99,9% wirklich bedeutet

99,9% Uptime erlaubt rund 8,7 Stunden Ausfall pro Jahr. Das klingt nach wenig. Aber die Frage ist: Ausfall wovon? Der Server läuft, aber die API antwortet mit 500er-Fehlern – ist das Uptime? Der Login funktioniert, aber die Suchfunktion hängt – sind wir verfügbar?

Uptime misst, ob eine Maschine läuft. Nicht, ob der Dienst funktioniert. Nicht, ob Nutzer zufrieden sind.

SLIs messen, was zählt

Ein Service Level Indicator (SLI) misst ein konkretes Verhalten aus Nutzersicht. Zum Beispiel:

  • Verfügbarkeit: Anteil der HTTP-Requests mit Status < 500
  • Latenz: Anteil der Requests, die unter 200ms beantwortet werden
  • Korrektheit: Anteil der Suchanfragen, die ein Ergebnis liefern

Der Unterschied ist fundamental: Ein SLI fragt nicht “läuft die Maschine?”, sondern “funktioniert der Dienst für den Nutzer?”.

SLOs geben dem Ganzen einen Rahmen

Ein SLI allein ist ein Messwert. Erst das Service Level Objective (SLO) macht ihn steuerungsrelevant: “99,5% der Requests werden unter 200ms beantwortet, gemessen über 30 Tage.”

Das ist präzise. Messbar. Und vor allem: Es erlaubt eine rationale Diskussion. Wenn das Error Budget aufgebraucht ist, wird nicht deployed. Wenn noch Budget da ist, darf man Risiken eingehen. Kein Bauchgefühl, sondern Daten.

In der Praxis

Ich habe in mehreren Projekten erlebt, wie der Wechsel von “Uptime” zu SLI/SLO die Zusammenarbeit zwischen Betrieb und Entwicklung verändert hat. Plötzlich gab es eine gemeinsame Sprache. Keine Schuldzuweisungen mehr, sondern eine Zahl, auf die sich alle einigen konnten.

Der erste Schritt ist simpel: Ein bis zwei SLIs definieren, die das Nutzerverhalten abbilden. Nicht zehn. Nicht null. Zwei.

Danach ein SLO setzen, das ambitioniert, aber erreichbar ist. Und dann messen. Vier Wochen. Dann anpassen.

Uptime-Prozente sind Relikte aus einer Zeit, in der Server physisch im Keller standen. In verteilten Systemen brauchen wir bessere Werkzeuge. SLIs und SLOs sind genau das.