Daher schrieb ich mit „Monitoring 101“ einen umfassenden Leitfaden zu den Grundlagen des Monitorings. Dieses Anbieter-agnostische eBook beschreibt in einfachen Worten, wie jede der Handvoll (okay, mehr als zwei Handvoll) von Techniken, die die Grundlage für 90 Prozent aller Überwachungslösungen bilden, funktioniert und warum und wann sie verwendet werden sollten.
Der Leitfaden ist zu einer wertvollen Ressource für Monitoring-Spezialisten geworden und auch für neue Kollegen geeignet, die mit Monitoringdaten täglich hantieren. Es hilft jedem zu verstehen, was unter der Haube passiert, wo die Beschränkungen liegen und welche anderen Optionen zur Verfügung stehen.
Das war ein guter Anfang, aber es ist an der Zeit, diesen Leitfaden zu aktualisieren und zu erweitern. In dieser Ausgabe möchte ich das nächste große Problem in Angriff nehmen, das ich in den meisten Unternehmen gefunden habe: Überwachung, die nicht wirklich zu sinnvollem Handeln führt.
Was ich meine ist, dass, sobald die Leute die Grundlagen der Überwachung verstehen und eine vernünftige ausreichende Softwarelösung vorhanden ist, beginnen sie mit der Datenerfassung, die standardmäßig zur Verfügung steht, selbst wenn diese Daten keine wirklich aussagekräftige Geschichte erzählen. Dies veranschaulicht, dass die Leute ein hohes Maß an Vertrauen in die Metriken haben, die die Software ihnen zur Verfügung stellt.
Es sei darauf hingewiesen, dass dieses Vertrauen in den meisten Fällen angebracht ist. Ich kenne nur sehr wenige Produkte, die falsche oder bedeutungslose Daten sammeln. Aber ich habe viele Kollegen getroffen, die nicht beschreiben können, warum eine bestimmte Metrik nützlich oder notwendig ist.
Solange die Datenbank oder der Speicherpatz sich nicht über die Anzahl der erfassten Daten beschwert, werden Daten gesammelt und verarbeitet, die nie benutzt werden.
Aber wenn Alerts aktiviert sind, sorgt die Sammlung von Überwachungsdaten dafür, dass die IT-Leute Zeit verschwenden. Wissen Sie, was falsch ist an einem Alarm, der bei einer CPU-Auslastung von über 90 Prozent ausgelöst wird? Alles. Er sagt nichts darüber aus, was schiefläuft, oder auch nicht, wenn etwas schiefläuft. Wenn ich als SysAdmin einen Server sehe, der konstant mit 90 Prozent läuft und mit seiner Arbeitslast schritthält, dann nenne das „richtig dimensioniert“.
Wahrscheinlich tun Sie das auch. Aber was Sie wirklich wissen möchten, ist, wenn die Anzahl der Jobs, die auf die CPU warten, größer ist als die Anzahl der CPUs im System bei gleichzeitig hoher CPU-Auslastung und das für eine eine beträchtliche Zeitspanne. Besser noch, die Warnung sollte mir sagen, welche laufenden Prozesse aktiv waren, als die Warnung erfolgte.
Diese Informationen vermitteln einen klaren Eindruck darüber, was falsch läuft und wie man Fehler beheben kann.
Das sind die Themen, die in diesem Leitfaden behandelt werden. Viel Vergnügen beim Lesen.
Neueste Kommentare
Noch keine Kommentare zu Übergang vom einfachen Monitoring und Alarmen zu #MonitoringGlory
Kommentar hinzufügenVielen Dank für Ihren Kommentar.
Ihr Kommentar wurde gespeichert und wartet auf Moderation.