Admin-freundliche Nagios-Plugins für NetApp
Nagios-Plugins für NetApp
Das Monitoring-Framework Nagios alarmiert bei Abweichungen vom Normalbetrieb und zeichnet Messwerte auch langfristig auf. Nagios eignet sich auf Grund seiner Flexibilität für die Überwachung komplexer und heterogener IT Infrastrukturen.
Nagios-Plugins für NetApp sind eine professionell entwickelte und getestete Suite an Checkskripts, die es erlaubt, NetApp-Geräte (oder auch die N-Series von IBM) umfassend von Nagios überwachen zu lassen.
Kundenzufriedenheit
Bereits vor Veröffentlichung der stabilen Version werden Testversionen an ausgewählte Kunden verkauft und dort produktiv eingesetzt. Trotz zum Teil mehrmonatiger Testzeiträume, in denen die Plugins ohne Bezahlung hätten zurück gegeben werden können, hat keiner meiner Kunden bisher von diesem Recht Gebrauch gemacht.
0% Rückgabe - 100%ige Kundenzufriedenheit
(seit Februar 2009)
Alleinstellungsmerkmale
- Strukturierte, einheitliche Authentifizierung und Datenabfrage (HTTP/XML). Aus guten Gründen verwenden wir nicht SNMP.
- Einheitliches Interface und Ausgabe
- Implementierungs- und wartungsfreundlich ⇒ stabile Konfiguration im Nagios
- Umfangreiches, laufend erweitertes Angebot an überwachten Werten (Auslastung Volumes und Aggregate, SnapReserve, Lag-Time, SnapVaults, SnapMirrors, Cluster, Hardware, Latency, ...)
- Rasche, unkomplizierte Reaktion auf Kundenwünsche (siehe Referenzen)
- Langfristige Planung und Entwicklung (siehe Roadmap).
Entwicklungsziele
In Zusammenarbeit mit meinen Kunden entwickle ich Plugins, die sich rasch und stabil implementieren lassen.
Professionell entwickelte und getestete Plugins sparen viel Zeit bei der Implementierung und Wartung
Folglich betreiben wir bei der Planung, der Entwicklung und den Tests einigen Aufwand - der dann bei jeder Implentierung viel Zeit und Nerven spart. Die Plugins lassen sich einfach und mit minimalem Aufwand in Nagios einbinden und warten. Folgend einige Features die diesen Leitgedanken beispielhaft illustrieren:
- Die Plugins authentifizieren sich beim NetApp-Filer mittels Benutzername und Passwort; die Benutzerdaten können auch für alle Plugins zentral in einer Textdatei hinterlegt werden. Die Übertragung erfolgt verschlüsselt.
- Alle Plugins fragen ihre Daten via HTTPS direkt von der NetApp-API ab, Freischaltungen an der Firewall für SNMP, SSH oder andere Protokolle sind nicht mehr nötig.
- Mehrfache Instanzen (Aggregate, Volumes, SnapMirrors, ...) werden vom Plugin dynamisch erkannt und überwacht. Das Auflisten, Nachtragen oder Löschen von z.B. Volumes für die Auslastungsüberwachung ist nicht mehr nötig. Das reduziert den Aufwand bei der Implementierung und erhöht die Stabilität des Monitorings vor allem auch langfristig.
Overall-Checks (dynamische Erkennung mehrfacher Instanzen)
Dies ist zum Beispiel interessant für Volumes, Aggregate oder Platten aber auch Hardwarechecks, denn das manuelle Hinzufügen eines eigenen Servicechecks für jedes Volume oder jedes Netzteil ist nicht nur mühsam sondern auch fehleranfällig - vor allem wenn man bedenkt, dass man das Monitoring laufend den sich verändernden Gegebenheiten anpassen muss.
Besser sind hier Checks die selbst erkennen, welche Instanzen (Platten, Volumes, ...) es gerade gibt: Der Aufruf von zum Beispiel
$ check_netapp_disk.pl -H toaster -u nagios%mypass
prüft den Status aller zur Laufzeit existenten Platten am Netapp-Filer. Die Darstellung erfolgt dann zunächst sehr übersichtlich in nur einer Zeile.
Ein Klick auf Disks, zeigt dem Admin dann die Details.
Sobald der Check eine fehlerhafte Platte am NetApp-Filer erkennt, verändert sich die Anzeige:
Nun werden die Details wie die ausgefallen Platten zusammen mit dem Grund für den Ausfall angezeigt.
Leistungsumfang der Nagios-Plugins für NetApp
Aktuell (März 2011) stehen 14 Nagios-Plugins für die Überwachung verschiedenster Aspekte auf NetApp-Geräten zur Verfügung. Diese gliedern sich in die folgenden Gruppen:
- Bundles: Pakete bestehend aus mehreren Plugins
- Caches: Buffer Cache, FlashCache und FlexCache
- Hardware: Broken Disks, Temperatur, Ventilatoren, Stromversorgung, nvram
- Management: Überblick und Grundlagen für Entscheidungsträger
- Netzwerk: Statistiken je Netzwerkinterface (ifnet): Transferraten in Byte (send/receive), Fehler pro Sekunde, Multicasts, Collisions, ...
- Performance: Operations per Second (HTTP, CIFS, ...), Transferraten (Netzwerk, Disks), Utilization in % (Prozessor, Disk), Performance je Volume (latency, ops)
- Snap: Verfügbare Snapsize, Lag-Time und Transfer-Errors von SnapMirrors und SnapVaults, Auslastung der Snap-Reserve
- Speicherplatz: Verfügbarer Speicherplatz in den Aggregaten und Volumes, Quotas
- Status: Globaler System-Status, Cluster-Status, Status (online/offline) der iSCSI-Adapter, RAID-Status von Aggregaten und Volumes
- Verschiedene: Sonstige Tools, Module und Dokumentation
Gesamtverzeichnis mit kurzer deutschsprachiger Funktions-Beschreibung je Plugin: [PDF] check_netapp: Leistungsbeschreibung.
