Admin-freundliche Nagios-Plugins für NetApp
Nagios-Plugins für NetApp
Das Monitoring-Framework Nagios überwacht, zeichnet auf und alarmiert Abweichungen vom Normalbetrieb und eignet sich für die Überwachung auch sehr komplexer und heterogener IT Infrastrukturen.
Die Nagios-Plugins für NetApp sind eine professionell entwickelte und getestete Suite an Checkskripts, die es erlauben, NetApp-Geräte umfassend von Nagios überwachen zu lassen.
Alleinstellungsmerkmale
- Strukturierte, einheitliche Authentifizierung und Datenabfrage (HTTP/XML). Aus guten Gründen verwenden wir nicht SNMP.
- Einheitliches Interface und Ausgabe
- Implementierungs- und wartungsfreundlich ⇒ stabile Konfiguration im Nagios
- Umfangreiches, laufend erweitertes Angebot an überwachten Werten (Auslastung Volumes und Aggregate, SnapReserve, Lag-Time, SnapVaults, SnapMirrors, Cluster, Hardware, ...)
- Rasche, unkomplizierte Reaktion auf Kundenwünsche.
- Langfristige Planung und Entwicklung (siehe Roadmap).
Entwicklungsziele
In Zusammenarbeit mit meinen Kunden entwickle ich Plugins, die sich rasch und stabil implementieren lassen.
Professionell entwickelte und getestete Plugins erleichtern die Implementierung und Wartung
Folglich wird bei der Planung, Entwicklung und den Tests nicht gespart. Komplexität und Aufwand bei der Programmierung nehme ich gerne in Kauf, wenn die Plugins sich dadurch einfacher in Ihr Nagios einbinden und warten lassen. Folgend einige Features die diesen Leitgedanken beispielhaft illustrieren:
- Alle Plugins authentifizieren sich beim NetApp-Filer mittels Benutzername und Passwort; entweder mit dem Schalter
-u <username%pass>oder einer Textdatei, die mittel-f <dateiname>spezifiziert wird. - Alle Plugins fragen ihre Daten via HTTP in XML-Form von der NetApp-API ab, Freischaltungen an der Firewall für SNMP, SSH oder andere Protokolle sind nicht mehr nötig. Auf Wunsch kann auch SSL Verschlüsselung implementiert werden.
- Mehrfache Instanzen (Aggregate, SnapMirrors, ...) werden vom Plugin automatisch erkannt und überwacht. Das Auflisten, Nachtragen oder Löschen von z.B. Aggregaten für die Auslastungsüberwachung ist nicht mehr nötig. Das reduziert den Aufwand bei der Implementierung und erhöht die Stabilität des Monitorings vor allem auch langfristig.
Overall-Checks (dynamische Erkennung mehrfacher Instanzen)
Dies ist zum Beispiel interessant für Volumes, Aggregate oder Platten aber auch Hardwarechecks, denn das manuelle Hinzufügen eines eigenen Servicechecks für jedes Volume oder jedes Netzteil ist nicht nur mühsam sondern auch fehleranfällig - vor allem wenn man bedenkt, dass man das Monitoring laufend den sich verändernden Gegebenheiten anpassen muss.
Besser sind hier Checks die selbst erkennen, welche Instanzen (Platten, Volumes, ...) es gerade gibt: Der Aufruf von zum Beispiel check_netapp_disk -H toaster -u nagios%mypass prüft den Status aller zur Laufzeit existenten Platten am Netapp-Filer. Die Darstellung erfolgt dann zunächst sehr übersichtlich in nur einer Zeile.
Ein Klick auf Disks, zeigt dem Admin dann die Details.
Sobald der Check eine fehlerhafte Platte am NetApp-Filer erkennt, verändert sich die Anzeige:
Nun werden die Details wie die ausgefallen Platten zusammen mit dem Grund für den Ausfall angezeigt.
Leistungsumfang der Nagios-Plugins für NetApp
Aktuell (November 2009) stehen 15 Nagios-Plugins für die Überwachung verschiedenster Aspekte auf NetApp-Geräten zur Verfügung. Diese gliedern sich in die folgenden Gruppen:
- Hardware: Broken Disks, Temperatur, Ventilatoren, Stromversorgung, nvram
- Netzwerk: Statistiken je Netzwerkinterface (ifnet): Transferraten in Byte (send/receive), Fehler pro Sekunde, Multicasts, Collisions, ...
- Performance: Operations per Second (HTTP, CIFS, ...), Transferraten (Netzwerk, Disks), Utilization in % (Prozessor, Disk), Performance je Volume (latency, ops)
- Snap: Verfügbare Snapsize, Lag-Time und Transfer-Errors von SnapMirrors und SnapVaults, Auslastung der Snap-Reserve
- Speicherplatz: Verfügbarer Speicherplatz in den Aggregaten und Volumes, Quotas
- Status: Globaler System-Status, Cluster-Status, Status (online/offline) der iSCSI-Adapter, RAID-Status von Aggregaten und Volumes
- Verschiedene: Sonstige Tools, Module und Dokumentation
Ein gesamtes Verzeichnis der aktuell lieferbaren Plugins mit kurzer deutschsprachiger Funktions-Beschreibung je Plugin finden Sie in der PDF Datei check_netapp: Leistungsbeschreibung.
Detaillierte technische Information im Whitepaper NetApp-Plugins für Nagios.
