Diagnostiquer un problème de connectivité avec Nagios

Nous avions un problème récurent de connectivité entre deux de nos datacenters ce qui provoquait de nombreux faux-positifs dans Nagios.
N’étant pas maître de notre infrastruture de réseaux entre les deux sites nous avions du mal à diagnostiquer d’où venait le souci : de quel opérateur réseau venait le problème.
J’ai donc décidé d’utiliser la fonction d’event handler de Nagios pour lancer immédiatement à la détection d’un Host Down un mtr (mix entre traceroute et ping) afin de savoir où se situait la perte de paquet.

Le script que nous utilisons est consultable sur mon Github.

La configuration de Nagios est relativement simple :

  • Dans la définition de votre host vérfier que event_handler_enabled est à 1
  • Dans nagios.cfg vérfier que enable_event_handlers est à 1 et définissez « global_host_event_handler=mtr »
  • Enfin dans commands.cfg définissez une nouvelle commande nommée mtr :
    define command{
            command_name mtr
            command_line /usr/lib/nagios/plugins/mtr.sh -H $HOSTADDRESS$ -N $HOSTNAME$ -S $HOSTSTATE$ -T $HOSTSTATETYPE$ -A $HOSTATTEMPT$ -m alert@example.com
            }
Lors de la détection d’un Host Down, le serveur Nagios execute tout de suite le script et envoie par email le résultat du MTR.
Cette configuration nous a permis de savoir tout de suite d’où provenait le souci !

 

Share
  1. Une petite typo :
    « de quel était l’opérateur réseau venait le problème. »

  2. @xew : merci, corrigé !

Laisser un commentaire