Coupure Nagios Centreon

Coupure Nagios Centreon - Réseaux - Systèmes & Réseaux Pro

Marsh Posté le 13-10-2015 à 14:13:26    

Bonjour à tous,
 
Pour commencer, je trouve ce forum vraiment génial !! Avec une grosse communauté comme ça l'informatique devient vraiment plus facile ;-)..
 
Je suis ici pour vous présenter mon problème: Alors voila, je possède une VM sous VMWare avec Nagios-Centreon installés dessus.
 
Tout fonctionne parfaitement bien, mais aléatoirement, la supervision sur des hôtes se coupe et des alertes unknow ou autres remontent..
 
5 minutes plus tard tout redevient normal et la supervision est de nouveau optimale.
 
Ces coupures de check, interviennent vraiment des manières aléatoires et sur des équipement (host ou services) aléatoires..
 
Avez-vous des pistes de recherches à me donner?
 
Problème pouvant venir de l'ESX? Coupures réseaux? Surcharge VM? ....
 
Pour info, la supervision touche plus de 10000 checks, je n'ai jamais eu de souci jusqu'à présent et aucunes modif n'a été faite sur l'infra ou sur la VM =(... Je suis largué !!!
 
Merci pour votre retour et vos idées de pistes,
 
bonne journée à la communauté !!

Reply

Marsh Posté le 13-10-2015 à 14:13:26   

Reply

Marsh Posté le 13-10-2015 à 14:32:06    

Ca le fait sur certains équipements seulement?

Reply

Marsh Posté le 13-10-2015 à 16:13:01    

thom@s78 a écrit :

Ca le fait sur certains équipements seulement?


 
Non malheuresement ca peut toucher n'importe quels équipements... Serveurs, Routeur, Services uniquement, ...

Reply

Marsh Posté le 13-10-2015 à 19:26:10    

C'est quel genre de check qui passe en unknown ?
C'est également random ?
 
Ton temps de réponse moyen aux checks est de combien ?
Car typiquement il me semble qu'un check qui met trop de temps car le moteur est surchargé peut passer en unknown (ou alors c'est critical, je sais plus.)
 
Edit: Je crois en fait me rappeler que quand c'est un check isolé qui timeout ça passe en critical, par contre si c'est le check qui timeout car le moteur est surchargé et a pas pu lancer le check alors ça passe en unknown.
A vérifier/confirmer mais c'est probablement la raison de tes unknown.


Message édité par _lael_ le 13-10-2015 à 19:42:53
Reply

Marsh Posté le 14-10-2015 à 09:14:08    

Bonjour, merci pour ta réponse =)
 
Effectivement, il s'agit bien d'un TimeOut (erreur de ma part :-( !!!! ). je recois des TimeOut de n'importe quels checks, que ce soit pour un CPU_host, un check de TRAP, de ping, de disque, ...
 
C'est vraiment vraiment aléatoire. Et effectivement ca passe en Critical à cause du TimeOut.
 
Concernant mon temps de réponse, il est toujours bon. Pas ou très peu de latence et un temps d'éxecution autour de 0.5/0.7 secondes
 
Qu'entends-tu par check isolé?
 
Merci pour ta réponse =)
 
Bonne journée
 

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed