IPMI : valeur incorectte ou incompréhension : Drive Fault [RESOLU]

IPMI : valeur incorectte ou incompréhension : Drive Fault [RESOLU] - Hardware - Linux et OS Alternatifs

Marsh Posté le 20-04-2009 à 10:41:08    

Bonjour,
 
Sur un serveur dell poweredge :  

Code :
  1. ipmitool  chassis status
  2. System Power         : on
  3. Power Overload       : false
  4. Power Interlock      : inactive
  5. Main Power Fault     : false
  6. Power Control Fault  : false
  7. Power Restore Policy : always-off
  8. Last Power Event     :
  9. Chassis Intrusion    : inactive
  10. Front-Panel Lockout  : inactive
  11. Drive Fault          : true
  12. Cooling/Fan Fault    : false
  13. Sleep Button Disable : not allowed
  14. Diag Button Disable  : not allowed
  15. Reset Button Disable : not allowed
  16. Power Button Disable : allowed
  17. Sleep Button Disabled: false
  18. Diag Button Disabled : false
  19. Reset Button Disabled: false
  20. Power Button Disabled: true


 
Comme vous le voyez tous la ligne suivante est importante :  
Drive Fault          : true
 
Par contre, les disques vont bien ... (MegaCli dit que tout va bien, les LED en facade sont toutes au verte).
 
Auriez vous une explication ?


Message édité par gug42 le 20-04-2009 à 16:38:28
Reply

Marsh Posté le 20-04-2009 à 10:41:08   

Reply

Marsh Posté le 20-04-2009 à 10:51:03    

Ca veut surement dire qu'il est prévu qu'il rapporte une erreur en cas de problème sur les disques (peut être sur son LCD externe par exemple)


---------------
uptime is for lousy system administrators what Viagra is for impotent people - mes unixeries - github me
Reply

Marsh Posté le 20-04-2009 à 11:01:26    

Erf si c'est, je ne peux me servir de ce paramètre pour monitorer l'état des disques :'( ...

Reply

Marsh Posté le 20-04-2009 à 11:03:17    

en même temps c'est pas à chassis qu'il faut regarder pour les disques.


---------------
uptime is for lousy system administrators what Viagra is for impotent people - mes unixeries - github me
Reply

Marsh Posté le 20-04-2009 à 11:18:21    

[:blessure] au quel alors ?  
 
Je m'y perd un peu :D

Reply

Marsh Posté le 20-04-2009 à 11:22:43    

Serait ce "sdr" ? :

 
Code :
  1. ipmitool sdr list
  2. Temp             | -61 degrees C     | cr
  3. Planar Temp      | 23 degrees C      | ok
  4. CMOS Battery     | 3.06 Volts        | ok
  5. ROMB Battery     | 0x01              | ok
  6. VCORE            | 0x01              | ok
  7. PROC VTT         | 0x01              | ok
  8. 1.5V PG          | 0x01              | ok
  9. 1.8V PG          | 0x01              | ok
  10. Presence         | 0x01              | ok
  11. Back Fan         | 2432 RPM          | ok
  12. Front Fan        | 2052 RPM          | ok
  13. Status           | 0x80              | ok
  14. VRM              | 0x01              | ok
  15. OS Watchdog      | 0x00              | ok
  16. SEL              | Not Readable      | ns
  17. Intrusion        | 0x00              | ok
  18. Temp Interface   | Not Readable      | ns
  19. ECC Corr Err     | Not Readable      | ns
  20. ECC Uncorr Err   | Not Readable      | ns
  21. I/O Channel Chk  | Not Readable      | ns
  22. PCI Parity Err   | 0xc0              | ok
  23. PCI System Err   | Not Readable      | ns
  24. SBE Log Disabled | Not Readable      | ns
  25. Logging Disabled | Not Readable      | ns
  26. Unknown          | Not Readable      | ns
  27. PROC Protocol    | Not Readable      | ns
  28. PROC Bus PERR    | Not Readable      | ns
  29. PROC Init Err    | Not Readable      | ns
  30. PROC Machine Chk | Not Readable      | ns
  31. Memory Spared    | 0x01              | ok
  32. Memory Mirrored  | 0x01              | ok
  33. Memory RAID      | 0x01              | ok
  34. Memory Added     | 0x01              | ok
  35. Memory Removed   | 0x01              | ok
  36. PCIE Fatal Err   | Not Readable      | ns
  37. Chipset Err      | Not Readable      | ns
  38. Err Reg Pointer  | Not Readable      | ns
  39. Drive            | 0x04              | ok
  40. SAS Cable        | 0x01              | ok


Message édité par gug42 le 20-04-2009 à 11:23:07
Reply

Marsh Posté le 20-04-2009 à 11:24:14    

oui, à conjuguer avec sensor


---------------
uptime is for lousy system administrators what Viagra is for impotent people - mes unixeries - github me
Reply

Marsh Posté le 20-04-2009 à 11:28:29    

Oki merci :)  
 
Mais je ne vois pas bien le coté "conjugaison avec sensor" :
 

Code :
  1. Temp             | -61.000    | degrees C  | cr    | na        | 5.000     | 10.000    | 120.000   | 125.000   | na       
  2. Planar Temp      | 23.000     | degrees C  | ok    | na        | 3.000     | 7.000     | 53.000    | 58.000    | na       
  3. CMOS Battery     | 3.057      | Volts      | ok    | na        | 2.645     | na        | na        | na        | na       
  4. ROMB Battery     | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  5. VCORE            | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  6. PROC VTT         | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  7. 1.5V PG          | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  8. 1.8V PG          | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  9. Presence         | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na       
  10. Back Fan         | 2432.000   | RPM        | ok    | na        | 760.000   | na        | na        | na        | na       
  11. Front Fan        | 2052.000   | RPM        | ok    | na        | 760.000   | na        | na        | na        | na
  12. Status           | 0x0        | discrete   | 0x8080| na        | na        | na        | na        | na        | na
  13. VRM              | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na
  14. OS Watchdog      | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na
  15. SEL              | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  16. Intrusion        | 0x0        | discrete   | 0x0080| na        | na        | na        | na        | na        | na
  17. Temp Interface   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  18. ECC Corr Err     | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  19. ECC Uncorr Err   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  20. I/O Channel Chk  | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  21. PCI Parity Err   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  22. PCI System Err   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  23. SBE Log Disabled | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  24. Logging Disabled | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  25. Unknown          | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  26. PROC Protocol    | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  27. PROC Bus PERR    | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  28. PROC Init Err    | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  29. PROC Machine Chk | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  30. Memory Spared    | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  31. Memory Mirrored  | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  32. Memory RAID      | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  33. Memory Added     | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  34. Memory Removed   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  35. PCIE Fatal Err   | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  36. Chipset Err      | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  37. Err Reg Pointer  | na         | discrete   | na    | na        | na        | na        | na        | na        | na
  38. Drive            | 0x0        | discrete   | 0x0480| na        | na        | na        | na        | na        | na
  39. SAS Cable        | 0x0        | discrete   | 0x0180| na        | na        | na        | na        | na        | na

Reply

Marsh Posté le 20-04-2009 à 11:40:18    

sensor te donne le type d'infos que tu recueilles, les seuils, les états, ...


---------------
uptime is for lousy system administrators what Viagra is for impotent people - mes unixeries - github me
Reply

Marsh Posté le 20-04-2009 à 16:57:14    

J'ai trouvé en jouant avec un 2950 que j'ai sous le coude :
Concernant la détection de la perte d'un disque,

 

Etat optimal : deux commandes, deux résultats, deux status :
-----------------------------------------------------------------------

Code :
  1. ipmitool sdr 
  2.              Drive            | 0x01              | ok
  3. ipmitool sdr type "Drive Slot / Bay"
  4.             Drive            | 80h | ok  | 26.1 | Drive Present
 

Etat avec un disque arraché de son emplacement (à la main)
-----------------------------------------------------------------------

Code :
  1. ipmitool sdr
  2.           Drive            | 0x21              | ok
  3. ipmitool sdr type "Drive Slot / Bay"
  4.          Drive            | 80h | ok  | 26.1 | Drive Present, In Critical Array
 


Voila ... y a plus qu'à parser ...  A moins que vous conaissiez comment avoir un retour en numérique (genre 2 => optimal ;  0 ou 1 => probleme)

 

=)

 


Merci B_L


Message édité par gug42 le 20-04-2009 à 17:25:33
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed