Etat SMART de mes disques durs : help me !!

Etat SMART de mes disques durs : help me !! - Disque dur - Hardware

Marsh Posté le 22-08-2011 à 21:01:22    

Salut à tous !
 
Je possède un NAS 4 baies et j'ai récemment eu des soucis d'error SMART qui me paraissent suspects... dans le même emplacement et sur deux disques neufs d'affilée le statut est passé au rouge et bien que le SAV penche pour un problème de disque, je commence à me dire que ca fait beaucoup ! (c'est le 3ème disque à passer en statut rouge dans le même emplacement, dont 2 totalement neufs !)
 
Est ce qu'un pro de l'interprétation des rapports SMART peut me dire ce qu'il pense du statut de ces deux disques ? Je n'ai pas envie de passer par la case RMA (qui me coûte à chaque fois un max de frais de port... :o) sans être sur que ce sont les disques qui ont un problème et non le serveur !
 
Merci d'avance :jap:
 
 
Disque 1 :
 
Device Model: WDC WD20EADS-11R6B1
Serial Number: WD-WCAVY1171530
Firmware Version: 80.00A80
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Jul 4 21:11:10 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
 
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
 
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (41880) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
 
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 156 148 021 Pre-fail Always - 9158
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 13
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 212
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 12
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 3
193 Load_Cycle_Count 0x0032 199 199 000 Old_age Always - 3544
194 Temperature_Celsius 0x0022 110 102 000 Old_age Always - 42
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 191 000 Old_age Always - 12
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
 
SMART Error Log Version: 1
No Errors Logged
 
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
 
 
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Return code : 0

 
 
Disque 2 :
 
Device Model: WDC WD20EADS-32S2B0
Serial Number: WD-WCAVY3746059
Firmware Version: 01.00A01
User Capacity: 2,000,398,934,016 bytes
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Mon Aug 22 01:01:20 2011 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
 
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
 
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (42660) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 255) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303f) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
 
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 199 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 159 141 021 Pre-fail Always - 9050
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 17
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 678
10 Spin_Retry_Count 0x0032 100 253 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 16
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 5
193 Load_Cycle_Count 0x0032 196 196 000 Old_age Always - 12488
194 Temperature_Celsius 0x0022 102 095 000 Old_age Always - 50
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 2
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 3
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 336
200 Multi_Zone_Error_Rate 0x0008 199 199 000 Old_age Offline - 233
 
SMART Error Log Version: 1
No Errors Logged
 
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
 
 
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Return code : 0


Message édité par -heat- le 22-08-2011 à 21:01:39
Reply

Marsh Posté le 22-08-2011 à 21:01:22   

Reply

Marsh Posté le 22-08-2011 à 22:17:59    

Bonsoir
 
 
Perso je vois ceci dans ton NAS ===> 194 Temperature_Celsius 0x0022 102 095 000 Old_age Always - 50 ===> il y fait chaud l'électronique des disques n'aiment pas cela.

Reply

Marsh Posté le 22-08-2011 à 22:39:32    

Merci pour ta remarque, effectivement c'est canicule ces jours ci et on crève de chaud dans mon appart... Comment tu interprètes cette ligne, notamment les chiffres en bleu ?
 
Merci :jap:

Reply

Marsh Posté le 23-08-2011 à 06:06:38    

voilà l'origine de tes pb, sur le 2eme disque :
 
 
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 2
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 3  
 
Donc, RMA quoi :/

Reply

Marsh Posté le 23-08-2011 à 09:59:08    

Bonjour
 
194 Temperature_Celsius 0x0022 102 095 000 Old_age Always - 50  
 
Plus le chiffre est bas et mieux c'est  Temperature_Celsius 0x0022 102 095 000 .
 
Chaque Attribut a une valeur sur 6-bits (RAW_VALUE) et une valeur normale d'un bit (VALUE). Dans ce cas, la valeur de la rangée affiche trois temperatures: la température du disque en Celsius , avec sa durée de vie minimum et maximum . Le format des rangées de données est spécifique au constructeur et n'est soumis à aucun standard. Pour tester la fiabilité du disque dur, le firmware du disque convertit les valeurs de la rangée à des valeurs normales allant de 1 à 253. Si ces valeurs sont infèrieures ou égales au seuil (THRESH), les attributs indiquent que le test a échoué comme indiqué dans la colonne WHEN_FAILED. La colonne est vide parce qu' aucun de ces attributs n'a échoué. La value la plus petite (WORST) est aussi affichée; c'est la plus petite valeur atteint depuis que SMART est activé sur le disque . Le TYPE de l'attribut indique que la defaillance de l'attribut signifie que le materiel a atteint la fin de sa limite d'age ou atteint un degré dangereux (Pre-fail). Par exemple, disk spin-up time (ID #3) est un attribut prefailure . Si c'est le cas , la defaillance du disque est prévue dans moins de 24 heures.  

Reply

Marsh Posté le 23-08-2011 à 21:55:35    

Merci pour ces précieuses informations, même si j'avoue n'avoir pas tout compris :D
 
Sinon globalement pour des disques quasi neuf (y a qu'à voir le Power on Hours) que penses tu des rapports SMART globalement ?
 
Encore merci :jap:

Reply

Marsh Posté le 23-08-2011 à 23:28:16    

Je me permet de rajouter aussi que les disque "Green" et les nas ont un petit soucis connu de pas mal d'utilisateur.
Comme les disque se mettent en veille souvent tu as ton nombre de Load Cycle Count qui monte très vite (et les disques sont donnés à une durée de vie de 30000 cycles tu es deja à près de la moitié avec le 2eme disque).
La solution pour eviter ca et de passer un coup des logiciels suivant WDIDLE & WDTLERpour allonger le delai de mise en veille.


---------------
Pré Natal Disaster /!\ WorldCommunityGrid
Reply

Marsh Posté le 30-08-2011 à 18:42:10    

Hello,

 

Je pense plutôt que la limite annoncé par WD est de 300 000 cycles, mais j'ai vu des disques ayant 600 000 cycles qui fonctionnaient encore parfaitement bien.
Je trouve que les LCC sont un faux problème, cela dépends vraiment de l'utilisation du disque (plus ou moins intensive), exemple, ce n'est pas parce qu'une voiture aura parcourue 400 000 kms que le moteur sera HS, certains ont eu des moteurs qui ont lâchés à 80 000 parce qu'ils tapaient dedans à froid et à fond et d'autres qui vont jusqu’à 1 000 000 km sans rien changer  :D

 

@ JML19,
Je suis d'accord avec ce que tu dis au début, mais pas à la fin  ;)
Un disque sera réellement en défaillance lorsque la valeur de la colonne THRESH sera égale à la valeur de la colonne VALUE et un TYPE Pre-fail seul ne veut pas dire que le disque va lâcher dans les 24H  :non:
Perso, j'ai aussi un NAS et 1 disque WD Green qui a eu des erreurs remontées par le SMART et qui sont disparues après plusieurs maintenance...
Il faut donc bien séparer les erreurs due à des secteurs numériquement défectueux (coupure électrique pendant une copie de fichier par ex.) et des secteurs physiquement défectueux (chocs, vibration), car les deux peuvent être remontées comme erreur par le SMART, mais la première pourra être corrigée, tandis que la seconde enterrera le disque à court ou moyen terme (secteur physique abîmé du à la frappe des têtes sur les plateaux)  :cry:
De même, il faut différentier les valeurs critiques des valeurs non critiques  ;)

 

@ Heat,
Perso, je ne dirais pas que tes 2 disques sont HS, mais qu'il y a surement un autre problème pour que sur le même emplacement tu ais des souci (nappe SATA défectueuse peut être)


Message édité par michael tolland le 07-09-2011 à 14:40:26
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed