RAID 5 logiciel : disque en défaut de manière régulière

RAID 5 logiciel : disque en défaut de manière régulière - Hardware - Linux et OS Alternatifs

Marsh Posté le 29-09-2009 à 07:00:44    

Bonjour à tous,
 
Voilà, j'ai un RAID 5 logiciel (mdadm donc) de 4 disques Samsung 1.5To (en gros, sdb, sdc, sdd et sde).
 
Depuis quelques temps maintenant, j'ai un disque qui se met en défaut. Au début c'était sde (2 fois), samedi sdc et ce matin encore sdc.
 
Les disques semblent ok (à part sdc qui faisait des petits claquements pendant quelques temps, samedi). Par exemple ce matin, je n'ai même pas eu à enlever le disque fautif, je l'ai juste retiré de l'array (mdadm -r) pour le remettre immédiatement après (mdadm -a). Là l'array est en reconstruction à une vitesse normale.
 
Physiquement, ce sont pour l'instant les deux disques du "bas" qui sautent. J'ai vérifié les connexions, qui semblent ok, mais y'a un backplane et j'y ai pas accès (enfin, j'ai pas vraiment cherché).
 
Mes données importantes sont backupées tous les jours (rsnapshot est formidable !) donc une défaillance de la grappe ne serait pas catastrophique mais ça me ferait bien ch*er.
 
Est-ce que ça dit quelque chose à quelqu'un ? De quoi ça pourrait venir ?
 
Ma config : Atom330 dans un boitier chenbro mini-itx avec une alim 120W derrière un onduleur, carte contrôleur Promise (juste des ports SATA, pas de raid), et donc 4x Samsung 1.5To.
 
Merci d'avance :hello:

Reply

Marsh Posté le 29-09-2009 à 07:00:44   

Reply

Marsh Posté le 29-09-2009 à 07:36:11    

SMART te dit rien?


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 29-09-2009 à 08:10:57    

Ah, bonne idée.
 
Je regarderais ce soir. hdparm -i pour accéder aux infos SMART ?

Reply

Marsh Posté le 29-09-2009 à 08:59:23    

smartctl -a /dev/sdX
 
 
du paquet smartmontools

Reply

Marsh Posté le 29-09-2009 à 09:22:32    

Merci bien. Je vous tiens au courant.
 
Le paramètre Command Timeout semble le plus intéressant dans mon cas. Spin Retry Count aussi.

Reply

Marsh Posté le 01-10-2009 à 19:01:39    

Resalut,
 
Rien de notable dans les infos SMART.
 
sdc vient néanmoins de retomber. Voici les logs de /var/log/messages. Des idées ?
 

Oct  1 18:45:31 server kernel: [447210.450224] ata6: hard resetting link
Oct  1 18:45:37 server kernel: [447215.840034] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:45:41 server kernel: [447220.460091] ata6: hard resetting link
Oct  1 18:45:47 server kernel: [447225.850032] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:45:51 server kernel: [447230.470094] ata6: hard resetting link
Oct  1 18:45:57 server kernel: [447235.860033] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:26 server kernel: [447265.500098] ata6: limiting SATA link speed to 1.5 Gbps
Oct  1 18:46:26 server kernel: [447265.500115] ata6: hard resetting link
Oct  1 18:46:31 server kernel: [447270.530103] ata6.00: disabled
Oct  1 18:46:31 server kernel: [447270.530157] ata6: EH complete
Oct  1 18:46:31 server kernel: [447270.530201] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530306] md: super_written gets error=-5, uptodate=0
Oct  1 18:46:31 server kernel: [447270.530427] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530501] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.530563] sd 5:0:0:0: [sdc] Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK,SUGGEST_OK
Oct  1 18:46:31 server kernel: [447270.532629] ata6: hard resetting link
Oct  1 18:46:31 server kernel: [447270.553077] RAID5 conf printout:
Oct  1 18:46:31 server kernel: [447270.553089]  --- rd:4 wd:3
Oct  1 18:46:31 server kernel: [447270.553095]  disk 0, o:1, dev:sdb
Oct  1 18:46:31 server kernel: [447270.553100]  disk 1, o:0, dev:sdc
Oct  1 18:46:31 server kernel: [447270.553104]  disk 2, o:1, dev:sdd
Oct  1 18:46:31 server kernel: [447270.553108]  disk 3, o:1, dev:sde
Oct  1 18:46:31 server kernel: [447270.554867] RAID5 conf printout:
Oct  1 18:46:31 server kernel: [447270.554878]  --- rd:4 wd:3
Oct  1 18:46:31 server kernel: [447270.554885]  disk 0, o:1, dev:sdb
Oct  1 18:46:31 server kernel: [447270.554891]  disk 2, o:1, dev:sdd
Oct  1 18:46:31 server kernel: [447270.554897]  disk 3, o:1, dev:sde
Oct  1 18:46:37 server kernel: [447276.320040] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:41 server kernel: [447280.580084] ata6: hard resetting link
Oct  1 18:46:47 server kernel: [447286.370054] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:46:51 server kernel: [447290.640079] ata6: hard resetting link
Oct  1 18:46:57 server kernel: [447296.430047] ata6: link is slow to respond, please be patient (ready=-19)
Oct  1 18:47:23 server kernel: [447322.240075] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  1 18:47:23 server kernel: [447322.262994] ata6.00: ATA-7: SAMSUNG HD154UI, 1AG01118, max UDMA7
Oct  1 18:47:23 server kernel: [447322.263008] ata6.00: 2930277168 sectors, multi 0: LBA48 NCQ (depth 0/32)
Oct  1 18:47:23 server kernel: [447322.280508] ata6.00: configured for UDMA/133
Oct  1 18:47:23 server kernel: [447322.280819] ata6: hard resetting link
Oct  1 18:47:24 server kernel: [447323.030077] ata6: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
Oct  1 18:47:24 server kernel: [447323.070492] ata6.00: configured for UDMA/133
Oct  1 18:47:24 server kernel: [447323.070513] ata6: EH complete
Oct  1 18:47:24 server kernel: [447323.070545] ata6.00: detaching (SCSI 5:0:0:0)
Oct  1 18:47:24 server kernel: [447323.090359] sd 5:0:0:0: [sdc] Synchronizing SCSI cache
Oct  1 18:47:24 server kernel: [447323.093340] sd 5:0:0:0: [sdc] Stopping disk
Oct  1 18:47:25 server kernel: [447324.341910] scsi 5:0:0:0: Direct-Access     ATA      SAMSUNG HD154UI  1AG0 PQ: 0 ANSI: 5
Oct  1 18:47:25 server kernel: [447324.342207] sd 5:0:0:0: [sdh] 2930277168 512-byte hardware sectors (1500302 MB)
Oct  1 18:47:25 server kernel: [447324.342267] sd 5:0:0:0: [sdh] Write Protect is off
Oct  1 18:47:25 server kernel: [447324.342379] sd 5:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Oct  1 18:47:25 server kernel: [447324.342598] sd 5:0:0:0: [sdh] 2930277168 512-byte hardware sectors (1500302 MB)
Oct  1 18:47:25 server kernel: [447324.342656] sd 5:0:0:0: [sdh] Write Protect is off
Oct  1 18:47:25 server kernel: [447324.342768] sd 5:0:0:0: [sdh] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
Oct  1 18:47:28 server kernel: [447324.342783]  sdh: unknown partition table
Oct  1 18:47:28 server kernel: [447327.065163] sd 5:0:0:0: [sdh] Attached SCSI disk
Oct  1 18:47:28 server kernel: [447327.065444] sd 5:0:0:0: Attached scsi generic sg7 type 0

Reply

Marsh Posté le 01-10-2009 à 22:17:38    

Je me demande si c'est pas la carte mère ...
J'ai un des soucis de ce genre une fois chez moi, à cause de la carte mère justement


---------------
Si la vérité est découverte par quelqu'un d'autre,elle perd toujours un peu d'attrait
Reply

Marsh Posté le 01-10-2009 à 22:20:25    

Salut,
 
En voyant ça, je me suis dit que ça venait de ma carte contrôleur (Promise 4 ports SATA). Ca rejoint un peu ton idée (vu que dans ton cas le contrôleur était probablement sur la CM).
 
Merci en tout cas !

Reply

Marsh Posté le 02-10-2009 à 07:57:39    

Ah la la ... promise SATA 4 ports que du bonheur malheur sous GNU/Linux ...
 
J'ai eu les mêmes merdes avec la même carte, un disque qui régulièrement se "déconnectait" (niveau SATA j'entends) alors qu'il était parfaitement fonctionnel.
Je ne sais plus trop trop ce qui a vraiment remis les choses d'aplomb, mais deux pistes :
1- utilise le noyau le plus récent possible
2- j'ai "déchargé" ma carte, de 4 disques, je n'en ai plus branché que 2. Je rebranché les 2 autres sur une autre carte que j'avais de toute façon dans mon PC ...

Reply

Marsh Posté le 02-10-2009 à 08:17:36    

fighting_falcon a écrit :

Ah la la ... promise SATA 4 ports que du bonheur malheur sous GNU/Linux ...

 

J'ai eu les mêmes merdes avec la même carte, un disque qui régulièrement se "déconnectait" (niveau SATA j'entends) alors qu'il était parfaitement fonctionnel.
Je ne sais plus trop trop ce qui a vraiment remis les choses d'aplomb, mais deux pistes :
1- utilise le noyau le plus récent possible
2- j'ai "déchargé" ma carte, de 4 disques, je n'en ai plus branché que 2. Je rebranché les 2 autres sur une autre carte que j'avais de toute façon dans mon PC ...

 


Salut !

 

Merci pour les infos. J'ai regarde hier et effectivement, y'a pas mal de problèmes avec certains contrôleurs (la promise est en bonne place). D'après ce que j'ai lu, ça vient du driver sata_promise et sur les noyaux post 2.6.24 ça devrait être corrige. Mais je tourne avec le 2.6.27 et certains reportent le même bug avec le noyau de Jaunty (la version m'échappe).

 

Par contre, merci pour le truc du déchargement. Je vais upgrader vers Jaunty mais si ca change rien, j'ai effectivement un port de libre sur ma carte mère, je l'utiliserais a la place d'un port de la promise.

 

Merci bien. :hello:


Message édité par Gurney_Halleck le 02-10-2009 à 08:18:50
Reply

Marsh Posté le 02-10-2009 à 08:17:36   

Reply

Marsh Posté le 15-10-2009 à 10:39:55    

copain de chenbro  [:arg] !!!
 
toi aussi t'as des problèmes de connexion sur l'étage du bas? moi c'était le numéro 3 qui me faisait ch*er. y a fallu que je démonte tout (et c'est chiant à démonter ces bestioles !!) pour pouvoir bien pousser le dd à la main (pas très pratique pour du rack  :sweat: )
sinon moi je tourne sur un g45 (cf config) je te dirai ce que ça donne mais pour le moment ça à l'air de bien marcher (en même temps je ne l'ai mis en marche que hier alors ...  :whistle: )

Reply

Marsh Posté le 15-10-2009 à 10:47:15    

Oui, 3 aussi dans mon cas ! Et tu m'étonnes le démontage/remontage, c'te galère...
 
J'ai upgradé récemment a Karmic server et depuis plus de soucis... mais vu que j'ai réinsérer mes disques aussi, je peux pas dire si ça vient d'une mauvaise connexion ou d'un problème de driver...
 
Je pencherais pour le driver tout de même...

Reply

Marsh Posté le 15-10-2009 à 12:32:07    

moi c'est bien un problème de connexion : le 3 ne s'enfonce pas assez dans le backplane et du coup ne ce connecte pas

Reply

Marsh Posté le 08-12-2009 à 23:43:22    

Bonjour
petit historique pour ma part :
mon serveur à base d'un barebone nforce4 sous linux hardy.
lorsque je suis passé au raid 1 logiciel avec des disques SATA j'ai eu des erreur SATA slow to respond ... hard resetting link .. ect...
il s'est avéré que les instructions NCQ et le cache en écriture était responsable.
Du coup j'ai désactiver le ncq et supprimé le cache en écriture via un script au démarrage.
 
récement j'ai changé un des disques par un samsung F2 1.5 To
résultat: l'erreur est revenue et la bidouille ne fonctionnait plus !
j'ai décidé de mettre à jour ma configuration car le nforce4 semblait etre un peu responsable.
Résultat: carte mere intel Atom 330, dans un boitier smart teck ezplug.
après montage, premier rsync sur mon raid logciel : bang même erreur !
 
Pour info si je copie des données sur une partition en dehors du raid, pas de soucis meme après plusieurs centaines de Go, alors que sur une partition raid ça plante au bout de quelques secondes/minutes !
 
Je vais tenter de passer à karmic serveur..  
je vous tiens au courant !
 
Kytrix


Message édité par Kytrix le 09-12-2009 à 13:18:56

---------------
HTPC Xbmc | Vidéoprojecteur Intégré/WAF
Reply

Marsh Posté le 11-12-2009 à 22:58:56    

Bon,
après avoir fait la mise à jour vers Karmic, j'ai eu direct un message SMART me disant que mon disque était défectueux, à cause d'un nombre de mauvais secteurs trop important (809 !!)
je ne pensais pas que mon problème venait du disque étant donné que sur une autre partition j'avais aucun souci !
 
je vais le renvoyer à Samsung !


---------------
HTPC Xbmc | Vidéoprojecteur Intégré/WAF
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed