[Hyper-V] Gros problèmes en cluster !

Gros problèmes en cluster ! [Hyper-V] - Infrastructures serveurs - Systèmes & Réseaux Pro

Marsh Posté le 08-11-2012 à 20:43:38    

Bonjour à tous,
 
Je viens vers vous car j'ai vraiment besoin d'aide...
 
L'architecture en place :
 

  • 2 hôtes Hyper-V (2008 R2 SP1)
  • 1 baie SAN iSCSI
  • 1 Volume de 2To (visible...)
  • 1 Volume de 10Go (Quorum)
  • Cluster Shared Volume (CSV) activé sur les deux hôtes
  • 1 serveur SCVMM 2008 R2 (physique)


Voici l'exemple type de problème que je rencontre :
 
Prenons comme exemple une machine qui s'appelle SRV1. Cette dernière a été déployée depuis SCVMM.
 
Depuis la console "Gestionnaire HyperV" elle apparaît comme démarrée sur SRVHYPERV1 (et fonctionnelle pour les users)
Elle apparaît également sur le SRVHYPERV2 (toujours dans le Gestionnaire HyperV) comme "désactivé"... hum...
 
Depuis la console du cluster ("Gestionnaire des clusters de basculement" ) voici ce que j'ai :
SCVMM SRV1 : status arrêté (proprio = SRVHYPERV2)
SRV1 : inconnu (proprio = SRVHYPERV2)
 
Depuis SCVMM voici ce que j'ai :
Elle apparaît démarrée sur SRVHYPERV1
Arrêtée sur SRVHYPERV2
 
Si je vais plus loin sur SCVMM :
Dans les propriétés de la VM SRV1 vue sur l'hôte SRVHYPERV2 elle a comme ressource : SCVMM SRV1 & ressource de configuration : SCVMM SRV1 Configuration
Dans les propriétés de la VM SRV1 vue sur l'hôte SRVHYPERV1 elle a comme ressource : Virtual Machine SRV1 & ressource de configuration : Configuration SRV1 + groupe de ressources : SRV1
 
Dans la console de gestion du cluster, j'ai tout un tas de VM en attente, arrêtée... alors qu'elles sont bien démarrées ! C'est un truc de dingue...
 
Qui plus est, la migration à chaud entre deux hôtes fonctionne pour certaines VM et pas d'autres (depuis la console "Gestionnaire des clusters de basculement" )
 
Est-ce que quelqu'un a déjà eu cette histoire invraisemblable ? :??:
 
J'ai une bien idée : détruire le cluster sur les deux hôtes Hyper-V et le refaire... mais est-ce que ça va me supprimer mes machines virtuelles du volume ? J'irais même plus loin en détruisant le cluster mais aussi en supprimant les VM dans SCVMM...
 
Quelqu'un pourrait m'aiguiller ? Quelques préconisations à prendre ?
 
Ah et enfin, dernier problème : j'ai eu la bonne idée de rajouter un disque dans la baie et étendre le raid 5 actuel (d'ailleurs les problèmes sont apparus depuis cette manip). J'ai affecté ce disque supplémentaire sur la LUN de 2To correspondant au volume qui héberge mes VM... problème : Windows est incapable de voir les 300Go de dispo ! Je ne peux pas étendre le volume à moins de le convertir en dynamique et en GPT (j'avais oublié cette particularité). Est-ce que cette conversion va supprimer mes VM sur le volume ?
 
Je vous remercie d'avance pour votre aide...
 
PS: J'ai VeeamBackup pour la sauvegarde journalière de toutes les VM et ça marche à 100% !


Message édité par eRoKz le 08-11-2012 à 20:43:56
Reply

Marsh Posté le 08-11-2012 à 20:43:38   

Reply

Marsh Posté le 09-11-2012 à 10:30:21    

Et quand tu lances la validation de cluster il te remonte quoi comme info ?

Reply

Marsh Posté le 09-11-2012 à 19:48:44    

Il me donne quelques avertissements mais rien de critique (ex : j'ai qu'un seul volume, j'ai les pilotes iSCSI non signés numériquement...) tout le reste est OK. Aucune erreur critique...
 
Voici une capture d'écran type de ce que j'ai avec comme exemple une VM appelée SRV22 :
 
http://img404.imageshack.us/img404/1476/srv22hyperv1.jpg
 
Sur cette capture d'écran, on voit que la VM est en ligne avec comme proprio hyperv1
 
http://img818.imageshack.us/img818/676/scvmmsrv22hyperv2.jpg
 
Sur celle-ci, elle apparaît hors ligne avec un prefix "SCVMM xxx". Le propriétaire affiché est hyperv2
 
Je ne comprends rien... la seule chose que j'ai faite avec cette VM c'est simplement de la migrer de l'hyperv1 vers l'hyperv2 depuis SCVMM (migration échouée avec comme message : "Erreur (10698) - L'ordinateur virtuel SRV22 n'a pas pu migrer en direct vers l'ordinateur hôte de l'ordinateur virtuel hyperv2 à l'aide de cette configuration du cluster. (Erreur non spécifiée (0x80004005))"
 
Que puis-je faire ? Je suis vraiment à court d'idée et j'avoue être complètement perdu :??:
 
Est-ce que arrêter le cluster sur chaque hôte Hyper-V serait une solution ? Est-ce que je vais perdre les VM stockées sur le volume ou juste la HA ?
 
Je peux toujours l'arrêter puis le détruire et le refaire ? (au cas où)
 
Merci...


Message édité par eRoKz le 09-11-2012 à 20:07:14
Reply

Marsh Posté le 11-11-2012 à 22:16:17    

Bonjour,
 
C'est très étrange comme problème, au niveau de SCVMM, tu as bien ajouté ton cluster et pas la VM uniquement ?  
Tu pourrais nous faire un screenshot de SCVMM ?
 
Qu'est t-il marqué au niveau SCVMM SRV22 configuration ?
 
Tu as testé la configuration de ton cluster ?

Reply

Marsh Posté le 11-11-2012 à 23:20:52    

Bonsoir,
 
Oui, au niveau de SCVMM j'ai bien ajouté le Cluster. En revanche, une chose est sûr : le client créait ses machines sur SCVMM, dans le Hyper-V Manager ou dans le Gestionnaire de cluster de basculement... un peu partout en somme...
 
Voici un screenshot de SCVMM :
 
http://img846.imageshack.us/img846/9362/scvmm.jpg
 
Un screenshot de la VM au niveau du Cluster
 
http://img248.imageshack.us/img248/4520/evensrv22.jpg
 
La config du Cluster est OK... rien de critique en tout cas.
 
Merci...

Reply

Marsh Posté le 12-11-2012 à 09:01:28    

bascule toutes les VM sur le noeud qui fonctionne, enlève le noeud défaillant du cluster et remet le


Message édité par couak le 12-11-2012 à 09:16:09
Reply

Marsh Posté le 12-11-2012 à 09:18:10    

Hello,
 
C'est justement le problème... certaines VM peuvent être migré d'un hôte vers l'autre sans problème, d'autres non (impossible de faire un livre migrate). Il faudrait que je puisse éventuellement tester en arrêtant la VM mais de mémoire, ce n'était pas vraiment mieux...
 
Le fait de supprimer un noeud du Cluster et le remettre ne supprime pas les VM ? Est-ce que, au pire des cas, on peut imaginer un arrêt du Cluster sans risque de perte de données ?

Reply

Marsh Posté le 12-11-2012 à 09:31:10    

de mémoire ca ne supprime pas les VM, les migrer sur l'autre noeud c'est par précaution
 
De toute manière ce genre manipulation nécessite des précautions et des sauvegardes, car on est jamais à l'abri d'un dysfonctionnement même si sur le papier c'est censé fonctionner

Reply

Marsh Posté le 12-11-2012 à 12:56:04    

Je suis d'accord... VeeamBackup se charge bien de ça ;)
 
D'autres idées ? On dirait un problème de "corruption" de fichiers... Est-ce que c'est possible ?

Reply

Marsh Posté le 12-11-2012 à 23:11:54    

Bonsoir,
 
J'ai déjà eu des cas où SCVMM me marquait VM manquante, mais ça n'a jamais eu d'impact sur le cluster.... Tu as vérifié les droits sur SCVMM ? Il ne faut pas oublier que ça ne fait que piloter ton cluster avec des commandes powershell, tu as peut être des problèmes au niveau des droits que tu as mis sur SCVMM et les droits nécessaires au niveau du Cluster.
 
As tu vérifié que l'agent SCVMM est bien installé sur les 2 hôtes hyper-v et que la version est correcte ?
 
Normalement, casser le cluster n'aura pas d'impact sur les fichiers VHD, mais tu devras peut être refaire tes machines une à une ou les restaurer.

Reply

Marsh Posté le 12-11-2012 à 23:11:54   

Reply

Marsh Posté le 13-11-2012 à 14:07:07    

snorky59 a écrit :

Bonsoir,
 
J'ai déjà eu des cas où SCVMM me marquait VM manquante, mais ça n'a jamais eu d'impact sur le cluster.... Tu as vérifié les droits sur SCVMM ? Il ne faut pas oublier que ça ne fait que piloter ton cluster avec des commandes powershell, tu as peut être des problèmes au niveau des droits que tu as mis sur SCVMM et les droits nécessaires au niveau du Cluster.
 
As tu vérifié que l'agent SCVMM est bien installé sur les 2 hôtes hyper-v et que la version est correcte ?
 
Normalement, casser le cluster n'aura pas d'impact sur les fichiers VHD, mais tu devras peut être refaire tes machines une à une ou les restaurer.


 
Les droits sur SCVMM ? Normalement tout a été créé avec le compte administrateur du domaine... si c'est bien ça ta question ?
Pour les droits, je regarderais plus attentivement (étant donné que c'est une ancienne boîte qui a fait faillite qui a fait l'installation...).
 
L'agent est bien descendu sur les 2 hôtes Hyper-V (même version).
 
L'idée que j'ai c'est d'une part redimensionner les LUN sur la baie SAN (celle de 2,3To la redescendre à 2To et utiliser les 300Go pour un autre volume), supprimer le Cluster existant et le recréer avec les nouveaux volumes. Une fois que ce dernier sera en place, je redescendrai les sauvegardes des VM depuis Veeam... en espérant que supprimer et refaire le Cluster suffit à corriger tout ces problèmes !

Reply

Marsh Posté le 13-11-2012 à 14:56:11    

Mon conseil:
- Prend une formation Windows, Hyper-V, SCVMM, virtualization, et qu'elle soit vraiment bonne
- Prend une presta de mecs BONS qui t'installe, configure, et surtout documente comment opérer la plateforme
- Qu'ils te fassent un transfert de compétence
 
Parce que là c'est n'importe quoi de A à Z.
Le cluster c'est fait pour faire de la haute dispo mais là en l'occurence et comme chez bcp de clients, le cluster a un moins bon SLA qu'une machine standard parce que personne sait l'opérer correctement ...

Reply

Marsh Posté le 13-11-2012 à 15:01:17    

Je suis bien d'accord... le problème étant que la documentation donnée est minimaliste et orientée "intégration" et non "administration".
 
Les VM ont effectivement été crées n'importe comment : dans le Cluster, dans SCVMM, dans le Gestionnaire Hyper-V... bref, tout est à refaire au propre je pense...

Reply

Marsh Posté le 13-11-2012 à 15:36:53    

Alors si des VM ont été créés sans être intégrées dans le cluster c'est normal qu'un hyperviseur les voit et pas l'autre...mais dans ce cas cela veut aussi dire qu'il faut repartir de zéro :/

Reply

Marsh Posté le 13-11-2012 à 19:23:16    

C'est malheureusement la seule solution viable que j'ai trouvé...

Reply

Marsh Posté le 13-11-2012 à 20:58:20    

Blinde-toi sur les backup avant, et commence par contrôler la partie stockage, si elle aussi est bancale tu ne t'en sortira pas. Ensuite pas au réseau et au cluster à proprement parler.

Reply

Marsh Posté le 26-11-2012 à 15:40:12    

Hello,
 
Bon la grande refonte est prévue Jeudi... une journée pour tout remonter ! :pt1cable:
 
Logiquement, le plan d'attaque sera le suivant :
 
- Arrêt du Cluster
- Suppression des noeuds du Cluster
- Suppression du volume de 2To contenant toutes les VM - à valider (voir ci-dessous)
- Re-création du volume de 2To
- Création d'un autre volume de 300Go
- Mappage sur les hôtes Hyper-V
- Re-création du Cluster
- Ré-intégration des VM via Veeam et SCVMM
 
Juste une dernière question à propos du volume de 2To (voir 1er post) :
 
J'ai eu la bonne idée de rajouter un disque dans la baie et étendre le raid 5 actuel [...]. J'ai affecté ce disque supplémentaire sur la LUN de 2To correspondant au volume qui héberge mes VM... problème : Windows est incapable de voir les 300Go de dispo ! Je ne peux pas étendre le volume à moins de le convertir en dynamique et en GPT. Est-ce que cette conversion va supprimer mes VM sur le volume ?
 
Si quelqu'un veut reprendre ou me corriger, je suis toute ouïe :)


Message édité par eRoKz le 26-11-2012 à 17:12:55
Reply

Marsh Posté le 26-11-2012 à 22:20:44    

Bonsoir,
 
Tu ne peux pas convertir un disque MBR en GPT, MBR te limite à 2To et la seule façon de convertir un disque MBR en GPT est de supprimer tous les volumes ou partitions de ce disque, voir technet : http://technet.microsoft.com/fr-fr [...] s.10).aspx
 
Mais pour en avoir fait l'expérience, je te déconseille de gros volumes pour ton CSV, quand tu fera des sauvegardes tout ton CSV sera en mode redirigé et tes perf s'en ressentiront. Il est préférable de segmenter, de plus tu gagnera en perf.

Reply

Marsh Posté le 26-11-2012 à 22:29:34    

Arf... donc obliger de vraiment tout casser et refaire comme je le pensais :sweat: Au moins ça fera du propre et effectivement je vais re-partitioner les volumes et les LUN proprement quitte à dédier une LUN aux serveurs applicatifs (Oracle, Sage...), une autre à l'Exchange et une autre aux VM "infrastructure".
 
La partie qui me fait le plus peur c'est représenter les volumes aux machines Hyper-V et remonter le CSV... Le reste ça ira.

Reply

Marsh Posté le 26-11-2012 à 22:42:53    

Bonsoir,
 
  Ne serait ce pas causé par la modification du volume? En modifiant le disque tu as probablement changé la signature du volume.
Il n'y a rien dans les logs ou journaux?
 
Il y a un tool pour résigner le disque il faut rechercher dans les logs du cluster ou dans le registre l ancien nom du volume.
http://support.microsoft.com/kb/280425
 
À+

Reply

Marsh Posté le 26-11-2012 à 22:47:37    

Bah justement je n'ai rien touché au volume au sens "Windows"... la seule chose que j'ai faite, c'est ajouté un disque dans la baie et l'assigner à un volume (celui de 2To). Pendant cette extension, apparemment, un des contrôleur de la baie SAN a redémarré pour une raison inconnue et c'est de là que les problèmes ont commencés...

Reply

Marsh Posté le 28-11-2012 à 16:30:58    

Question bête : si je converti la partition de 2To hébergeant mes VM (CSV) en dynamique, est-ce que je verrai mes 300Go manquants ? (sans convertir en GPT). Quels sont les éventuels risques ?
 
Merci d'avance.

Reply

Marsh Posté le 28-11-2012 à 16:40:03    

Va falloir sérieusement prendre une formation ou apprendre à chercher.
 
http://en.wikipedia.org/wiki/Master_boot_record

Citation :

MBR partition entries and the MBR boot code used in commercial operating systems, however, are limited to 32 bits. Therefore, the maximum disk size supported by the MBR partitioning scheme (without using non-standard methods) is limited to 2 TB. Consequently, a different partitioning scheme must be used for larger disks, as they have become widely available since 2010. The MBR partitioning scheme is therefore in the process of being superseded by the GUID partitioning scheme (GPT). The official approach does little more than ensuring data integrity by employing a protective MBR; specifically, it does not provide backward compatibility with operating systems not enabled to support the GPT scheme as well. In the meanwhile, multiple forms of hybrid MBRs have been designed and implemented by third-parties in order to maintain partitions located in the first physical 2 TB of a disk in both partitioning schemes in parallel and/or to allow older operating systems to boot off GPT partitions as well. The present non-standard nature of these solutions can cause various compatibility problems in certain scenarios, though.


 
Donc si tu veux plus que 2To, il faut du GPT, c'est tout :o

Reply

Marsh Posté le 28-11-2012 à 16:47:20    

Merci pour la réflexion ça fait toujours plaisir... j'ai pourtant cherché un peu partout.
 
C'est quand même pourri : c'est simplement un volume hébergé sur un SAN et présenté aux hôtes Hyper-V pour stocker les VM mais considéré quand même comme du "MBR" ?
 
Du coup je suis complètement niq... si je comprends bien : je dois détruire la LUN, retailler proprement les volumes et refaire entièrement toutes les configs (iSCSI, mappage etc.) puis redescendre les sauvegardes Veeam une fois le CSV remonté sur les deux hôtes...  
 
ARGH !!

Reply

Marsh Posté le 28-11-2012 à 17:03:10    

Bah oui mais ça reste un disque (un disque logique dans ton cas), il faut bien qu'il ait une structure. Le GPT est supporté depuis au moins Windows 2003 et vu la taille des LUN actuels c'est pas rare d'être en GPT sur les disques de données.
 
Par contre regarde si ça vaut le coup d'étendre ton LUN. 2To pour de la virtu c'est pas mal

Reply

Marsh Posté le 28-11-2012 à 17:23:43    

"Logiquement" parlant sur la baie SAN j'ai :
 
- un RAID5 de 2.3To (arrondi)
  --> un disque virtuel QUORUM de 15Go
  --> un disque virtuel VHD de 2.3To (arrondi)
 
Dans les hôtes Hyper-V ça se présente comme ça :
 
- Disque0 / de base : Disque local du serveur
- Disque1 / de base : Quorum (15Go)
- Disque2 / de base : VHD (2To en partition principale) et 288go non alloué
 
Au niveau du Gestionnaire du cluster de basculement :
 
- Mon Disque2 (volume partagé de cluster) de 2To hébergeant mes VM (environ 10% de libre)
 
Donc en gros la LUN est déjà étendue...
 
L'idée que j'ai demain c'est de remettre au propre au niveau de la SAN de la façon suivante :
 
- un RAID5 de 2.3To (arrondi)
  --> un disque virtuel QUORUM de 15Go
  --> un disque virtuel VHD de 1To (arrondi)
  --> un disque virtuel VHD_2 de 600Go (arrondi)
  --> un disque virtuel VHD_3 de 600Go (arrondi)
 
Ensuite, présenter tout ça aux hôtes Hyper-V. Re-configurer le Cluster de basculement et redescendre toutes mes sauvegardes via Veeam en répartissant les VM sur les différents volumes.
 
Evidemment, l'idéal serait de pouvoir étendre mon Disque2 de 2To à 2.3To mais tu viens de me dire qu'à moins de le convertir en GPT et donc tout perdre je ne peux pas...
 
Au moins après ça sera propre une bonne fois pour toute !

Reply

Marsh Posté le 28-11-2012 à 17:41:14    

Dans tous les cas tu vas devoir péter ton disque VHD et donc devoir bouger tes VM donc autant partir sur ton gros LUN

Reply

Marsh Posté le 28-11-2012 à 18:02:34    

eRoKz a écrit :

Question bête : si je converti la partition de 2To hébergeant mes VM (CSV) en dynamique, est-ce que je verrai mes 300Go manquants ? (sans convertir en GPT). Quels sont les éventuels risques ?
 
Merci d'avance.


Tu fais surtout pas ça quoi :/
Tu risques (vas) tout péter avec des disques dynamiques :/
 
 
 

Reply

Marsh Posté le 29-11-2012 à 21:13:27    

Hello,
 
Bon finalement j'ai réussi à tout remonter, enfin c'est en cours (merci Veeam !)
 
J'ai donc, dans l'ordre :
 
- Déconnecter la baie et démonter les volumes (gestionnaire iSCSI)
- Déconnecter les noeuds du cluster
- Mise hors ligne du cluster
- Suppression des disques virtuels sur la baie SAN (sauf Quorum)
- Re-création des volumes (1,6To et 800Go) sur la baie
- Re-configuration iSCSI/MPIO
- Configuration d'un nouveau Cluster (qui m'a d'ailleurs posé pas mal de problème, j'ai dû faire un "cluster node noeudXX /forcecleanup" avant)
- Intégration de mes deux serveurs Hyper-V
- Activation du stockage partagé de mes nouveaux volumes
- Re-configuration de SCVMM (intégration du Cluster)
 
Désormais, je suis en train de resdescendre les VHD avec Veeam et je créé des nouvelles VM en prenant ces VHD (plutôt que redescendre la VM entière...).
 
D'ailleurs, je suis obligé de passer par le Hyper-V Manager, j'aurais préfére me servir de SCVMM mais je n'ai pas réussi à créer une VM en prenant un VHD restauré avec Veeam...
 
Maintenant, juste une question : comment je peux rendre mes VM "hautement disponibles" ? En les arrêtant et via SCVMM ? (clic droit -> "Rendre cette machine virtuelle hautement disponible" ) ou bien via la console du Cluster ? (pas trop confiance pour le coup...)
 
Merci d'avance !

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed