[HFR] Actu : GTC: Nvidia DGX-1 : 8 Tesla P100 pour 129.000$

Actu : GTC: Nvidia DGX-1 : 8 Tesla P100 pour 129.000$ [HFR] - HFR - Hardware

Marsh Posté le 06-04-2016 à 20:55:54   1  

Lors de la keynote d'ouverture de la GTC, Jen-Hsun Huang ne s'est pas contenté d'annoncer l'accélérateur Tesla P100, mais a également dévoilé un nouveau ...
Lire la suite ...

Reply

Marsh Posté le 06-04-2016 à 20:55:54   

Reply

Marsh Posté le 06-04-2016 à 21:14:18   9  

10 000€ le gpu ? ils se sentent plus pisser dans les bureaux de nvidia
Pourvus qu'iles prennent une belle branlé par Vega qui n'est pas difficile a deviner qu'il fera aussi bien pour deux a trois fois moins chère pour le monde pro

Reply

Marsh Posté le 06-04-2016 à 21:37:23   0  

Les 2 cpu sont mal choisies.
Un de la gamme broawell ep avec un tdp plus faible serait plus intéressant.

Reply

Marsh Posté le 06-04-2016 à 21:50:50   3  

J'ai pas les mêmes retours : NVidia est esseulé sur le segment HPC avec cores X86 : Cray les quites pour AMD/Intel et omni-path, ils doivent devv leurs propres phy pour leurs NVLink. Y'a guère qu'IBM qui intègre en natif un pont sur ses power8, mais même eux sont en train de perdre la bataille sur le segment puissance/calcul.
 
La solution infiniband pour adapter du nvlink, c'est d'un crade. Les 5 prochaines années en HPC vont être morose (ils ont gagnés AUCUNS contrats sur leurs archi pour les US pour les prochains clusts HPC) pour les ventes chez eux, forcément qu'ils cherchent a revendre leurs bousins en direct.

Reply

Marsh Posté le 06-04-2016 à 21:51:36   0  

Ouille ouille ouille, ça fait mal aux c... :D

Reply

Marsh Posté le 06-04-2016 à 22:14:17   1  

Et AMD fait pareil :D

Reply

Marsh Posté le 06-04-2016 à 22:23:05   2  

ravenloft a écrit :


 :pfff: Pitié pas de débat à la con nvidia vs amd.
Tu connais les prix du pro? Je pense pas.


 
 
Je sais que dans mon ancienne boite ils ont pris des firepro d'AMD qui offrait selont eux un meilleur rapport prix/perf qu'nvidia et ses quadro  :o  
Mais tu as raison ça sert a rien de gueguerrer dessus je m'en excuse  :jap:


Message édité par CardinalFuneste le 06-04-2016 à 22:23:32
Reply

Marsh Posté le 06-04-2016 à 22:36:18   0  

MysterieuseX a écrit :

La solution infiniband pour adapter du nvlink, c'est d'un crade. Les 5 prochaines années en HPC vont être morose (ils ont gagnés AUCUNS contrats sur leurs archi pour les US pour les prochains clusts HPC) pour les ventes chez eux, forcément qu'ils cherchent a revendre leurs bousins en direct.

Sur Pascal rien de gros n'est annoncé mais sur Volta il y a Summit et Sierra.

Reply

Marsh Posté le 06-04-2016 à 23:43:07   4  

Summit et Sierra sont des évolutions de clusts déjà existant a savoir transfert de mira pour summit vers Oak Ridge et passage a power 9/NVlink (évolution en interne du DOE/Partenariat avec IBM jusqu'en 2018) et évolution de Sequoia pour le lnll. Partenariat CORAL (les trois gros labs US qui font du calcul pour le DOE.)
 
Mais le gros de CORAL est quand même l'arrivée d'un clone de milky way sur le territoire US (Aurora). Qui est prévu pour avoir une maintenance "au moins" jusqu'en 2021. Niveau pérennité, Omni-path a l'avantage de la technicité d'intel et surtout le poids du bleu : si intel décide de plomber les firmware poour l'adapatation d'un phy layer vers NVLink, tout le x86 deviendra fermé a NVidia.
Pour le coup, ils jouent gros dans l'histoire. Si ça passe pas, ça les plombera pour 5 ans.
NVLink a pour lui l'avantage d'être un draft PCI-E 4.0, mais ça leurs coûtera en R&D pour rendre le bousin pleinement compatible. Sans compter l'adaptation physique mezza<=>slot card, et la cible de puissance du facteur qu'ils ont choisis, 250W sur une carte en mezza, passe encore, tu peut architecturer sur la totalité du serveur, sur une carte en slot, c'est liquide ou architecture totale du datacenter qu'il faut voir, et je doute que les gros du secteurs aient envie de devoir faire du génie civile pour les 10 prochaines années sachant que pour certains ils sont alimentés par leurs propres centrales électriques, comme Argonne.
 
Bref, c't'un pari qu'ils font, mais ils se battent plus contre AMD là (qui va rester sur le segment "end user", éditeurs graphiques/vidéo et plus aller s'empêtrer dans le HPC)
 
A noter quand même que volta serait pleinement compatible PCI-E 4.0 (au moins sur le firm et le silicone). C'est se que disent les premiers papiers. On sait que Summit aura du retard (prévu pour 2016, repoussé a printemps 2017, mais le full power est quand même maintenu a 3e trimestre 2018).
 
Et c'est tout ça qui me fait penser que ça risque d'être fortement bouché d'ici 5 ans si NVidia se vautre sur Pascal. Ils auraient du se contenter selon moi d'une archi draft et pas lancer Pascal + NVlink avec juste IBM en pertenaire (ils ont mellanox aussi, mais ça reste un nain fortement spécialisé qui fait bien son taff dans le milieux des cartes de com', mais va pas plus loin).
 
Edit : je viens de faire un rapide calcul, 42U dans une baie, minus le fabric switch qui se bouffe 3U, reste 39U pour les nodes calcul. 3U/node, 13 nodes/42U, 3200W/Node, ~42kw/baie. En étant gentille on peut prévoie un pseudo CRAC 2U intégrée, reste quand même au moins 35KW/Baie a sortir. Ptain le four, refroidissement liquide obligatoire :O

Message cité 1 fois
Message édité par MysterieuseX le 06-04-2016 à 23:54:11
Reply

Marsh Posté le 07-04-2016 à 01:29:23   0  

Tout les framework de deep learning sérieux sont sous CUDA. Sans compter l'avancée énorme de leurs librairies CuDNN pour réaliser les calculs présent à 90% dans les algorithmes de machine learning actuels. Ne vous inquiétez pas, pour l'instant Nvidia à 0 concurrence...

Reply

Marsh Posté le 07-04-2016 à 01:29:23   

Reply

Marsh Posté le 07-04-2016 à 06:39:09   0  

Est-ce que le nvlink pourra se connecter en externe comme dans le style des liens sli ? Car si ce n'est pas le cas, ont ne pourra pas attacher plusieurs cartes.

Reply

Marsh Posté le 07-04-2016 à 08:02:40   1  

MysterieuseX a écrit :

J'ai pas les mêmes retours : NVidia est esseulé sur le segment HPC avec cores X86 : Cray les quites pour AMD/Intel et omni-path, ils doivent devv leurs propres phy pour leurs NVLink. Y'a guère qu'IBM qui intègre en natif un pont sur ses power8, mais même eux sont en train de perdre la bataille sur le segment puissance/calcul.
 
La solution infiniband pour adapter du nvlink, c'est d'un crade. Les 5 prochaines années en HPC vont être morose (ils ont gagnés AUCUNS contrats sur leurs archi pour les US pour les prochains clusts HPC) pour les ventes chez eux, forcément qu'ils cherchent a revendre leurs bousins en direct.


D'après ce que j'ai compris, NVidia ne cherche pas à être en concurrence avec Intel. Huang considère que c'est trop risqué pour son entreprise, que face à Intel on se casse les dents. Il avait dit il y a quelques années qu'il préférait laisser ça (le combat contre Intel) à d'autres, avec un petit sourire (il pensait surement à AMD). NVidia cherche plutôt à s'implanter dans un nouveau secteur, le deep Learning, et ils sont très bien placés pour le moment. Si Intel est trop agressif dans d'autres domaines, ils lui laisseront la place.

Reply

Marsh Posté le 07-04-2016 à 08:53:06   3  

CardinalFuneste a écrit :

10 000€ le gpu ? ils se sentent plus pisser dans les bureaux de nvidia
Pourvus qu'iles prennent une belle branlé par Vega qui n'est pas difficile a deviner qu'il fera aussi bien pour deux a trois fois moins chère pour le monde pro


 :lol:  
 
Et c'est pour quand l'apocalypse Madame Soleil ?

Reply

Marsh Posté le 07-04-2016 à 09:13:39   0  

Il fait tourner Crysis?

Reply

Marsh Posté le 07-04-2016 à 09:36:05   1  

Pourquoi mettre en avant le FP16 à 170 Tflops à part pour le marketing ?
Quand on fait de l'apprentissage profond en particulier, on a besoin de beaucoup de précision donc de FP64...
Plus il y a de couches dans un réseau de neurones, plus il faut de la précision sinon on perd tout l'intérêt de l'augmentation de la profondeur.

Reply

Marsh Posté le 07-04-2016 à 10:14:55   5  

caenorst a écrit :

Tout les framework de deep learning sérieux sont sous CUDA. Sans compter l'avancée énorme de leurs librairies CuDNN pour réaliser les calculs présent à 90% dans les algorithmes de machine learning actuels. Ne vous inquiétez pas, pour l'instant Nvidia à 0 concurrence...


 

Citation :

NVidia cherche plutôt à s'implanter dans un nouveau secteur, le deep Learning


 
NVidia ne couvre qu'une partie du deep learning : le MCTS (monte carlo tree search), qui est certes une grosse partie pour la génération du profil d'IA, mais n'est plus sa principale.
Le montage du réseau neural et son utilisation reste plus efficient en x86 actuellement. CF AlphaGo qui as plus de core x86 que de core "CUDA".
L'utilisation d'un double réseau neural est d'ailleurs l'avantage d'AlphaGo et sa véritable révolution : ça montre bien les limites du GPGPU, surtout quand il est question de passer d'une réflexion a 2 dimensions a une réflexion a plus de 3. Pour du tree seach, je suis d'accord que le fait de faire beaucoup de petits calculs répétitifs avantage une archi issue du monde graphique. Pour la valorisation, qui est sur du large scale et un calcul autrement plus complexe, le nombre d'itération nécessaire a la résolution de l'équation sur pascal me semble hors de propos alors qu'un x86 pourrait le faire en 1 cycle. Le temps d'itération étant converti en puissance, et la synchro aidant ... Imho, la solution proposée par NVidia reste bancale. Donc deep learning pris d'assaut par NVidia ? Bof. Qu'ils aient un coup a jouer, certes, mais la niche est minuscule pour eux.

Reply

Marsh Posté le 07-04-2016 à 10:26:13   2  

MysterieuseX a écrit :

J'ai pas les mêmes retours : NVidia est esseulé sur le segment HPC avec cores X86 : Cray les quites pour AMD/Intel et omni-path, ils doivent devv leurs propres phy pour leurs NVLink. Y'a guère qu'IBM qui intègre en natif un pont sur ses power8, mais même eux sont en train de perdre la bataille sur le segment puissance/calcul.
 
La solution infiniband pour adapter du nvlink, c'est d'un crade. Les 5 prochaines années en HPC vont être morose (ils ont gagnés AUCUNS contrats sur leurs archi pour les US pour les prochains clusts HPC) pour les ventes chez eux, forcément qu'ils cherchent a revendre leurs bousins en direct.


 
c'est vrais qu'une solution à base d'APU x86 me parrais bien meilleur
 
des APU zen 16 coeur avec de la HBM2 intégré ça communiquera bien plus vite au sein du CPU/GPU sera bien plus compacte et consommera surement moins  
 
après je n'y connais absolument rien c'est juste mon ressentie ^^


Message édité par mazingerz le 07-04-2016 à 10:28:01
Reply

Marsh Posté le 07-04-2016 à 10:32:57   0  

J'y connais pas grand chose mais les proco KNL d'Intel ne sont pas plus intéressants ?

Reply

Marsh Posté le 07-04-2016 à 11:20:47   0  

[MODE TROLL ON]
à 129$,000 Ça me parait assez intéressant :) surtout si c'est HTVA ! Parce que les truc en H.T c'est vraiment le bordel !
[MODE TROLL OFF]

Reply

Marsh Posté le 07-04-2016 à 11:34:54   0  

sasanpabon a écrit :

Pourquoi mettre en avant le FP16 à 170 Tflops à part pour le marketing ?
Quand on fait de l'apprentissage profond en particulier, on a besoin de beaucoup de précision donc de FP64...
Plus il y a de couches dans un réseau de neurones, plus il faut de la précision sinon on perd tout l'intérêt de l'augmentation de la profondeur.


Tu a des source de ce que tu affirme ? Parce qu'à mon avis si Nvidia a ajouté un mode FP16 pour le deep learning c'est qu'ils savent ce qu'ils font.

Reply

Marsh Posté le 07-04-2016 à 11:38:07   0  

MysterieuseX a écrit :

Summit et Sierra sont des évolutions de clusts déjà existant a savoir transfert de mira pour summit vers Oak Ridge et passage a power 9/NVlink (évolution en interne du DOE/Partenariat avec IBM jusqu'en 2018) et évolution de Sequoia pour le lnll. Partenariat CORAL (les trois gros labs US qui font du calcul pour le DOE.)

Évolutions ou pas ça reste des contrats ;) Tiens d'ailleurs un autre vient d'être annoncé en Pascal cette fois : http://www.cscs.ch/index.php?id=1542

Reply

Marsh Posté le 07-04-2016 à 11:49:46   4  

Marc a écrit :

MysterieuseX a écrit :

Summit et Sierra sont des évolutions de clusts déjà existant a savoir transfert de mira pour summit vers Oak Ridge et passage a power 9/NVlink (évolution en interne du DOE/Partenariat avec IBM jusqu'en 2018) et évolution de Sequoia pour le lnll. Partenariat CORAL (les trois gros labs US qui font du calcul pour le DOE.)

Évolutions ou pas ça reste des contrats ;) Tiens d'ailleurs un autre vient d'être annoncé en Pascal cette fois : http://www.cscs.ch/index.php?id=1542


Evolutions déjà payées et inclues dans les contrats de dev des clusts a l'origine. Ce ne sont pas des nouveaux contrats, mais juste l'offre de service dans la maintenance. A 100 millions le clust en moyenne, bénéficier d'évolutions technologiques c'est bien normal. Donc non, ce ne sont pas des nouveaux contrats comme pour Aurora.
 
Idem pour Piz Daint, c'était en pour parlés y'a 1 ans déjà, vue que Cray (le fournisseur) ne doit plus faire de NVidia. Je me demande bien comment ils vont implémenté pascal sur une base XC30 (le form factor est pas du tout le même).
L'évolution des clusts sera un gros points du prochain IEEE en septembre a taiwan (et d'ailleurs, j'y vais, exceptionnellement, je sort de ma grotte :) )

Reply

Marsh Posté le 07-04-2016 à 12:07:11   2  

C'est assez émouvant cette inquiétude autour du manque de savoir-faire d'Nvidia pour faire de l'argent.  
 
Non mais... Attendez une seconde...!


Message édité par Noim le 07-04-2016 à 12:07:47
Reply

Marsh Posté le 07-04-2016 à 13:05:21   2  

MysterieuseX a écrit :

Idem pour Piz Daint, c'était en pour parlés y'a 1 ans déjà, vue que Cray (le fournisseur) ne doit plus faire de NVidia.


Un lien, non ?
Parce que lors de la conférence, Cray était toujours mentionné pour proposer des solutions P100 en début d'année prochaine :
 
http://tof.canardpc.com/preview2/e7686826-d34c-42dd-9ca4-2b23b65e394e.jpg

Reply

Marsh Posté le 07-04-2016 à 15:35:56   0  

j'en prendrais 2 ou 3... ;)

Reply

Marsh Posté le 07-04-2016 à 16:20:23   0  

j'en prendrais 2 ou 3...;) pour voir s il arrive a faire un demineur tous seul
il en faut 600 donc 48000 carte pour aller 3x plus vite que l actuel premier supercalculateur (en fp16)

Message cité 1 fois
Message édité par cricrione le 07-04-2016 à 16:52:33
Reply

Marsh Posté le 07-04-2016 à 16:31:25   1  

Pour le deep learning, personne n'utilise de fp64. Les réseaux s'entraînent en fp32 et il y a de fortes raisons de penser que fp16 est suffisant. D'où l'idée d'avoir du fp16 sur P100. Quant à la partie inférence, les GPUs sont très compétitifs. L'année passée nous avons parlé de FPGA qui surpassaient tout le monde à 14 img/s/w et désormais on fait tourner nos GPUs à 20 ou 40 (cela dépend de la taille des batches). Des acteurs très sérieux pensent donc que le déploiement de GPUs pour l'inférence est possible et efficace.  

Reply

Marsh Posté le 07-04-2016 à 17:39:00   2  

cricrione a écrit :

j'en prendrais 2 ou 3...;) pour voir s il arrive a faire un demineur tous seul
il en faut 600 donc 48000 carte pour aller 3x plus vite que l actuel premier supercalculateur (en fp16)


 
vu ton calcul, tu peux t'acheter ce genre de chose, ça te servira de calculatrice  :o  :whistle:

Reply

Marsh Posté le 07-04-2016 à 18:58:26   0  

j'ai commencer à lire 2 3 commentaire en voyant le prix du bouzin j'ai le cerveaux qui à commencer à buguer en gros on fais quoi avec ces engins

Reply

Marsh Posté le 07-04-2016 à 20:03:29   3  

J'avoue que je ne suis pas très intéressé à titre personnel par les exploits de type calculateur Cray à coups de cartes graphiques pour des sommes extravagantes.
 
La base de l'usage Pro, c'est surtout les rendus, que ce soit en temps réel ou de haute qualité. Donc la base ce sont les calculs sous flottants simple précision. Ce GPU fait dans ce domaine, à peine 2x fois mieux qu'une carte AMD R9 390 8Go qu'on trouve à 300 euros, soit dépassée par 2 R9 390X 8Go. Ca vaut aussi pour le FP64 (pour d'autres types de calculs) si on prend deux Firepro W9100 avec 16Go de DDR5 à 3000 euros chaque (les R9 39x sont bridées). En passant à des flottants 16 bits il est censé aller 2x plus vite, mais les rendus 16 bits sont vraisemblablement 2x plus pourris (donc aucun gain à en attendre).
Nvidia vend donc très cher, au moins au double du prix si on regarde la gamme concurrent pro déjà bien vieille et gravée en 28nm, et ce avec, en plus, une architecture quasiment 100% propriétaire. Un progrès qui n'est absolument pas spectaculaire compte tenu de la finesse de gravure utilisée, de la HBM2 etc etc.
Le seul argument Nvidia c'est Cuda, et tous ces développeurs qui se sont spécialisés dans une architecture propriétaire.

Reply

Marsh Posté le 07-04-2016 à 22:08:14   1  

Tiens, c'est curieux, plusieurs personnes semblent évoquer ce tarif autour de $10000, ce serait donc un bruit de couloirs qui circule au GTC ? :)
 
Sinon, d'après la présentation de Nvidia, le DGX-1 est à 170 TF, tandis qu'un Dual Xeon est à 3 TF (CPU+GPU).
 
Le temps d'apprentissage d'AlexNet serait de 2 heures, contre 150 heures pour un Dual Xeon, et pour parvenir à réaliser ce temps de 2 heures avec des serveurs Dual Xeon, il faudrait en faire tourner plus de 250 en parallèle.
 
Le DGX-1 serait donc plus performant que 250 serveurs Dual Xeon réunis, du moins dans son domaine de prédilection, ce qui du coup relativiserait énormément son coût, du moins je pense.
 
https://lut.im/M8Q0kyUGXh/dI3arL8NMzhD0kqa.jpg


Message édité par Silmarys le 07-04-2016 à 22:20:20
Reply

Marsh Posté le 08-04-2016 à 00:22:20   0  

non je dirai moins de 10K€ le GPU. En effet il faut compter le cout des 2 Xeon 16C/32T, des 2x256Go de RAM, des 8To de SSD en RAID. Plus des services de garantie. Ca laisse à peu près 80K€ pour les Pascal GP100, peut etre un peu moins. Bon en fait 10K€ doit etre pas loin de la verité

Reply

Marsh Posté le 08-04-2016 à 01:37:34   1  

Silmarys a écrit :

Tiens, c'est curieux, plusieurs personnes semblent évoquer ce tarif autour de $10000, ce serait donc un bruit de couloirs qui circule au GTC ? :)
 
Sinon, d'après la présentation de Nvidia, le DGX-1 est à 170 TF, tandis qu'un Dual Xeon est à 3 TF (CPU+GPU).
 
Le temps d'apprentissage d'AlexNet serait de 2 heures, contre 150 heures pour un Dual Xeon, et pour parvenir à réaliser ce temps de 2 heures avec des serveurs Dual Xeon, il faudrait en faire tourner plus de 250 en parallèle.
 
Le DGX-1 serait donc plus performant que 250 serveurs Dual Xeon réunis, du moins dans son domaine de prédilection, ce qui du coup relativiserait énormément son coût, du moins je pense.
 
https://lut.im/M8Q0kyUGXh/dI3arL8NMzhD0kqa.jpg


 
Comme dit, en MCTS, c'est certain qu'NVVidia n'a actuellement pas d'égal. Pour le reste ... :/

Invite_Surprise a écrit :


MysterieuseX a écrit :

Idem pour Piz Daint, c'était en pour parlés y'a 1 ans déjà, vue que Cray (le fournisseur) ne doit plus faire de NVidia.


Un lien, non ?
Parce que lors de la conférence, Cray était toujours mentionné pour proposer des solutions P100 en début d'année prochaine :
 
http://tof.canardpc.com/preview2/e7686826-d34c-42dd-9ca4-2b23b65e394e.jpg


 
Intel qui s'est payé les licences sur Gemini et Aries ?
Le contrat OEM entre Cray et Nvidia en 2010 doit rentrer en renégociation fin 2016/début 2017 et y'a des bruits de couloirs quant à un non renouvellement.

Reply

Marsh Posté le 08-04-2016 à 02:22:18   1  

Quelle est cette histoire de Monte-Carlo? On parle ici de training d'un réseau de neurones. Le GPU est particulièrement efficace pour les opérations de DL (convolutions, produits de matrices).

Reply

Marsh Posté le 08-04-2016 à 08:22:59   1  

jdemouth a écrit :

Quelle est cette histoire de Monte-Carlo? On parle ici de training d'un réseau de neurones. Le GPU est particulièrement efficace pour les opérations de DL (convolutions, produits de matrices).


 
Sauf que le GPU n'est au dessus du x86 que sur du tree search. Je te renvoie encore a AlphaGo qui est devenue une IA de référence.

Reply

Marsh Posté le 08-04-2016 à 15:03:06   1  

Non. Le GPU est au dessus sur les convolutions. AlphaGo fait tourner des convolutions pour évaluer ces policy networks. C'est écrit noir sur blanc dans leur papier Nature.

Reply

Marsh Posté le 08-04-2016 à 21:20:38   1  

Arrête avec ton tree search, la quasi-totalité des réseaux de neurones est grandement accéléré par des GPUs, ce ne sont que des produits matriciels et des FFTs.

Reply

Marsh Posté le 10-04-2016 à 07:24:37   0  

@caenorst: voire Winograd pour les 3x3.

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed