Machine Learning & Data Science [Topic Unique] - Etudes / Orientation - Emploi & Etudes
Marsh Posté le 05-02-2016 à 13:14:44
Ca faisait un moment que je voulais le créer, j'ai enfin pris le temps de mettre en forme le FP que j'avais préparé
Bien sur, c'est encore en construction et le FP est ouvert à toute contribution
Marsh Posté le 05-02-2016 à 13:18:10
Juste pour te dire qu'au M2 analyse numérique ou probabilités de Paris VI, il y a depuis l'an dernier une spécialisation en big data.
Marsh Posté le 05-02-2016 à 14:00:45
la spécialisation est ouverte à tous les masters modélisation apparemment + Probas + stat et ingé maths
Marsh Posté le 05-02-2016 à 14:01:32
ReplyMarsh Posté le 05-02-2016 à 14:23:08
Hmm...Par contre faudrait qu'ils pensent à mettre à jour leurs sites!Ça a pas changé depuis deux ans on dirait...
Marsh Posté le 05-02-2016 à 14:32:58
IWH
On a le MSIAM (M2R mathématiques appliquées et industrielles) en spécialités Data Science ou Statistiques à Grenoble (Ensimag/UJF) et le MS Big Data Ensimag + GEM
Marsh Posté le 05-02-2016 à 16:49:59
Interview de Yann LeCun sur France Culture aujourd'hui sur le Deep Learning, ré-écoutable en ligne
http://www.franceculture.fr/emissi [...] p-learning
PS: j'ai mis a jour les formations
Marsh Posté le 08-02-2016 à 20:23:37
C'est un peu curieux de mettre le certificat big data de l'upmc dans les principaux master (c'est juste une surcouche (des cours en plus) à prendre dans des masters antérieurs), et de ne pas citer des masters entierement tournés vers ce sujet :
-Du coté de Paris saclay : Master (math) DataScience de l'X, et master (info) DataKnowledge de paris-sud
-Du coté de Paris sciences lettres : Master (math) MASH de Dauphine
Marsh Posté le 08-02-2016 à 23:06:07
Vous avez des ordres de grandeur pour les salaires en JD à Londres (ainsi que US / HK) ?
Marsh Posté le 09-02-2016 à 09:31:19
ac112447 a écrit : C'est un peu curieux de mettre le certificat big data de l'upmc dans les principaux master (c'est juste une surcouche (des cours en plus) à prendre dans des masters antérieurs), et de ne pas citer des masters entierement tournés vers ce sujet : |
Je suis diplomé depuis un certain temps, je ne connais pas toutes les formations (qui souvent ont été créées récemment); je peux rajouter celles-ci vu qu'elles ont l'air importantes.
Mais bon, je vais pas non plus faire l'inventaire de tous les M2 de France, on est sur HFR, seule l'élite nous intéresse
lipton36 a écrit : Vous avez des ordres de grandeur pour les salaires en JD à Londres (ainsi que US / HK) ? |
J'avais été contacté par un cabinet de recrutement il y a quelques temps, dont certaines offres+salaires sont disponibles en ligne: http://www.optimussearch.com/data-technology
A Londres, ca a l'air d'être du 40/50k en fixe; mais je ne sais pas à quel point c'est représentatif. J'imagine que ce serait beaucoup plus si c'est pour bosser en banque
Marsh Posté le 09-02-2016 à 10:41:46
Le M2MO de P7 (Laure Élie) a un parcours data science je crois
Marsh Posté le 09-02-2016 à 18:02:28
Marsh Posté le 09-02-2016 à 19:21:11
Rontgen a écrit : |
oui bon après si tu met le master de lensimag, tu es un peu obligé de mettre celui de l'x.
Par contre tu as fait une pétite erreur dans l'adresse du master : http://datascience-x-master-paris-saclay.fr (tu as troqué un - pour un .)
Ah oui, dans les lectures de références je propose "Foundations of Machine learning" de Mehryar Mohri, Afshin Rostamizadeh and Ameet Talwalkar qui est un must read, et qui et pas mal différent du Hastie
Marsh Posté le 23-02-2016 à 11:59:43
Rontgen a écrit : |
Pandas
Sinon tu peux rajouter R (https://www.r-project.org) pour la partie stat/ML, open-source avec une grosse communauté. Pour python ya aussi ipython (http://www.ipython.org/) qui permet de faire du python dans ton navigateur (pratique pour faire de l'analyse de données).
Veille techno :
http://www.datascienceweekly.org : Newsletter qui parait tous les Jeudi et qui recense des articles de blogs, videos
https://twitter.com/kdnuggets : Compte twitter du site kdnuggets.com, à la base un vieux site de data mining (1997 ) qui a migré vers le bigdata/datascience. Mise à jour plusieurs fois par jour c'est une bonne source d'information
Marsh Posté le 09-03-2016 à 07:35:07
Match de go retransmis en direct entre DeepMind et Lee Seldon !
https://youtu.be/vFr3K2DORc8
Spoiler : Première victoire de la machine |
Marsh Posté le 09-03-2016 à 09:56:34
Super idée je
Je suis dans la situation de mystiko, j'ai pleins de datas, je fais joujou, des stats et des beaux charts (:o) mais pas encore de Machine Learning à proprement parlé.
Rontgen a écrit : Interview de Yann LeCun sur France Culture aujourd'hui sur le Deep Learning, ré-écoutable en ligne |
En parlant de LeCun, je fais actuellement son cours au collège de France (d'autres HFRiens le font?), c'est hyper bien fait, les vidéos / supports sont ici
http://www.college-de-france.fr/si [...] 5-2016.htm
baigura a écrit : |
+1 ca pique les yeux sans le S
Marsh Posté le 09-03-2016 à 10:18:27
Merci, j'ai mis à jour le FP
J'ai aussi rajouté un sondage sur le match de Go qui fait le buzz en ce moment. Faites vos jeux
Marsh Posté le 09-03-2016 à 21:19:21
De ce que j'ai vu c'est assez basique mais il paraît que c'est bien expliqué.
Marsh Posté le 09-03-2016 à 21:31:14
Je l'ai fait
Il est très bien pour commencer mais je l'ai trouvé un peu lent parfois. Enfin disons que dès qu'il y a des maths, il prend vraiment son temps, ce qui est cool pour les non matheux mais pour d'anciens taupins ça pourrait aller plus vite
Marsh Posté le 09-03-2016 à 21:53:22
Stats pures, c'est à dire ? Théorie de l'estimation statistique @Neyman-Pearson, Rao-Blackwell, Lehman-Scheffé etc ? Je suis pas sûr que ça soit le plus utile en pratique, j'irais plutôt regarder du côté du machine learning statistique genre les robust regressions et tout.
Marsh Posté le 15-03-2016 à 11:18:51
mystiko a écrit : Je vais regarder alors. Je dois avoir des restes en maths quand même |
http://statweb.stanford.edu/~tibs/ [...] rint10.pdf
Marsh Posté le 15-03-2016 à 22:02:36
Hey ! Pour les masters on oublie pas non plus l'ex DEA-Lamberton qui a maintenant un parcours "probabilités appliquées et statistiques" orienté machine learning / big data
https://masters.math.cnrs.fr/media/ [...] 4-2015.pdf
Marsh Posté le 08-04-2016 à 22:11:04
Dans la liste des formations, je rajouterais le Master DAC (Données, Apprentissage, Connaissance) de Paris VI.
Marsh Posté le 12-05-2016 à 22:36:25
Merci.Concernant les formations, quelqu'un qui a une formation marketing au départ n'a pas le bagage mathématique et statistiques suffisant pour bosser dans le domaine des big data?
http://www.expert-only.com/marche- [...] isionnelle
Marsh Posté le 28-05-2016 à 18:13:49
Sinon
avez-vous déjà utilisé ce guide d'autoformation?
https://www.amazon.fr/Data-Scientis [...] +langage+r
Marsh Posté le 29-05-2016 à 01:16:20
Tu deviens pas Data Scientist avec un background en marketing.
Marsh Posté le 29-05-2016 à 01:46:42
lipton36 a écrit : Tu deviens pas Data Scientist avec un background en marketing. |
En prenant l'exemple de l'ENSAE :
18 BL
12 ECS
45 MP je crois (et pas de PC ni de PSI )
Plus un certain nombre d'AST, MASS, ECO, TSE etc (plus évidemment des Mines de province qui y vont après la 2A)
Toutes ces personnes peuvent potentiellement faire de la Data Science, donc pourquoi un type motivé avec un background en marketing pourrait pas y passer un an via un master et taffer là dedans après ?
Marsh Posté le 29-05-2016 à 02:03:44
Marrant le fight que ce font PSL et Paris Saclay à distance. On sent que les deux Comue préparent la guerre. Il y a plein de regroupement entre écoles/universités. Chacun affûte ses armes. Chacun lance ses masters co-accrédités avec pleins d'établissements.
Marsh Posté le 29-05-2016 à 02:32:25
Gnarlock0706 a écrit : |
Parce que c'est beaucoup de maths/info/stats.
En general les gens avec un background marketing sont mauvais dans les 3.
faut un peu plus que de la motivation pour apprendre a coder, rattraper 3 ans de maths/stats + integrer les concepts propres a la data science.
Si le but est de faire un truc serieux (ie qui permet par exemple de continuer dans un doctorat ensuite si on le veut).
Si c'est juste pour se donner un vernis data science parce que c'est hype c'est une autre histoire...
Marsh Posté le 29-05-2016 à 03:42:57
Merci mais que signifie BL et MP?
je suppose que le reste c'est sup de co, ast=admission sur titre,Mass ok,TSE(de Toulouse cf Jean Tirole?)
Marsh Posté le 29-05-2016 à 08:17:29
Parce que un an c'est pas suffisant pour rattraper le bagage scientifique. Pour l'ENSAE les BL et ESC ont une remise à niveau en maths en 1A, puis l'école dure 3 ans hein...
(J'ai pas compris pour les MASS, Mines de de province etc ?)
Marsh Posté le 29-05-2016 à 10:47:49
lipton36 a écrit : Parce que un an c'est pas suffisant pour rattraper le bagage scientifique. Pour l'ENSAE les BL et ESC ont une remise à niveau en maths en 1A, puis l'école dure 3 ans hein... |
Je disais juste qu'il était possible pour des étudiants des mines de Nancy ou de St Etienne d'intégrer directement l'Ensae en 2a après deux ans passé dans leurs écoles
@Lipton je ne savais pas pour le remise à niveau
@jupiter : mp=prépa maths physique, BL= prépa lettre avec un peu de maths
D'ailleurs est-ce qu'il y a beaucoup d'ex ensae qui se dirigent vers un doctorat ?
Marsh Posté le 05-02-2016 à 13:13:20
Data Science is the new sexy !
Pourtant, il n'y a pas de topic dédié sur HFR ! Voilà qui est chose faite
Bienvenue donc à tous les manipulateurs de données, les statisticiens, et tous ceux qui ont la flemme d'écrire des algos eux-mêmes
1) Informations générales
* Buzzword 1 : Machine Learning
TL;DR - Le machine learning, c'est des méthodes statistiques qui permettent à l'ordinateur \"d'apprendre une tache\" à partir de plein d'examples, plutot que d'exécuter un algorithme qui aurait du être concu spécialement pour ca par un expert (cf applications dans la section suivante).
Par exemple, pour trouver ce que représente une image, c'est plus pratique de donner à l'ordi un ensemble de photos en lui disant \"ca c'est un chien, ca c'est une maison\" plutot que d'écrire un algorithme qui reconnait un chien, un autre qui reconnait une maison, etc
* Buzzword 2 : Deep Learning
TL;DR - Sous-ensemble de méthodes de machine learning qui essayent de modéliser quelque chose de compliqué à partir de représentations très simples (qu'il s'agit estimer). Terme typiquement employé dans le contexte des réseaux de neurones. C'est un petit peu le contraire du feature engineering, qui consiste à combiner à la main des variables pour essayer de construire des statistiques de plus haut niveau, et qui demande souvent une expertise dans le domaine du problème à résoudre.
* Buzzword 3 : Big Data
TL;DR - Ensemble de techniques permettant de manipuler et traiter de très gros volumes de données, qui typiquement ne rentrent pas dans la mémoire d'un seul ordi.
2) Applications
Le machine learning est la nouvelle hype du moment, et de nombreuses entreprises s'y mettent. On retrouve donc des applications pour tous les gouts:
- Traitement d'image :
* Depuis un certain temps déjà, des algos de ML sont capables de lire des chiffres http://yann.lecun.com/exdb/lenet/index.html
* Recherche avec mots clés parmi les photos http://googleresearch.blogspot.it/ [...] cross.html
* Plus récemment, les Google Cars incoporent aussi du ML pour se déplacer de facon autonome
- Traitement du son
* Plus besoin de présenter Shazam, qui reconnait automatiquement et en quelques secondes n'importe quelle musique http://coding-geek.com/how-shazam-works/
* Les assistants vocaux sur les smartphones sont également de plus en plus fonctionnels grace au ML http://googleresearch.blogspot.it/ [...] -more.html
- Santé et médecine :
* Le ML permet d'automatiser l'analyse d'images médicales comme détecter des organes ( https://www.youtube.com/watch?v=7vtpWbrVdDY ) ou prédire l'évolution d'une maladie ( http://news.mit.edu/2015/predictin [...] brain-1006 )
* Aide au diagnostique pour les médecins https://www.youtube.com/watch?v=A4Uk88-DOBA
- Loisirs :
* La Kinect reconnait les parties de votre corps grace à du ML http://research.microsoft.com/pubs [...] nition.pdf
* Le programme Watson créé par IBM gagne à Jeopardy https://www.youtube.com/watch?v=WFR3lOm_xhE
* AlphaGo, réalisé par Google, vient de battre un joueur professionnel de Go http://deepmind.com/alpha-go.html
- Finance / Assurance :
* Discussion sur le sujet https://www.quora.com/How-do-financ [...] e-learning
- Imagerie satellitaire :
* Des start-ups se lancent dans l'analyse d'images satellite pour des applications variées: http://www.technologyreview.com/ne [...] te-images/
http://www.santafenewmexican.com/n [...] e9033.html
- Linguistique :
* Word2Vec permet de réaliser des opérations vectorielles sur des mots, par exemple \"Madrid - Espagne + France = Paris\" http://byterot.blogspot.de/2015/06 [...] ensim.html
* Apprendre à générer du Shakespeare, ou des articles scientifiques: http://karpathy.github.io/2015/05/ [...] ctiveness/
- Marketing/Publicite :
* Obligatoire de mentioner l'acteur principal Google, qui décrit pas mal de ses recherches ici http://googleresearch.blogspot.it
* Criteo personnalise les pubs sur les sites internets http://labs.criteo.com/2015/08/lar [...] at-criteo/
- et surement plein d'autres que j'oublie/je ne connais pas !
3) Se former
Les profils recherchés sont en général un mix entre mathématiques (en particulier statistiques) et informatique.
La plupart des écoles d'ingénieurs généralistes (ainsi que l'ENSAE/ENSAI) proposent les connaissances de base, mais même pour les HFRiens, une spécialisation est souvent utile, que ce soit par un Master ou des formations en ligne.
- Principaux Masters
* MVA (ENS Cachan) http://www.math.ens-cachan.fr/vers [...] aster-mva/
* Master Data Science (Université Paris Saclay) http://datascience-x-master.paris-saclay.fr/
* Data Science & Business Analytics (ECP / ESSEC) http://www.ecp.fr/home/Formations/ [...] _Analytics
* Apprentissage Information et Contenu (Paris-Sud) http://www.universite-paris-saclay [...] nd-content
* Master MASH (Paris Sciences et Lettres) http://www.di.ens.fr/~aspremon/MASH/
* Master Mathématiques & Applications - Filière Big Data (Paris VI) https://www.ljll.math.upmc.fr/FilBigData/index.php
* Master Industrial and Applied Mathematics - Parcours Data Science (ENSIMAG/UJF) http://msiam.imag.fr/
- Masteres Spécialisés
* MS Big Data (Telecom ParisTech) http://www.telecom-paristech.fr/fo [...] forts.html
* MS Data Science (ENSAE ParisTech) - http://www.ensae.fr/formations-nav [...] s-451.html
- Lectures de référence
* An Introduction to Statistical Learning, James/Witten/Hastie/Tibshirani http://www-bcf.usc.edu/~gareth/ISL/
Non seulement il est vraiment bien fait mais en plus il est gratuit
* Unsupervised Feature Learning and Deep Learning: http://deeplearning.stanford.edu/w [...] L_Tutorial
* Blog de Christopher Olah avec des articles très détaillés: http://colah.github.io/
- Videos intéressantes
* Deep learning vs Signal processing: Peut-on tout apprendre, la modélisation est-elle morte ?
https://www.youtube.com/watch?v=LZnAFO5gkOQ
- Cours en ligne
Coursera:
* Machine Learning (Ng)
C'est le plus connu des cours en ligne, les matheux trouveront que ca n'avance parfois pas très vite mais c'est une bonne facon d'acquérir les bases théoriques.
Udacity:
* Introduction to Machine Learning (Thrun/Malone)
Collège de France - Cours de Yann LeCun sur le deep learning
http://www.college-de-france.fr/si [...] 5-2016.htm
4) Pratiquer le machine learning
- Librairies Open-Source
* Python: Pandas / Scikit-learn
* Deep Learning: PyTorch / TensorFlow / CNTK / Caffe / Theano
Keras (API au-dessus de TensorFlow, CNTK, Theano)
* Java: Weka
- Intéressé par la compétition ? l'argent ? ou simplement la gloire ?
Kaggle permet de te mesurer aux autres sur des problèmes réels proposés par des entreprises ou des instituts de recherche.
DataScience propose aussi des challenges
- Bases de données publiques
Liste disponible ici: https://github.com/caesar0301/awesome-public-datasets
- Q&A
* Stack Exchange Cross Validated http://stats.stackexchange.com/
* Stack Exchange Data Science http://datascience.stackexchange.com/
* Reddit Machine Learning https://www.reddit.com/r/MachineLearning/
- Autres ressources en ligne
* http://www.datascienceweekly.org : Newsletter qui parait tous les Jeudi et qui recense des articles de blogs, videos, etc.
* https://twitter.com/kdnuggets : Compte twitter du site kdnuggets.com, à la base un vieux site de data mining (1997 ) qui a migré vers le bigdata/datascience, mise à jour plusieurs fois par jour.
5) Comment travailler dans le domaine ?
- Portails de recrutement:
http://www.datasama.com/
- Meet-ups:
http://www.meetup.com/fr/Paris-Mac [...] ons-group/
http://www.meetup.com/fr/BigDataSmartData/
http://www.meetup.com/fr/Paris_LearningGeeks/
http://www.meetup.com/fr/Deep-Learning-Paris-Meetup/
6) Divertissement
* Overfitting Thriller! https://www.youtube.com/watch?v=DQWI1kvmwRg
Enfin, une petite citation (ref) pour conclure
Big data is like teenage sex:
Everybody talks about it,
Nobody really knows how to do it,
Everyone thinks everyone else is doing it, so everyone claims they are doing it
7) Anciens sondages
Message édité par Rontgen le 02-09-2019 à 10:00:52