[ACP] Analyse en Composantes Principales

Analyse en Composantes Principales [ACP] - Sciences - Discussions

Marsh Posté le 05-01-2005 à 10:14:57    

Bonjour,
 
Est ce que quelqu'un saurait me faire un topo façon "je parle à un gamin" sur l'ACP.
Pas tellement pour avoir les bases mathématiques pour comprendre, mais plutot pour visualiser sous forme de métaphore le concept !
 
Merci beaucoup

Rmq
: j'ai deja trouvé pas mal de doc sur le net, ce que je veux c'est plutot le point de vu individuel de personnes qui connaissent dejà, avec leurs mots !

Reply

Marsh Posté le 05-01-2005 à 10:14:57   

Reply

Marsh Posté le 05-01-2005 à 10:27:30    

Soit X un vecteur de dimension n
Y le vecteur de dimension d obtenu par ACP
 
Alors Y est le vecteur le plus proche de X (selon la  distance euclidienne) parmi tous les vecteurs possibles de dimension d; c'est pour ça qu'on dit que l'ACP est optimale pour l'erreur de reconstruction : Y est la meilleure reconstruction de X en dimension d
 
Et c'est pour ça que le principal intérêt de l'ACP est de réduire la dimension d'un ensemble de points en perdant le minimum d'information
 
Voilà voilà

Reply

Marsh Posté le 07-01-2005 à 22:35:27    

Je suis d'accord avec Osama, mais je vais quand même donner ma façon de voir la chose, qui est un peu différente.
 
En gros, tu as un nuage de points (tes mesures) dans un espace à N dimensions (pour chaque point de mesure, tu as mesuré N paramètres).  
L'idée de base est de voir si certains paramètres sont liés entre eux et donc de supprimer ces paramètres superflus pour simplifier le problème.  
 
Prenons par exemple des mesures faites sur des arbres malades: tu mesure la largeur des trons de l'arbre, leur age et leur degré de maladie. Donc tu obtiens des points dans un espace 3D. Mais l'age et la taille sont fortement liés, tu vas donc pouvoir remplacer ces deux données par une seule (qui est une combinaison des deux et n'a donc plus vraiment de sens physique, mais c'est pas grave), tu obtiens alors une relation en 2D, le degré de maladie en fonction de l'age/taille, ce qui est beaucoup plus facile à interpréter.
 
La PCA se fait donc en plusieurs étapes:
- tu regarde le lien entre tes différentes entrées (calcul de la matrice de covariance).
- tu calcules les combinaisons d'entrées qui permettent de maximiser la variance selon les directions principales (vecteurs et valeurs propres)
- tu élimines les directions selon lesquelles la variance est très faible, qui correspondent aux directions selon lesquelles il n'y a plus d'informations indépendantes aux autres directions.
 
Cette méthode permet donc de diminuer le nombre de paramètres tout en conservant un maximum de variance, ce qui correspond normalement à garder un maximuim d'informations.
 
mais attention, ça ne marche pas toujours !!
 
De un: l'ACP est une méthode linéaire, elle ne marchera pas pour des relations fortement non-linéaires. Pour des relations faiblement non-linéaire, ça marchera plus ou moins bien...
De deux, les directions de variances minimales sont parfois justement celles contenant l'information pertinentes pour le problèmes en question... il y a normalement moyen de résoudre le problème en normalisant les données avant de faire la PCA, mais c'est à vérifier...

Reply

Marsh Posté le 07-01-2005 à 22:36:46    

Petite question : c'est quel niveau?


---------------
Visites de cimetières -  Cimetière de Velennes - Facebook
Reply

Marsh Posté le 07-01-2005 à 22:43:31    

moi je vois ça dans un cours de réseaux de neurones artificiels, en dernière année d'ingénieur. Mais l'ACP n'a rien à voir avec ça, c'est plutôt une méthode qui peut être utilisée en pré-traitement des données pour les autres méthodes vues au cours.
 
Niveau difficulté, ça pourrait être vu avant, il faut des bonnes bases en calcul matriciel et aussi en stat je supposes.


Message édité par deltaden le 08-01-2005 à 04:16:17
Reply

Marsh Posté le 07-01-2005 à 22:53:27    

J'avais vu ca en 3e année en biologie moi
En systematique animale (ou vegetale, je sais plus :o)

Reply

Marsh Posté le 07-01-2005 à 22:54:45    

Cloud1109 a écrit :

J'avais vu ca en 3e année en biologie moi
En systematique animale (ou vegetale, je sais plus :o)


Oui, on l'utilise aussi couramment pour la morphométrie etc.

Reply

Marsh Posté le 07-01-2005 à 23:51:35    

Perso, j'ai vu ça lors de ma première licence en psychologie. C'est un outil fort utilisé et très pratique ! (Quoi qu'on préfère la PAF à la PC)

Reply

Marsh Posté le 08-01-2005 à 04:14:49    

akanico > pour ma réponse du niveau mathématique requis, c'ets uniquement pour bien comprendre toutes les justifications théoriques. Son utilisation pratique ne demande pas de savoir tous les détails évidement (sans doute qd même les bases en stats pour savoir ce qu'on fait ;) ) !


Message édité par deltaden le 08-01-2005 à 04:15:23
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed