Lib pour faire une lemnisation de textes en français

Lib pour faire une lemnisation de textes en français - Algo - Programmation

Marsh Posté le 04-09-2008 à 11:41:29    

Je cherche à faire le truc suivant : quand je tombe sur un mot, je voudrais avoir sa forme "initiale" et éventuellement (en bonus track) sa fonction grammaticale.
Ex :
j'ai dans une texte le mot "aimerait" : je voudrais avoir en sortie de mon algo, "aimer, verbe"
"voitures" -> "voiture, nom commun" (où au moins, "voiture, nom" )
...
 
Est-ce que vous connaissez une librairie (si possible en php) qui ferait ça gratuitement? A défaut, est-ce que vous connaitriez un dictionnaire de la langue français en mysql à télécharger librement?
 
J'ai déjà trouvé ça : http://alx2002.free.fr/utilitarism [...] er_fr.html
Mais bon, pour "aimerait", il me donne "aim"... C'est un début.
 
Merci.


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 04-09-2008 à 11:41:29   

Reply

Marsh Posté le 04-09-2008 à 12:19:34    

En lisant qq pdf trouvés par google, je suis tombé là-dessus : http://www.lexique.org/telecharger.php
 
Ca m'a l'air prometteur.


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 12-09-2008 à 16:38:19    

Bonjour,
 
J'utilisais aussi le terme de lemnisation, mais il semble que les termes plus utilisés sont LEMMISATION ou mieux LEMMATISATION qui donnent beaucoup plus d'occurences dans google.
 
Voir par exemple ce lien :
 
http://www.guichetdusavoir.org/ipb [...] entry21360
 
En espérant que cela améliore votre recherche

Reply

Marsh Posté le 15-10-2008 à 13:27:51    

comme dit précédemment, j'ai carrément trouvé une "BD" de la langue française avec tout ce que je voulais donc, plus besoin d'un algo.
Cette BD donne le lemme de chaque mot, son découpage en syllabes ou consonnes/voyelles, des fréquences d'apparitions suivant des contextes (films, livres), fonction grammaticale, genre, singulier/pluriel... Bref, bien plus que mon besoin initial ;)


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 19-03-2010 à 16:23:05    

bonjour,
 
peux tu me fournir cet BD ?
car je planche sur le même problème
 
Merci
 

rufo a écrit :

comme dit précédemment, j'ai carrément trouvé une "BD" de la langue française avec tout ce que je voulais donc, plus besoin d'un algo.
Cette BD donne le lemme de chaque mot, son découpage en syllabes ou consonnes/voyelles, des fréquences d'apparitions suivant des contextes (films, livres), fonction grammaticale, genre, singulier/pluriel... Bref, bien plus que mon besoin initial ;)


Reply

Marsh Posté le 19-03-2010 à 16:51:05    

Je t'ai donné le lien : http://www.lexique.org/telecharger.php. Après, y'a plus qu'à parser le fichier texte et de modéliser une BD (1 ou plusieurs tables). Moi, j'ai fait qu'une table, mais la modélisation va grandement dépendre du traitement que tu veux faire derrière, donc ça va influer sur le parser.
 
Edit : pas la peine de me contacter par mon site perso, ce topic convient très bien (ou éventuellement en MP). ;)


Message édité par rufo le 19-03-2010 à 16:55:26

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed