gototopgototop

Analyseur de profondeur sémantique

Projet:

Trier tous les mots stockés dans le projet Gutenberg (http://www.gutenberg.org) –  16 milliards de caractères, 23929 auteurs,2'880'579'249 mots- en juillet 2010. Créer le dictionnaire des 100000 mots les plus utilisés en anglais, classés par fréquence, avec les définitions de wordnet 3.0. Télécharger le dictionnaire (6000 pages) Liste des 23929 auteurs Le calcul, qui a pris 96 heures, a trouvé 2647659 mots uniques dans les livres analysés.100000 mots representent 2854175206 mots dans le texte global (99,08%). Pour comprendre 50% du vocabulaire de ces livres, vous devez connaitre les 93 premiers mots, pour 70% les 696 premiers, pour 90% les 6428 premiers, pour 95% les 14736 premiers.

Ce gadget analyse le vocabulaire d'un texte pour en créer le dictionnaire fréquentiel des mots les plus utilisés. Shakespeare a utilisé 30264 mot dans son oeuvre complète. Pour connaitre les mots les plus utilisé, copiez/collez simplement le texte dans le champ prévu.

 

Les 100000 premiers mots de l'anglais suivent la loi de Zipf:

Ce diagramme représente le nombre de mots présents en fonction du rang.

En français, le nombre de textes présents dans le projet Gutenberg est plus limité (139'837'771 mots) et représente 538086 mots uniques. Il vous faut connaitre les premiers pour comprendre 50% des textes, pour 70% les 795 premiers, pour 90% les 9050 premiers, pour 95% les 21231 premiers.Téléchargez les 30000 mots les plus fréquents du français.

Autres langues: Finlandais, Espagnol, Suédois, Italien, Allemand, Islandais, Latin , Portugais (10000 mots par langue)

2854175206