Quelqu'un a analysé le Wiktionnaire? [fermé]

Wiktionnaire est un wiki dictionnaire qui couvre de nombreuses langues. Il y a même des traductions. Je serais intéressé à l'analyse et à jouer avec les données, quelqu'un a fait quelque chose comme ça avant? Est-il une bibliothèque que je peux utiliser? (De Préférence Python.)

32
demandé sur Nemo 2010-07-29 19:36:05

11 réponses

Wiktionary fonctionne sur MediaWiki, qui a une API .

L'une des sous-pages de la documentation de L'API est code Client, qui répertorie certaines bibliothèques Python.

20
répondu Amber 2010-07-29 15:40:21

J'avais à un moment téléchargé une décharge Wiktionnaire, essayant de rassembler des mots et des définitions pour les langues slaves. Je l'ai approché en utilisant elementtree pour parcourir le fichier xml qui est le vidage. J'éviterais d'essayer de gratter ou d'explorer le site, et il suffit de télécharger le vidage xml que wikimedia fournit pour wiktionary. Allez dans le Wikimedia downloads , Recherchez les dumps du Wiktionnaire anglais ( enwiktionary) et allez dans le dump le plus récent. Vous voudrez probablement le pages-articles. xml. BZ2 fichier, qui est juste le contenu de l'article, pas d'historique ou de commentaires. Analysez ceci avec les bibliothèques de traitement xml que vous préférez en python. Personnellement, je préfère elementtree. Bonne chance.

23
répondu razzmataz 2010-07-29 20:59:08

Wordnik a fait un bon travail d'analyse-des définitions, etc et ils ont une grande api

Comme les autres l'ont mentionné, wiktionary est un formatage-désastre, et n'a pas été construit pour être lisible par ordinateur

15
répondu spencercooly 2012-03-16 09:51:06

Oui, beaucoup de gens ont analysé Wiktionary. Vous pouvez généralement trouver des expériences passées dans le Wiktionnaire-l mailing list archives.

Un projet non mentionné par d'autres réponses est L'extraction Wiktionary RDF de DBPedia .

Des dizaines D'autres projets de recherche ont analysé le Wiktionnaire: vous pouvez trouver quelques exemples dans un spécial Wiktionnaire récent et dans autres numéros du bulletin de recherche Wikimedia.

Récemment quelqu'un a également fait une Wiktionary anglais REST API {[2] } qui inclut un sous-ensemble non spécifié des données Wiktionary; les plans futurs pour la chose ne sont pas encore connus.

10
répondu Nemo 2016-02-13 19:17:13

J'ai eu une fissure à analyser le Wiktionnaire Allemand. J'ai fini par l'écrire comme trop difficile, mais j'ai mis mon code (pas du tout rangé) à https://github.com/benreynwar/wiktionary-parser avant que j'abandonne. Bien qu'il existe des conventions utilisées par les éditeurs, elles ne sont pas appliquées par autre chose que la surveillance par les pairs. La diversité des modèles utilisés avec toutes les fautes de frappe dans les pages rend l'analyse assez difficile.

Je pense que le problème est qu'ils ont utilisé le même système que pour wiktionary qui est idéal pour la facilité d'utilisation par les éditeurs, mais n'est pas approprié pour le contenu beaucoup plus structuré de wiktionary. C'est dommage parce que si le Wiktionnaire pouvait être facilement analysé, ce serait une ressource extrêmement utile.

9
répondu Ben Reynwar 2015-12-04 05:27:55

Je viens de faire une liste de mots de la décharge allemande comme ça:

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
4
répondu benroth 2012-03-24 23:05:42

Vous êtes invités à jouer avec la base de données MySQL parsed Wiktionary. Il existe deux bases de données (Wiktionnaire anglais et Wiktionnaire russe) créées par L'analyseur écrit en Java: http://wikokit.googlecode.com

Si vous aimez PHP, alors vous êtes invités à jouer avec piwidict - API PHP à ce Wiktionnaire lisible par machine2

4
répondu Andrew Krizhanovsky 2014-12-10 09:49:08

Vous pouvez être intéressé par le projet dbnary , pas Python mais intéressant. Les revendications prennent en charge l'analyse pour 21 langues et alimentent wikdict .

3
répondu yota 2015-07-29 10:18:27

Il y a aussi JWKTL qui fait un bon travail pour analyser et extraire des données structurées du Wiktionnaire. Il est écrit en Java et prend en charge les éditions anglaise, allemande et russe.

1
répondu Jan Berkel 2015-06-17 00:57:20

Cela dépend de la façon dont vous devez l'analyser. Si vous avez juste besoin d'obtenir tout le contenu d'un mot dans une langue (définition, étymologie, prononciation, conjugaison, etc.) ensuite c'est assez facile. Je l'avais déjà fait, bien que en Java en utilisant jsoup

Cependant, si vous avez besoin de l'analyser à différents composants du contenu (par exemple, simplement obtenir les définitions d'un mot), alors ce sera beaucoup plus difficile. Une entrée Wiktionnaire pour un mot dans une langue n'a pas modèle prédéfini, donc un en-tête peut être quelque chose de <h3> à <h6>, l'ordre des sections peut être brouillé, ils peuvent être répétitifs, etc.

0
répondu Chin 2015-06-17 00:22:09

J'ai écrit un analyseur primitif pour le dump Wiktionnaire allemand en Java qui extrait uniquement les noms et leurs articles, ainsi que leur traduction arabe, sans aucune dépendance. L'exécution prend beaucoup de temps, alors soyez averti. S'il y a intérêt/besoin d'analyser plus ou d'autres données, dites-moi, je pourrais y regarder comme le temps le permet.

-1
répondu skreutzer 2018-05-19 11:07:14