Comment récupérer le contenu de mot Wiktionary?

comment L'API Wiktionary peut-elle être utilisée pour déterminer si un mot existe ou non?

75
demandé sur Dave Jarvis 2010-05-05 08:05:50

6 réponses

L'API Wiktionary API peut être utilisé pour demander si un mot existe ou non.

exemples pour les pages existantes et non existantes:

http://en.wiktionary.org/w/api.php?action=query&titles=test http://en.wiktionary.org/w/api.php?action=query&titles=testx

le premier lien fournit des exemples sur d'autres types de formats qui pourraient être plus faciles à analyser.

pour récupérer les données du mot dans un petit format XHTML (si plus d'existence est nécessaire), demander la version imprimable de la page:

http://en.wiktionary.org/w/index.php?title=test&printable=yes http://en.wiktionary.org/w/index.php?title=testx&printable=yes

ceux-ci peuvent alors être analysés avec n'importe quel analyseur XML standard.

56
répondu Michael Mrozek 2014-09-29 06:07:37

il y a quelques mises en garde dans le simple fait de vérifier que Wiktionary a une page avec le nom que vous recherchez:

Avertissement #1 : tous les Wiktionnaires, y compris le Wiktionary anglais, ont en fait pour objectif d'inclure chaque mot dans chaque langue, donc si vous utilisez simplement L'appel API ci-dessus, vous saurez que le mot que vous demandez est un mot dans au moins une langue, mais pas nécessairement en anglais: http://en.wiktionary.org/w/api.php?action=query&titles=dicare

Caveat #2 : peut-être qu'une redirection existe d'un mot à un autre. C'est peut-être une autre orthographe, mais c'est peut-être une erreur. L'appel API ci-dessus ne fera pas de différence entre une redirection et un article: http://en.wiktionary.org/w/api.php?action=query&titles=profilemetry

Caveat #3 : certains Wiktionaries incluant le Wiktionary anglais incluent "common misspellings": http://en.wiktionary.org/w/api.php?action=query&titles=fourty

Caveat #4 : certains Wiktionaries permettent les entrées en raccourci qui ont peu ou pas d'informations sur le terme. Ceci était commun sur plusieurs Wiktionaries mais pas sur le Wiktionary anglais. Mais il semble avoir maintenant étendre également à l'anglais Wiktionnaire: https://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83 (permalink pour quand le tampon est rempli de sorte que vous pouvez toujours voir ce que un talon ressemble à: https://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161 )

si ceux-ci ne sont pas inclus dans ce que vous voulez, vous devrez charger et analyser le wikitext lui-même, ce qui n'est pas une tâche insignifiante.

22
répondu hippietrail 2016-08-28 06:25:05

vous pouvez télécharger un dump de données Wikitionary . Il y a plus d'informations dans le FAQ . Pour vos besoins, le "151950920 définitions de" vidage est probablement un meilleur choix que le dump xml.

18
répondu kybernetikos 2011-08-18 08:15:18

pour que ce soit vraiment simple, extraire les mots de la décharge comme ça:

bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*::' > words
7
répondu benroth 2012-03-24 23:14:27
1
répondu arek 2013-01-14 14:45:42

si vous utilisez Python, vous pouvez utiliser WiktionaryParser par Suyash Behera.

vous pouvez l'installer par

sudo pip install wiktionaryparser

exemple d'usage:

>>> from wiktionaryparser import WiktionaryParser
>>> parser = WiktionaryParser()
>>> word = parser.fetch('test')
>>> another_word = parser.fetch('test', 'french')
>>> parser.set_default_language('french')
1
répondu osolmaz 2018-03-20 19:43:06