Comment récupérer le contenu de mot Wiktionary?
comment L'API Wiktionary peut-elle être utilisée pour déterminer si un mot existe ou non?
6 réponses
L'API Wiktionary API peut être utilisé pour demander si un mot existe ou non.
exemples pour les pages existantes et non existantes:
http://en.wiktionary.org/w/api.php?action=query&titles=test
http://en.wiktionary.org/w/api.php?action=query&titles=testx
le premier lien fournit des exemples sur d'autres types de formats qui pourraient être plus faciles à analyser.
pour récupérer les données du mot dans un petit format XHTML (si plus d'existence est nécessaire), demander la version imprimable de la page:
http://en.wiktionary.org/w/index.php?title=test&printable=yes
http://en.wiktionary.org/w/index.php?title=testx&printable=yes
ceux-ci peuvent alors être analysés avec n'importe quel analyseur XML standard.
il y a quelques mises en garde dans le simple fait de vérifier que Wiktionary a une page avec le nom que vous recherchez:
Avertissement #1 : tous les Wiktionnaires, y compris le Wiktionary anglais, ont en fait pour objectif d'inclure chaque mot dans chaque langue, donc si vous utilisez simplement L'appel API ci-dessus, vous saurez que le mot que vous demandez est un mot dans au moins une langue, mais pas nécessairement en anglais: http://en.wiktionary.org/w/api.php?action=query&titles=dicare
Caveat #2 : peut-être qu'une redirection existe d'un mot à un autre. C'est peut-être une autre orthographe, mais c'est peut-être une erreur. L'appel API ci-dessus ne fera pas de différence entre une redirection et un article: http://en.wiktionary.org/w/api.php?action=query&titles=profilemetry
Caveat #3 : certains Wiktionaries incluant le Wiktionary anglais incluent "common misspellings": http://en.wiktionary.org/w/api.php?action=query&titles=fourty
Caveat #4 : certains Wiktionaries permettent les entrées en raccourci qui ont peu ou pas d'informations sur le terme. Ceci était commun sur plusieurs Wiktionaries mais pas sur le Wiktionary anglais. Mais il semble avoir maintenant étendre également à l'anglais Wiktionnaire: https://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83 (permalink pour quand le tampon est rempli de sorte que vous pouvez toujours voir ce que un talon ressemble à: https://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161 )
si ceux-ci ne sont pas inclus dans ce que vous voulez, vous devrez charger et analyser le wikitext lui-même, ce qui n'est pas une tâche insignifiante.
vous pouvez télécharger un dump de données Wikitionary . Il y a plus d'informations dans le FAQ . Pour vos besoins, le "151950920 définitions de" vidage est probablement un meilleur choix que le dump xml.
pour que ce soit vraiment simple, extraire les mots de la décharge comme ça:
bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*::' > words
vous devriez essayer JWKTL. Je viens de découvrir ce sujet ;)
http://en.wikipedia.org/wiki/Ubiquitous_Knowledge_Processing_Lab#Wiktionary_API
si vous utilisez Python, vous pouvez utiliser WiktionaryParser par Suyash Behera.
vous pouvez l'installer par
sudo pip install wiktionaryparser
exemple d'usage:
>>> from wiktionaryparser import WiktionaryParser
>>> parser = WiktionaryParser()
>>> word = parser.fetch('test')
>>> another_word = parser.fetch('test', 'french')
>>> parser.set_default_language('french')