Comment utiliser DBPedia pour extraire des Tags / Mots-clés du contenu?
j'explore comment je peux utiliser les informations taxonomiques de Wikipedia pour extraire des Tags/Mots clés de mon contenu.
j'ai trouvé des articles sur DBPedia. DBpedia est un effort communautaire pour extraire des informations structurées de Wikipedia et de rendre cette information disponible sur le Web.
Quelqu'un a-t-il utilisé ses services web? Savez-vous comment ils fonctionnent et comment fiable, il est?
2 réponses
DBpedia est un fantastique, de haute qualité de la ressource. Toutefois, pour transformer votre contenu en un ensemble de concepts DBpedia pertinents, vous aurez besoin de les identifier avec précision dans votre texte, ce qui implique au moins deux étapes:
-
identifiez les concepts Dbpédia dans votre contenu: Cela inclut la reconnaissance des noms de concept (et des noms alternatifs) dans le texte, et aussi la désambiguïsation parmi toutes les significations possibles de chaque phrase. Le le terme " soleil "peut faire référence à des dizaines de concepts possibles selon sa" page de désambiguïsation incluant une étoile, des journaux, des noms de personnes, etc. Cela implique l'identification, la classification et l'établissement de liens entre les entités.
-
Identifier lequel de ces concepts sont intéressants: Par exemple, voulez-vous le concept "article Défini" qui apparaissent lorsque le texte comporte le terme "le" ( Le redirige vers)?
vous pouvez envisager une bibliothèque ou un service d'analyse de texte préexistant, qui prend en charge un lien d'entité vers DBpedia. Un excellent outil pour l'indexation thématique est Maui , qui a été développé par Aliona Medelyan au cours de son Doctorat. Une autre grande solution open source est Wikipedia Miner de David Milne à la même université.
deux services commerciaux qui fournissent un lien vers les concepts DBpedia sont Zemanta 1519290920 "et Extractiv (permettre un certain niveau de libre utilisation). DBpedia spotlight option. D'autres qui peuvent fournir ces capacités sont énumérés à: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais
Divulgation: je [utilisé] de travailler à Extractiv (défunte), qui est propulsé par Langue Computer Corporation de la PNL.
vous pouvez utiliser Apache Stanbol pour ce processus. Entityhub
composant D'Apache Stanbol fournit la production D'index DBPedia personnalisés en fonction de vos besoins. Ensuite, vous pouvez utiliser le composant Enhancer
pour extraire des lieux, des personnes, des entités de lieux de votre texte.
le thread suivant peut être utile pour vous.
http://markmail.org/message/52266yl5ohijxiof
vous pouvez accès aux démos d'Apache Stanbol à partir du lien suivant:
http://dev.iks-project.eu /
vous pouvez aussi poser vos questions à stanbol-dev AT incubator.apache.org
.