Précision: ANNIE vs Stanford NLP vs OpenNLP avec UIMA

mon travail prévoit d'utiliser un cluster UIMA pour exécuter des documents afin d'extraire des entités nommées et ce qui ne l'est pas. D'après ce que j'ai compris, UIMA ne contient que très peu de composants NLP. Je teste GATE depuis un moment maintenant et je suis assez à l'aise avec ça. Il fonctionne bien sur le texte normal, mais quand nous l'exécutons à travers certaines données de test représentatives, la précision diminue de manière significative. Les données texte que nous avons en interne sont parfois toutes les majuscules, parfois toutes les minuscules, ou un mélange des deux dans le même document. Même en utilisant les règles all caps d'ANNIE, la précision laisse encore beaucoup à désirer. J'ai récemment entendu parler de Stanford NLP et OpenNLP, mais je n'ai pas eu le temps de les former et de les tester. Comment ces deux-là se comparent-ils en termes de précision avec ANNIE? Ils travaillent avec UIMA comme GATE?

Merci d'avance.

17
demandé sur Drag 2013-04-07 04:06:12

3 réponses

il n'est pas possible/raisonnable de donner une estimation générale du rendement de ces systèmes. Comme vous l'avez dit, sur vos données d'essai, la précision décline. C'est pour plusieurs raisons, l'une est les caractéristiques linguistiques de vos documents, l'autre est les caractéristiques des annotations que vous attendez de voir. Afaik pour chaque tâche NER, il existe des lignes directrices d'annotation similaires mais toujours différentes.

cela dit, sur vos questions:

ANNIE est le seul open-source et gratuit système NER basé sur les règles en Java que je pourrais trouver. Il est écrit pour les articles de presse et je suppose accordé pour la tâche MUC 6. C'est bon pour la preuve de concepts, mais ça devient un peu dépassé. Le principal avantage est que vous pouvez commencer à l'améliorer sans aucune connaissance en apprentissage machine, nlp, peut-être un peu de java. Étude de tout JAPE et donner un coup de feu.

OpenNLP, Stanford NLP,etc. viennent par défaut avec des modèles pour les articles de nouvelles et effectuer (juste en regardant les résultats, jamais testé sur un grand corpus) mieux que ANNIE. J'aimais mieux le Stanford parser qu'OpenNLP, encore une fois en regardant des documents, surtout des articles d'actualité.

sans savoir à quoi ressemblent vos documents, Je ne peux vraiment pas en dire plus. Vous devez décider si vos données sont appropriées pour les règles ou vous allez à la machine d'apprentissage et utilisez OpenNLP ou Stanford parser ou Illinois tagger