Outils de programmation NLP utilisant PHP?

depuis que de grandes applications Web ont vu le jour, la recherche de données (et son exécution rapide et précise) a été l'un des problèmes les plus importants dans les applications web. Pendant un moment, j'ai travaillé avec Lucene.NET , qui est un C# port du projet Lucene .

je travaille aussi en utilisant PHP en utilisant L'API de Lucene de Zend Framework , ce qui m'amène à ma question. La plupart du temps pour fournir bon indexage nous avons besoin d'effectuer quelques outils NLP comme tokenizing , lemmatizing , et beaucoup plus, la question Est:

connaissez-vous un bon cadre/ensemble d'outils de programmation NLP utilisant PHP?

PS: je suis très conscient de L'API Zend pour Lucene, mais indexer correctement les données n'est pas seulement stocker et compter dans Lucene, vous devez effectuer quelques tâches supplémentaires, comme ceux ci-dessus.

11
demandé sur David Conde 2010-12-16 08:51:26

3 réponses

je suggère que vous examiniez Solr , qui est une mise en œuvre de la meilleure pratique de Lucene. Solr utilise une API basée sur REST qui a également un très bon client PHP . Cela vous permettra de tirer parti de la puissance de Lucene sans avoir besoin d'effectuer une quelconque programmation de bas niveau pour obtenir la puissance NLP que vous voulez. En outre, vous voudriez probablement saisir la version trunk de Solr que le développement NLP est très actif en ce moment et nouveau des capacités sont ajoutées chaque jour.

7
répondu Paige Cook 2010-12-18 12:56:49

Zend a un port complet de lucene à PHP. Voir docs ici .

4
répondu Xodarap 2010-12-17 17:27:27

semble comme vous cherchez la même chose que j'ai googlé il y a quelques mois :D... J'exécute un projet basé sur php/zend avec Solr (via php-solr-client lib), et jusqu'à présent je n'ai rien trouvé dans php pour la NLP avancée. Pour les choses de base, comme tout le monde le mentionne, vous pouvez vous en tirer avec Solr (stemming, tag clouds / phrase tag clouds, tokenizing, etc), et il y a quelques bibliothèques de traitement de texte php de base mais utiles là-bas (rien de fantaisiste vraiment, mieux s'appuyer sur Solr lui-même)... mais si vous vous êtes à la recherche d'une analyse plus algorithmique/sémantique/sentiment NLP je vous suggère de déplacer un peu de PHP et d'entrer dans Java, car il y a plus de bibliothèques qui peuvent vous aider dans ce domaine(comme OpenNLP). Dans le cas où vous cherchez quelque chose de Avancé, vous pourriez probablement jeter un coup d'oeil à Mahout:

http://www.lucidimagination.com/blog/2010/03/16/integrating-apache-mahout-with-apache-lucene-and-solr-part-i-of-3 /

0
répondu Osvaldo Mercado 2011-03-14 16:56:11