Les données de formation pour l'analyse des sentiments [fermé]

Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs/négatifs pour le sentiment dans le domaine de l'entreprise? Je veux un grand corpus de documents qui fournissent des revues pour les entreprises, comme des revues des entreprises fournies par les analystes et les médias.

je trouve des entreprises qui ont des critiques de produits et de films. Existe-t-il un corpus pour le domaine des affaires comprenant des revues d'entreprises, qui correspondent au langage des affaires?

51
demandé sur Iterator 2011-09-26 10:18:54

6 réponses

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

vous pouvez utiliser twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

J'espère que ça vous fera démarrer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques comme la négation, la portée du sentiment, etc.

pour mettre l'accent sur les entreprises, vous pouvez jumeler une méthode avec la détection de sujet, ou à bon marché juste un grand nombre de mentions d'une entreprise donnée. Ou vous pourriez obtenir vos données annotées par Turkers mécaniques.

35
répondu Gregory Marton 2017-01-03 17:27:54

C'est une liste que j'ai écrite il y a quelques semaines, de mon blog . Certains de ces ensembles de données ont été récemment inclus dans la plate-forme NLTK Python.

lexiques


ensembles de données


références:

19
répondu Kurt Bourbaki 2015-10-21 09:30:23

Si vous avez quelques ressources (médias, blogs, etc) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je le fais en python:

  • à l'aide de Magnifiques Soupe http://www.crummy.com/software/BeautifulSoup/ de l'analyse du contenu que je veux classer.
  • séparer les phrases qui signifient des opinions positives / négatives sur les entreprises.
  • utiliser NLTK pour traiter des phrases, marquer des mots, POS tagging, etc.
  • utiliser NLTK PMI pour calculer bigrammes ou trigrammes mos fréquente dans une seule classe

la création de corpus est un travail ardu de pré-traitement, de vérification, de marquage, etc, mais a les avantages de préparer un modèle pour un domaine spécifique plusieurs fois en augmentant la précision. Si vous pouvez obtenir déjà préparé corpus, juste aller de l'avant avec l'analyse de sentiment ;)

4
répondu Luchux 2012-03-07 15:45:12

Je ne suis pas au courant d'un tel corpus étant librement disponible, mais vous pourriez essayer une méthode non supervisée sur un ensemble de données non marquées.

1
répondu Fred Foo 2017-05-23 12:34:48

vous pouvez obtenir un grand choix de commentaires en ligne à partir de Datafiniti. La plupart des commentaires viennent avec des données de notation, ce qui fournirait plus de granularité sur le sentiment que positif / négatif. Voici une liste d'entreprises avec des avis , et voici une liste de produits avec des avis .

0
répondu shiondev 2013-06-20 19:46:40