Les données de formation pour l'analyse des sentiments [fermé]
Où puis-je obtenir un corpus de documents qui ont déjà été classés comme positifs/négatifs pour le sentiment dans le domaine de l'entreprise? Je veux un grand corpus de documents qui fournissent des revues pour les entreprises, comme des revues des entreprises fournies par les analystes et les médias.
je trouve des entreprises qui ont des critiques de produits et de films. Existe-t-il un corpus pour le domaine des affaires comprenant des revues d'entreprises, qui correspondent au langage des affaires?
6 réponses
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
vous pouvez utiliser twitter, avec ses smileys, comme ceci: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
J'espère que ça vous fera démarrer. Il y a plus dans la littérature, si vous êtes intéressé par des sous-tâches spécifiques comme la négation, la portée du sentiment, etc.
pour mettre l'accent sur les entreprises, vous pouvez jumeler une méthode avec la détection de sujet, ou à bon marché juste un grand nombre de mentions d'une entreprise donnée. Ou vous pourriez obtenir vos données annotées par Turkers mécaniques.
C'est une liste que j'ai écrite il y a quelques semaines, de mon blog . Certains de ces ensembles de données ont été récemment inclus dans la plate-forme NLTK Python.
lexiques
-
Avis Lexique par Bing Liu
- URL : http://www.cs.uic.edu / ~ liub/FBS / sentiment-analysis.html # lexicon
- PAPIERS : l'exploitation Minière et de résumer les critiques des clients
- NOTES : inclus dans la plate-forme NLTK Python
-
MPQA Subjectivity Lexicon
-
SentiWordNet
- URL : http://sentiwordnet.isti.cnr.it
- NOTES : inclus dans la plate-forme NLTK Python
-
Harvard General Inquirer
-
Linguistique de l'Enquête et le nombre de mots (LIWC)
- URL : http://www.liwc.net
-
Vader Le Lexique De La 1519130920"
ensembles de données
-
ensembles de données MPQA
- URL : http://mpqa.cs.pitt.edu
-
NOTES : GNU Public License.
- données du débat politique
- Produit Débat de données
- De La Subjectivité Sens Annotations
-
Sentiment140 (Tweets)
-
STS-Gold (Tweets))
- URL : http://www.tweenator.com/index.php?page_id=13
- PAPIERS : Évaluation des ensembles de données pour twitter l'analyse des sentiments (Saif, Fernandez, Lui, Alani)
- NOTES : comme Sentiment140, mais l'ensemble de données est plus petit et avec des annotateurs humains. Il est livré avec 3 fichiers: tweets, entities (avec leur sentiment) et un agrégat défini.
-
avis Client Dataset (revues de Produit)
- URL : http://www.cs.uic.edu / ~ liub/FBS / sentiment-analysis.html#ensembles de données
- PAPIERS : l'exploitation Minière et de résumer les commentaires des clients
- NOTES : titre de l'examen, caractéristique du produit, étiquette positive/négative avec force d'opinion, autres renseignements (comparaisons, résolution du pronom, etc.)
inclus dans la plate-forme NLTK Python
-
ensemble de données pour et contre (phrases pour et contre)
- URL : http://www.cs.uic.edu / ~ liub/FBS / sentiment-analysis.html#ensembles de données
- PAPIERS : l'Extraction d'Opinions dans le Comparatif des Phrases (Ganapathibhotla, Liu 2008)
- NOTES : une liste de phrases marquées
<pros>
ou<cons>
inclus dans la plate-forme NLTK Python
-
Comparatif Des Phrases (Commentaires)
- URL : http://www.cs.uic.edu / ~ liub/FBS / sentiment-analysis.html#ensembles de données
- PAPIERS : l'Identification Comparative de Phrases dans le Texte des Documents (Nitin Jindal et Bing Liu) , l'exploitation Minière des articles d'Opinion dans Avis clients (Minqing Hu et Bing Liu)
- NOTES : Phrase, POS-tag phrase, les entités, le type de comparaison (non-égalité, equative, des superlatifs, non biodégradables)
inclus dans la plate-forme NLTK Python
-
Sanders Analytics Twitter Sentiment Corpus (Tweets)
5513 tweets classifiés à la main sur 4 sujets différents. En raison de ToS de Twitter, un petit script Python est inclus pour télécharger tous les tweets. Les classifications de sentiment elles-mêmes sont fournies gratuitement et sans restrictions. Ils peuvent être utilisés pour des produits commerciaux. Ils peuvent être redistribuées. Ils peuvent être modifié.
-
tweets espagnols (Tweets)
-
SemEval 2014 (Tweets)
vous ne devez pas redistribuer les tweets, les annotations ou le corpus obtenu (à partir du fichier readme)
-
Divers Ensembles De Données (Critiques)
-
Divers Ensembles De Données #2 (Commentaires)
références:
- Keenformatics - l'Analyse des Sentiments des lexiques et des ensembles de données (mon blog)
- expérience personnelle
En voici quelques autres;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
Si vous avez quelques ressources (médias, blogs, etc) sur le domaine que vous souhaitez explorer, vous pouvez créer votre propre corpus. Je le fais en python:
- à l'aide de Magnifiques Soupe http://www.crummy.com/software/BeautifulSoup/ de l'analyse du contenu que je veux classer.
- séparer les phrases qui signifient des opinions positives / négatives sur les entreprises.
- utiliser NLTK pour traiter des phrases, marquer des mots, POS tagging, etc.
- utiliser NLTK PMI pour calculer bigrammes ou trigrammes mos fréquente dans une seule classe
la création de corpus est un travail ardu de pré-traitement, de vérification, de marquage, etc, mais a les avantages de préparer un modèle pour un domaine spécifique plusieurs fois en augmentant la précision. Si vous pouvez obtenir déjà préparé corpus, juste aller de l'avant avec l'analyse de sentiment ;)
Je ne suis pas au courant d'un tel corpus étant librement disponible, mais vous pourriez essayer une méthode non supervisée sur un ensemble de données non marquées.
vous pouvez obtenir un grand choix de commentaires en ligne à partir de Datafiniti. La plupart des commentaires viennent avec des données de notation, ce qui fournirait plus de granularité sur le sentiment que positif / négatif. Voici une liste d'entreprises avec des avis , et voici une liste de produits avec des avis .