Utilisation de Word2Vec pour la modélisation thématique
j'ai lu que la technique la plus courante pour la modélisation de sujets (extraire des sujets possibles du texte) est L'allocation de Dirichlet Latent (LDA).
cependant, je suis intéressé si c'est une bonne idée d'essayer la modélisation de sujet avec Word2Vec comme il regroupe des mots dans l'espace vectoriel. Ne pourrait-on donc pas considérer les clusters comme des sujets?
pensez-vous qu'il soit logique de suivre cette approche pour des raisons de recherche? En fin de Compte, ce qui m'intéresse, c'est d'extraire mots-clés du texte selon les sujets.
3 réponses
Vous pouvez consulter les documents suivants:
Dat Quoc Nguyen, Richard Billingsley, Lan Du et Mark Johnson. 2015. amélioration des sujets modèles avec des représentations de mots Caractéristiques latentes. Les opérations de l'Association for Computational Linguistics, vol. 3, pp. 299-313. [ CODE]
Yang Liu, Zhiyuan Liu, Tat-Seng Chua, Maosong Sun. 2015. Actualité Mot Plongements. Dans actes du 29e AAAI Conférence sur Intelligence Artificielle, 2418-2424. [ CODE]
le premier article intègre l'intégration de mots dans le modèle LDA et le modèle DMM un sujet par document. Il fait état d'améliorations significatives en ce qui concerne la cohérence des sujets, le regroupement des documents et les tâches de classification des documents, en particulier pour les petites entreprises ou les textes courts (E. G Tweets).
Le second document, il est également intéressant. Il utilise LDA pour assigner le sujet pour chaque mot, puis utilise Word2Vec pour apprendre le mot intégration basée sur les mots et leurs sujets.
Deux personnes ont essayé de résoudre ce problème.
Chris Moody à StichFix est sorti avec LDA2Vec, et quelques étudiants de doctorat à CMU a écrit un papier appelé "Gaussian LDA pour les Modèles de sujet avec des mots emboîtés" avec code ici... bien que je n'ai pas pu obtenir le code Java là pour produire des résultats sensuels. C'est une idée intéressante d'utiliser word2vec avec gaussian (en fait t-distributions quand vous travaillez sur les mathématiques) word-topic distributions. Gaussian LDA devrait être capable de gérer des mots de vocabulaire de la formation.
LDA2Vec tente de former à la fois le modèle LDA et les vecteurs de mots en même temps, et il vous permet également de mettre Lda priors sur non-mots pour obtenir des résultats vraiment intéressants.
dans Word2Vec,considérez 3 phrases
"le chien a vu un chat",
"le chien a chassé le chat",
"le chat grimpa sur un arbre"
Ici, nous donnons d'entrée mot 'chat', puis nous aurons mot de sortie comme "hausse"
il est basé sur la probabilité de tous les mots donnés mot de contexte(cat). C'est un sac continu de mots modèle. Nous obtiendrons des mots semblables au mot d'entrée en fonction du contexte. Word2Vec fonctionne bien dans l'ensemble de données énorme seulement.
LDA est utilisé pour des sujets abstraits à partir d'un corpus. Ses pas basée sur le contexte. Comme il utilise la distribution de Dirichlet pour dessiner des mots sur des sujets et dessiner des sujets sur des documents. Le problème que nous rencontrons ici est le hasard. Nous obtenons des résultats différents à chaque fois.
la technique que nous choisissons dépend de nos exigences.