Modélisation des sujets LDA-formation et mise à l'essai
j'ai lu LDA et je comprends les mathématiques de la façon dont les sujets sont générés quand on introduit une collection de documents.
les références disent que LDA est un algorithme qui, étant donné une collection de documents et rien de plus (aucune supervision nécessaire), peut découvrir les "sujets" exprimés par les documents dans cette collection. Ainsi, en utilisant l'algorithme LDA et L'échantillonneur Gibbs (ou Bayes variationnelles), je peux entrer un ensemble de documents et en sortie je peux obtenir les sujets. Chaque thème est un ensemble de termes avec des probabilités attribuées.
ce que je ne comprends pas c'est, si ce qui précède est vrai, alors pourquoi beaucoup de tutoriels de modélisation de sujets parlent de séparer l'ensemble de données en formation et jeu de test?
quelqu'un peut-il m'expliquer les étapes (le concept de base) de la façon dont LDA peut être utilisé pour la formation d'un modèle, qui peut ensuite être utilisé pour analyser un autre ensemble de données d'essai?
1 réponses
la Division des données en ensembles de formation et d'essai est une étape courante dans l'évaluation de la performance d'un algorithme d'apprentissage. Il est plus clair pour l'apprentissage supervisé, où vous formez le modèle sur le jeu de formation, puis voir comment ses classifications sur le jeu de test correspondent aux étiquettes de classe véritables. Pour l'apprentissage non supervisé, une telle évaluation est un peu plus délicat. Dans le cas de la modélisation thématique, une mesure commune de la performance est perplexité. Vous formez le modèle (comme LDA) sur l'ensemble de formation, et puis vous voyez comment "perplexe" le modèle est sur l'ensemble de test. Plus précisément, vous mesurez dans quelle mesure le nombre de mots des documents de test est représenté par les distributions de mots représentées par les sujets.
la perplexité est bonne pour les comparaisons relatives entre les modèles ou les paramètres, mais sa valeur numérique ne signifie pas grand chose. Je préfère évaluer les modèles de sujets à l'aide de l'évaluation suivante, un peu manuelle processus:
- inspectez les sujets: examinez les mots les plus probables dans chaque sujet. Ont-ils l'air de former un "sujet" cohérent ou juste un groupe de mots Au hasard?
- inspectez le sujet des travaux: présentez quelques documents choisis au hasard dans le cadre de la formation et voyez quels sujets LDA leur assigne. Inspecter manuellement les documents et les premiers mots des sujets assignés. Il ressemble à l'sujets vraiment décrire ce que les documents sont en fait en train de parler?
je me rends compte que ce processus n'est pas aussi agréable et quantitatif qu'on pourrait le souhaiter, mais pour être honnête, les applications des modèles de sujets sont rarement quantitatives non plus. Je suggère d'évaluer votre modèle de sujet en fonction du problème auquel vous l'appliquez.
Bonne chance!