word2vec lemmatisation du corpus avant la formation

Word2vec semble être principalement formé sur les données brutes de corpus. Toutefois, la lemmatisation est un prétraitement standard pour de nombreuses tâches de similarité sémantique. Je me demandais si quelqu'un avait de l'expérience dans la lemmatisation du corpus avant la formation de word2vec et si c'est une étape utile de prétraitement à faire.

14
demandé sur Jérôme Bau 2014-05-27 00:35:36

2 réponses

je pense que c'est vraiment de l'importance de ce que vous souhaitez résoudre. Cela dépend de la tâche.

essentiellement la simulation vous faites le sparser d'espace d'entrée, ce qui peut aider si vous n'avez pas assez de données d'entraînement.

mais puisque Word2Vec est assez grand, si vous avez assez de données de formation, lemmatisation ne devrait pas vous gagner beaucoup.

quelque chose de plus intéressant est, comment faire tokenization par rapport à la disction existante de mots-vecteurs à l'intérieur le W2V (ou autre chose). Comme " les bons muffins coûtent 3,88 $à New York."doit être sous forme de jeton de ['Bon', 'muffins', 'coût', '$', '3.88', 'dans', 'New York.'] Alors vous pouvez le remplacer par ses vecteurs de W2V. Le défi est que certains tokenizers mon tokenize "New York" comme ['New' 'York'], ce qui n'a pas beaucoup de sens. (Par exemple NLTK fait cette erreur https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html) Ceci est un problème quand vous avez beaucoup de multi-mots phrase.

4
répondu Daniel 2014-05-28 20:18:04

le projet sur lequel je travaille actuellement consiste à identifier des noms de gènes dans des résumés de travaux de biologie à l'aide de L'espace vectoriel créé par Word2Vec. Lorsque nous exécutons l'algorithme sans lemmatiser le Corpus, 2 problèmes se posent principalement:

  • Le vocabulaire devient trop grand, puisque vous avez des mots dans différentes formes qui ont la même signification.
  • comme indiqué ci-dessus, votre espace devient moins clairsemé, puisque vous obtenez plus de représentants d'un certain" sens", mais à en même temps, certaines de ces significations pourraient être partagées entre ses représentants, permettez-moi de clarifier avec un exemple

nous nous intéressons actuellement à un gène reconnu par L'acronyme BAD. Dans le même temps, les "mauvais" est un mot anglais qui a des formes différentes (mal, pire, ...). Puisque Word2vec construire ses vecteurs basés sur le contexte (ses mots environnants) probabilité, quand vous ne lemmatize pas certaines de ces formes, vous pourriez finir par perdre la relation entre certains de ces mots. De cette façon, dans le mauvais cas, vous pourriez finir avec un mot plus proche des noms de gènes au lieu d'adjectifs dans l'espace vectoriel.

3
répondu Roger 2016-05-27 15:12:56