Les valeurs manquantes dans l'apprentissage scikits machine

Est-il possible d'avoir des valeurs manquantes dans scikit-learn ? Comment doivent-ils être représentés? Je ne pouvais pas trouver toute la documentation à ce sujet.

26
demandé sur smci 2012-02-20 21:56:07

7 réponses

les valeurs manquantes ne sont tout simplement pas supportées dans scikit-learn. Il y a déjà eu des discussions à ce sujet sur la liste de diffusion, mais aucune tentative d'écrire du code pour les gérer.

Quoi que vous fassiez, ne pas utiliser NaN pour coder les valeurs manquantes, car beaucoup d'algorithmes refusent de traiter les échantillons contenant NaNs.

La réponse ci-dessus est dépassée; la dernière version de scikit-learn a une classe Imputer Cela fait simple, l'imputation de la valeur manquante par caractéristique. Vous pouvez nourrir des tableaux contenant des NaNs ces remplacées par la moyenne, la médiane ou le mode de la fonction correspondante.

27
répondu Fred Foo 2013-12-23 12:32:27

j'aimerais pouvoir fournir un exemple simple, mais j'ai trouvé que RandomForestRegressor fait pas