Les valeurs manquantes dans l'apprentissage scikits machine
Est-il possible d'avoir des valeurs manquantes dans scikit-learn ? Comment doivent-ils être représentés? Je ne pouvais pas trouver toute la documentation à ce sujet.
7 réponses
les valeurs manquantes ne sont tout simplement pas supportées dans scikit-learn. Il y a déjà eu des discussions à ce sujet sur la liste de diffusion, mais aucune tentative d'écrire du code pour les gérer.
Quoi que vous fassiez, ne pas utiliser NaN pour coder les valeurs manquantes, car beaucoup d'algorithmes refusent de traiter les échantillons contenant NaNs.
La réponse ci-dessus est dépassée; la dernière version de scikit-learn a une classe Imputer
Cela fait simple, l'imputation de la valeur manquante par caractéristique. Vous pouvez nourrir des tableaux contenant des NaNs ces remplacées par la moyenne, la médiane ou le mode de la fonction correspondante.