Quelle est la différence entre la validation croisée et la recherche dans la grille?
en termes simples, Quelle est la différence entre la validation croisée et la recherche par grille? Comment fonctionne la recherche grid? Dois-je d'abord effectuer une validation croisée, puis une recherche dans la grille?
3 réponses
validation Croisée est quand vous réserve une partie de vos données à utiliser dans l'évaluation de votre modèle. Il existe différentes méthodes de validation croisée. Le concept le plus simple est de prendre seulement 70% (juste faire un nombre ici, il ne doit pas être 70%) de vos données et de l'utiliser pour la formation, puis d'utiliser les 30% restants des données pour évaluer la performance du modèle. La raison pour laquelle vous avez besoin de données différentes pour la formation et l'évaluation du modèle est de se protéger contre la surréglementation. Il y a d'autres (un peu plus impliqué) techniques de validation croisée, bien sûr, comme la validation croisée par facteur k, qui est souvent utilisée dans la pratique.
recherche de grille signifie que vous avez un ensemble de modèles (qui diffèrent les uns des autres dans leurs valeurs de paramètres, qui se trouvent sur une grille). Vous formez ensuite chacun des modèles et vous l'évaluez à l'aide d'une validation croisée. Vous sélectionnez ensuite celui qui a obtenu les meilleurs résultats.
pour donner un exemple concret, si vous utilisez une machine vecteur support, vous pouvez utiliser des valeurs différentes pour gamma
et C
. Ainsi, par exemple, vous pourriez avoir une grille avec les valeurs suivantes pour (gamma, C)
:(1, 1), (0.1, 1), (1, 10), (0.1, 10)
. C'est une grille parce que c'est comme un produit de [1, 0.1]
gamma
et [1, 10]
C
. Grid-search formerait essentiellement un SVM pour chacune de ces quatre paires de (gamma, C)
valeurs, puis l'évaluer à l'aide d'une validation croisée, et sélectionner celle qui a donné les meilleurs résultats.
la validation croisée est une méthode qui permet d'estimer de façon fiable la performance d'un ensemble de tests (généralisation) d'un modèle. Grille-recherche est une façon de sélectionner les meilleurs d'une famille de modèles paramétrés par une grille de paramètres.
ici, par "model", Je ne veux pas dire une instance formée, plus les algorithmes avec les paramètres, comme SVC(C=1, kernel='poly')
.
validation croisée, il suffit de séparer les données d'essai et d'entraînement et de valider les résultats d'entraînement avec les données d'essai. Il y a deux techniques de validation croisée que je connais.
tout d'abord, validation croisée essai/Train. Fractionnement des données en tant que test et train.
Second, K-fold cross-validation diviser vos données en bacs k, utiliser chaque bacs comme données de test et utiliser le reste des données comme données de formation et valider par rapport aux données de test. Répétez le processus k fois. Et d'Obtenir la moyenne performance. validation croisée par facteur k particulièrement utile pour les petits ensembles de données puisqu'elle maximise à la fois les données d'essai et d'entraînement.
recherche de grille; travail systématique à travers de multiples combinaisons de réglages de paramètres, recouper chacun et déterminer lequel donne la meilleure performance.Vous pouvez travailler à travers de nombreuses combinaisons en changeant seulement un peu les paramètres.