Pourquoi la méthode de L'entropie croisée est-elle préférée à l'erreur quadratique moyenne? Dans ce cas, ne ne tiennent pas en place? [fermé]
bien que les deux méthodes ci-dessus fournissent un meilleur score pour une meilleure proximité de la prédiction, encore entropie croisée est préférable. Est-ce dans tous les cas ou y a-t-il des scénarios particuliers où nous préférons l'entropie croisée au MSE?
3 réponses
L'entropie croisée est préférée pour classement, tandis que l'erreur quadratique moyenne est l'un des meilleurs choix pour les régression. Cela vient directement de l'énoncé des problèmes eux - mêmes-dans la classification, vous travaillez avec un ensemble très particulier de valeurs possibles de sortie Donc MSE est mal défini (comme il n'a pas ce genre de connaissance pénalise donc les erreurs de manière incompatible). Pour mieux comprendre les phénomènes il est bon de suivre et comprendre les relations entre
- croix de l'entropie
- régression logistique (entropie croisée binaire)
- régression linéaire (MSE)
vous remarquerez que les deux peuvent être considérés comme des estimateurs de vraisemblance maximale, simplement avec différentes hypothèses au sujet de la variable dépendante.
lorsque vous dérivez la fonction de coût de l'aspect de probabilité et de distribution, vous pouvez observer que MSE se produit lorsque vous supposez que l'erreur suit la Distribution normale et entropie croisée lorsque vous assumez la distribution binomiale. Cela signifie que, implicitement, lorsque vous utilisez MSE, vous faites une régression (estimation) et, lorsque vous utilisez CE, vous faites une classification. Espérons que cela aide un peu.
si vous faites une régression logistique par exemple, vous utiliserez la fonction sigmoïde pour estimer la probabilité de, l'entropie croisée comme la fonction de perte et la descente par gradient pour la minimiser. Faire ceci mais en utilisant MSE comme la fonction de perte pourrait conduire à un problème non convexe où vous pourriez trouver des minima locaux. L'utilisation de cross entropy conduira à un problème convexe où vous pourriez trouver l'optimum solution.
https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35
Il y a aussi une analyse intéressante ici: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error-or-mean-squared-error-for-neural-network-classifier-training/