Arbre décisionnel vs. Classificateur Bayes naïf [fermé]

je fais quelques recherches sur différentes techniques d'exploration de données et je suis tombé sur quelque chose que je ne pouvais pas comprendre. Si quelqu'un a une idée ce serait super.

dans quels cas est-il préférable d'utiliser un arbre de décision et d'autres cas un classificateur Bayes naïf?

pourquoi en utiliser un dans certains cas? Et l'autre dans les différents cas? (En regardant sa fonctionnalité, pas à l'algorithme)

N'importe qui a quelques explications ou références à propos cette?

43
demandé sur Dan D. 2012-04-25 18:33:17

1 réponses

les arbres de décision sont très flexibles, faciles à comprendre et faciles à déboguer. Ils travailleront avec des problèmes de classification et des problèmes de régression. Donc, si vous essayez de prédire une valeur catégorique comme (rouge, vert, haut, bas) ou si vous essayez de prédire une valeur continue comme 2.9, 3.4, etc. les arbres de décision traiteront les deux problèmes. Probablement l'une des choses les plus cool au sujet des arbres de décision est qu'ils ont seulement besoin d'une table de données et ils construiront un classificateur directement à partir de ces données sans avoir besoin de tout le travail de conception. Dans une certaine mesure, les propriétés qui n'ont pas d'importance ne seront pas choisies comme fentes et seront éventuellement élaguées de sorte qu'il est très tolérant de non-sens. Pour démarrer c'est régler et oublier.

cependant, l'inconvénient. Les arbres de décision simples ont tendance à SUR-ajuster les données de formation de sorte que d'autres techniques qui signifie que vous avez généralement à faire l'élagage des arbres et de régler les procédures d'élagage. Vous n'avez pas eu de coût de conception initiale, mais vous allez payer c'est de retour sur la performance de tuning the trees. Aussi des arbres de décision simples divisent les données en carrés ainsi construire des grappes autour des choses signifie qu'il doit diviser beaucoup pour englober des grappes de données. Partager beaucoup conduit à des arbres complexes et augmente la probabilité que vous êtes trop. Les grands arbres sont élagués de nouveau de sorte que pendant que vous pouvez construire un faisceau autour d'une certaine caractéristique dans les données il pourrait ne pas survivre au processus d'élagage. Il existe d'autres techniques comme splits des mères porteuses qui vous permettent de diviser le long de plusieurs variables à la fois créant des fentes dans l'espace qui ne sont ni horizontales ni perpendiculaires ( 0 < Pente < infini ). Cool, mais votre arbre commence à devenir plus difficile à comprendre, et son complexe pour mettre en œuvre ces algorithmes. D'autres techniques telles que le boosting et les arbres de décision de forêt au hasard peuvent très bien fonctionner, et certains pensent que ces techniques sont essentielles pour obtenir la meilleure performance hors des arbres de décision. Encore une fois, cela ajoute plus de choses à comprendre et à utiliser pour accorder l'arbre et donc plus de choses à mettre en œuvre. En fin de compte, plus nous ajoutons à l'algorithme plus grande est la barrière à son utilisation.

naïf Bayes exige que vous construisiez une classification à la main. Il n'y a pas moyen de simplement jeter un tas de données tabulaires et lui faire choisir les meilleures fonctionnalités qu'il utilisera pour classifier. Choisir les caractéristiques de la matière dépend de vous. Les arbres de décisions choisiront les meilleures fonctionnalités pour vous à partir de données tabulaires. S'il y avait un moyen pour Bayes naïf de choisir des fonctionnalités, vous obtiendriez proche d'utiliser les mêmes techniques qui font que les arbres de décision fonctionnent comme ça. Donnez ce fait qui signifie que vous pouvez avoir besoin de combiner Bayes naïf avec d'autres techniques statistiques pour vous aider à vous orienter vers les caractéristiques mieux classifier et qui pourrait être en utilisant des arbres de décision. Naïve bayes répondra comme un classificateur continu. Il existe des techniques pour l'adapter à la prédiction catégorique, mais ils répondront en termes de probabilités comme (A 90%, B 5%, C 2,5% D 2,5%) Bayes peut effectuer assez bien, et il n'a pas plus de s'adapter à presque autant il n'est pas nécessaire de tailler ou d'un processus réseau. Cela rend les algorithmes plus simples à mettre en œuvre. Cependant, ils sont plus difficiles à déboguer et à comprendre parce que ce est toutes les probabilités d'obtenir multiplié 1000 fois, donc vous devez faire attention à tester, il fait ce que vous attendez. Naïve bayes fait très bien quand les données de formation ne contient pas toutes les possibilités de sorte qu'il peut être très bon avec de faibles quantités de données. Les arbres de décision fonctionnent mieux avec beaucoup de données comparées à celles de naïve Bayes.

le Bayes naïf est très utilisé en robotique et en vision informatique, et fait très bien avec ces tâches. Les arbres de décision fonctionnent très mal dans ces situations. Apprendre à un arbre de décision pour reconnaître les mains de poker en regardant des millions de mains de poker fait très mal parce que Royal flushes et quads se produit si peu qu'il obtient souvent émondé. S'il est élagué de l'arbre résultant, il va mal classifier ces mains importantes (rappelez-vous discussion sur les grands arbres à partir de ci-dessus). Maintenant, pensez juste si vous essayez de diagnostiquer le cancer en utilisant ceci. Le Cancer ne se produit pas dans la population en grandes quantités, et il est plus probable qu'il soit éliminé. La bonne nouvelle est que cela peut être manipulé en utilisant des poids afin que nous pesons une main gagnante ou avoir le cancer plus haut qu'une main qui perd ou ne pas avoir le cancer et qui booste vers le haut de l'arbre de sorte qu'il ne sera pas taillé. Encore une fois ceci est la partie de l'accord de l'arbre résultant à la situation que j'ai discutée antérieur.

les arbres de décision sont nets parce qu'ils vous disent quelles entrées sont les meilleurs prédicteurs des sorties donc souvent les arbres de décision peuvent vous guider pour trouver s'il y a une relation statistique entre une entrée donnée à la sortie et à quel point cette relation est forte. Souvent, l'arbre décisionnel qui en résulte est moins important que les relations qu'il décrit. Ainsi, les arbres de décision peuvent être utilisés un outil de recherche que vous apprenez sur vos données afin que vous puissiez construire d'autres classificateur.

si vous vous situez entre l'utilisation d'arbres de décision et Bayes naïfs pour résoudre un problème, il est souvent préférable de tester chacun d'eux. Construisez un arbre de décision et construisez un classificateur bayes naïf puis avoir une prise de vue en utilisant les données de formation et de validation que vous avez. Qui jamais performera le mieux sera plus susceptible de mieux performer sur le terrain. Et c'est toujours une bonne idée de jeter chacun de ceux contre k-plus proche voisin (KNN) prédicteurs parce que k-Plus Proche a été montré pour effectuer les deux dans certaines situations, et KNN est un algorithme simple à implémenter et à utiliser. Si KNN donne de meilleurs résultats que les deux autres, allez-y.

sources:

le manuel sur les arbres de décision basés sur CART. Cet ouvrage traite de l'algorithme CART, mais aussi des arbres de décision, des poids, des valeurs manquantes, des fentes de substitution, de l'amplification, etc. http://www.amazon.com/Classification-Regression-Wadsworth-Statistics-Probability/dp/0412048418

Un plus doux introduction au panier https://www.youtube.com/watch?v=p17C9q2M00Q

Comparaison des algorithmes d'avis que KNN, des Arbres de Décision C4.5, et SVM très bien sur la plupart des tests. http://www4.ncsu.edu / ~arezaei2 / paper / JCIT4-184028_Camera%20Ready.

une autre comparaison des arbres de décision boostés par des algorithmes et de l'aléatoire en haut de la liste avec KNN dans le milieu: http://www.cs.cornell.edu / ~caruana / ctp / ct.papers / caruana.icml06.

une autre bonne descente des différentes techniques: http://www.quora.com/What-are-the-advantages-of-different-classification-algorithms

131
répondu chubbsondubs 2014-07-29 13:42:08