Différents algorithmes d'arbre de décision avec comparaison de la complexité ou des performances

Je fais des recherches sur l'exploration de données et plus précisément sur les arbres de décision.

Je voudrais savoir s'il existe plusieurs algorithmes pour construire un arbre de décision (ou juste un?), et ce qui est mieux, basé sur des critères tels que

  • Performance
  • Complexité
  • Erreurs dans la prise de décision
  • et plus encore.
29
demandé sur ROMANIA_engineer 2012-04-02 19:45:36

1 réponses

Les implémentations de L'Arbre de décision diffèrent principalement selon ces axes:

  • Le critère de fractionnement (c'est-à-dire comment la" variance " est calculée)

  • Si elle construit des modèles pour régression (les variables continues, par exemple, un score) ainsi que classement (variables discrètes, par exemple, une classe étiquette)

  • Technique pour éliminer/réduire sur-ajustement

  • Que ce soit peut gérer des données incomplètes


Les principales implémentations de L'Arbre de décision sont:

  • ID3 , ou Dichotomiseur itératif, était le premier de trois arbres de décision implémentations développées par Ross Quinlan (Quinlan, J. R. 1986. L'Induction des Arbres de Décision. Mach. Apprendre. 1, 1 (Mar. 1986), 81-106.)

  • CART , ou arbres de classification et de régression est souvent utilisé comme un générique acronyme pour le terme décision Arbre, bien qu'il ait apparemment une signification plus spécifique. En somme, L'implémentation CART est très similaire à C4. 5; La seule différence notable est que CART construit l'arbre en fonction d'un critère de division numérique appliqué récursivement aux données, tandis que C4.5 inclut L'étape intermédiaire de construction rule set s.

  • C4. 5 , La prochaine itération de Quinlan. Les nouvelles fonctionnalités (par rapport à ID3) sont: (I) accepte à la fois des caractéristiques continues et discrètes; (ii) gérer points de données incomplets; (iii) résout le problème de astucieux) technique ascendante généralement appelée "élagage"; et (iv) différents poids peuvent être appliqués les caractéristiques qui composent le les données d'entraînement. Parmi ceux-ci, les premiers trois sont très importants-et je suggère que toute implémentation DT que vous choisissez a les trois. Le quatrième (pondération différentielle) est beaucoup moins important

  • C5. 0 , l'itération Quinlan la plus récente. Cette mise en œuvre être couvert par un brevet et probablement, par conséquent, est rarement mis en œuvre (en dehors des progiciels commerciaux). Je n'ai jamais codé une C5.0 implémentation moi-même (je n'ai même jamais vu le code source) donc je ne peux pas offrir une comparaison éclairée de C5.0 par rapport à C4.5. J'ai toujours été sceptique quant aux améliorations revendiquées par son inventeur (Ross Quinlan)--par exemple, il prétend que c'est "plusieurs ordres de grandeur" plus rapide que la C4.5. D'autres revendications sont également larges ("significativement plus de mémoire efficace") et ainsi de suite. Je vais juste vous montrer études qui rapportent le résultat de la comparaison des deux techniques et vous pouvez décider par vous-même.

  • CHAID (détecteur d'interaction automatique du chi-carré) est en fait antérieur la mise en œuvre originale ID3 d'environ six ans (publié dans un Thèse de doctorat de Gordon Kass en 1980). Je sais tout sur cette technique.La plate-forme R a un paquet appelé CHAID qui comprend une excellente documentation

  • MARS (splines de régression multi-adaptatives) est en fait un terme de marque déposée par L'inventeur original de MARS, Salford Systems. En tant que résultat, les clones de MARS dans les bibliothèques non vendues par Salford sont nommés autre chose que MARS-par exemple, dans R, la fonction pertinente est polymars dans la bibliothèque poly-spline. Matlab et Statistica ont également implémentations avec Mars-Fonctionnalité

Je recommanderais CART ou C4. 5 (bien que encore une fois, je n'ai pas de direct expérience avec C5.0 ou avec CHAID, bien que je connaisse leurs ensembles de fonctionnalités).

C4. 5 est la saveur de L'Arbre de décision implémentée dans Orange ; CART est la saveur dans sklearn -les deux excellentes implémentations dans d'excellentes bibliothèques ML.

C4. 5 est une étape majeure au-delà de ID3-à la fois en termes de range (C4. 5 a un spectre de cas d'utilisation beaucoup plus large car il peut gérer des variables continues dans les données de formation) et en termes de modèle qualité.

Peut-être l'amélioration revendiquée la plus significative de C5.0 par rapport à C4. 5 est le soutien à arbres boostés. La prise en charge d'Ensemble pour DTs-boosted trees and Random Forests-a été incluse dans L'implémentation de DT dans Orange; ici, la prise en charge d'ensemble a été ajoutée à un algorithme C4.5. sklearn propose également une gamme de forêts aléatoires et de méthodes de stimulation.

70
répondu doug 2018-02-14 07:38:10