Quelle est la différence entre R-carré Multiple et R-carré ajusté dans une régression par la méthode des moindres carrés à une seule variable?
Quelqu'un pourrait-il expliquer à la naïve statistiquement Quelle est la différence entre Multiple R-squared
et Adjusted R-squared
? Je fais une analyse de régression monovariable comme suit:
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
Résultats:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
4 réponses
l '"ajustement" du carré R ajusté est lié au nombre de variables et au nombre d'observations.
si vous continuez à ajouter des variables (prédicteurs) à votre modèle, R-au carré s'améliorera - c'est - à-dire que les prédicteurs sembleront expliquer la variance-mais une partie de cette amélioration peut être due au hasard seulement. Ainsi, R-carré ajusté essaie de corriger pour cela, en prenant en compte le rapport (N-1) / (N-k-1) Où N = nombre d'observations et k = nombre de variables (prédicteur.)
ce n'est probablement pas un problème dans votre cas, puisque vous avez une seule variable.
Quelques références:
Cette approche fournit une meilleure base pour juger de l'amélioration de l'ajustement dû à l'ajout de une variable explicative, mais elle n'a pas la même interprétation sommaire que R2.
si je n'ai pas fait d'erreur, vous devriez vérifier les valeurs de R-au carré et R-au carré ajustées comme suit:
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
le R-carré ne dépend pas du nombre de variables dans le modèle. Le R carré ajusté est.
le carré R ajusté ajoute une pénalité pour ajouter des variables au modèle qui ne sont pas corrélées avec la variable que vous essayez d'expliquer. Vous pouvez l'utiliser pour tester si une variable est pertinente à la chose que vous essayez de l'expliquer.
R-au carré ajusté est R-au carré avec quelques divisions ajoutées pour le rendre dépendant du nombre de variables dans le modèle.
notez qu'en plus du nombre de variables prédictives, la Formule R au carré ajustée ci-dessus s'ajuste également en fonction de la taille de l'échantillon. Un petit échantillon donnera un R-carré trompeusement grand.
Ping Yin & Xitao Fan, J., de l'Enseignement Expérimental 69(2): 203-224, "Estimation de R-squared diminution de régression multiple", compare les différentes méthodes d'ajustement de la r-squared et conclut que le couramment utilisées ceux cités ci-dessus ne sont pas bonnes. Ils recommandent L'Olkin & Pratt formule.
cependant, j'ai vu certaines indications que la taille de la population a un effet beaucoup plus important que n'importe laquelle de ces formules. Je ne suis pas convaincu que l'une ou l'autre de ces formules soit assez bonne pour vous permettre de comparer des régressions faites avec des tailles d'échantillon très différentes (p. ex., 2 000 échantillons par rapport à 200 000 échantillons; les formules standard ne permettraient presque aucun ajustement fondé sur la taille de l'échantillon). Je ferais une validation croisée pour vérifier le r-au carré sur chaque échantillon.