datos obtenidos de experimentos, aunque menos artísticos
que los creados por Cajal, puede encerrar abundante información que ayude a visualizar
y pensar cómo proceder con el análisis posterior.
de diagnósticos de una regresión lineal, generados en R.
En 1973, Frank Anscombe publicó un artículo científico para ilustrar la importancia de graficar datos, en donde las correlaciones son idénticas (r = 0.816) pero los gráficos son diferentes, hoy conocido como “Cuarteto de Anscombe”.
# Cuarteto de Anscombe para Regresión Lineal Simple
# Fuente: Cuarteto de Anscombe de 'Idéntica' Regresión Lineal Simple
#### Exposición de Datos
x1 | x2 | x3 | x4 | y1 | y2 | y3 | y4 |
10 | 10 | 10 | 8 | 8.04 | 9.14 | 7.46 | 6.58 |
8 | 8 | 8 | 8 | 6.95 | 8.14 | 6.77 | 5.76 |
13 | 13 | 13 | 8 | 7.58 | 8.74 | 12.74 | 7.71 |
9 | 9 | 9 | 8 | 8.81 | 8.77 | 7.11 | 8.84 |
11 | 11 | 11 | 8 | 8.33 | 9.26 | 7.81 | 8.47 |
14 | 14 | 14 | 8 | 9.96 | 8.10 | 8.84 | 7.04 |
6 | 6 | 6 | 8 | 7.24 | 6.13 | 6.08 | 5.25 |
4 | 4 | 4 | 19 | 4.26 | 3.10 | 5.39 | 12.50 |
12 | 12 | 12 | 8 | 10.84 | 9.13 | 8.15 | 5.56 |
7 | 7 | 7 | 8 | 4.82 | 7.26 | 6.42 | 7.91 |
5 | 5 | 5 | 8 | 5.68 | 4.74 | 5.73 | 6.89 |
anscombe.1 <- data.frame(x = anscombe[["x1"]], y = anscombe[["y1"]], Set = "Anscombe Set 1")
anscombe.2 <- data.frame(x = anscombe[["x2"]], y = anscombe[["y2"]], Set = "Anscombe Set 2")
anscombe.3 <- data.frame(x = anscombe[["x3"]], y = anscombe[["y3"]], Set = "Anscombe Set 3")
anscombe.4 <- data.frame(x = anscombe[["x4"]], y = anscombe[["y4"]], Set = "Anscombe Set 4")
#### Estadísticas descriptivas
# Media <- rbind(anscombe.1, anscombe.2, anscombe.3, anscombe.4)
aggregate(cbind(x, y) ~ Set,, mean)
## Set x y
## 1 Anscombe Set 1 9 7.500909
## 2 Anscombe Set 2 9 7.500909
## 3 Anscombe Set 3 9 7.500000
## 4 Anscombe Set 4 9 7.500909
# Desviación típica
aggregate(cbind(x, y) ~ Set,, sd)
## Set x y
## 1 Anscombe Set 1 3.316625 2.031568
## 2 Anscombe Set 2 3.316625 2.031657
## 3 Anscombe Set 3 3.316625 2.030424
## 4 Anscombe Set 4 3.316625 2.030579
#### Correlación entre variables x y
# Función para agrupar datos
correlation <- function(data) {
x <- data.frame(r = cor(data$x, data$y))
# Idéntica correlación para las cuatro series de datos: r = 0.816
ddply(.data =, .variables = "Set", .fun = correlation)
## Set r
## 1 Anscombe Set 1 0.8164205
## 2 Anscombe Set 2 0.8162365
## 3 Anscombe Set 3 0.8162867
## 4 Anscombe Set 4 0.8165214
### Modelos de regresión lineal simple
modelo1 <- lm(y ~ x, subset(, Set == "Anscombe Set 1"))
modelo2 <- lm(y ~ x, subset(, Set == "Anscombe Set 2"))
modelo3 <- lm(y ~ x, subset(, Set == "Anscombe Set 3"))
modelo4 <- lm(y ~ x, subset(, Set == "Anscombe Set 4"))
#### Resultados de modelos lineales
## Call:
## lm(formula = y ~ x, data = subset(, Set == "Anscombe Set 1"))
## Residuals:
## Min 1Q Median 3Q Max
## -1.92127 -0.45577 -0.04136 0.70941 1.83882
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0001 1.1247 2.667 0.02573 *
## x 0.5001 0.1179 4.241 0.00217 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared: 0.6665, Adjusted R-squared: 0.6295
## F-statistic: 17.99 on 1 and 9 DF, p-value: 0.00217
## Call:
## lm(formula = y ~ x, data = subset(, Set == "Anscombe Set 2"))
## Residuals:
## Min 1Q Median 3Q Max
## -1.9009 -0.7609 0.1291 0.9491 1.2691
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.001 1.125 2.667 0.02576 *
## x 0.500 0.118 4.239 0.00218 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 1.237 on 9 degrees of freedom
## Multiple R-squared: 0.6662, Adjusted R-squared: 0.6292
## F-statistic: 17.97 on 1 and 9 DF, p-value: 0.002179
## Call:
## lm(formula = y ~ x, data = subset(, Set == "Anscombe Set 3"))
## Residuals:
## Min 1Q Median 3Q Max
## -1.1586 -0.6146 -0.2303 0.1540 3.2411
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0025 1.1245 2.670 0.02562 *
## x 0.4997 0.1179 4.239 0.00218 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 1.236 on 9 degrees of freedom
## Multiple R-squared: 0.6663, Adjusted R-squared: 0.6292
## F-statistic: 17.97 on 1 and 9 DF, p-value: 0.002176
## Call:
## lm(formula = y ~ x, data = subset(, Set == "Anscombe Set 4"))
## Residuals:
## Min 1Q Median 3Q Max
## -1.751 -0.831 0.000 0.809 1.839
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 3.0017 1.1239 2.671 0.02559 *
## x 0.4999 0.1178 4.243 0.00216 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## Residual standard error: 1.236 on 9 degrees of freedom
## Multiple R-squared: 0.6667, Adjusted R-squared: 0.6297
## F-statistic: 18 on 1 and 9 DF, p-value: 0.002165
#### Cuatro gráficos juntos
gg <- ggplot(, aes(x = x, y = y))
gg <- gg + geom_point(color = "black")
gg <- gg + facet_wrap(~Set, ncol = 2)
gg <- gg + geom_smooth(formula = y ~ x, method = "lm", se = FALSE, data =
# Nota:
# Observar los gráficos de dispersión con sus respectivas líneas de regresión en azul;
# luego, los correspondientes gráficos de diagnósticos. Para iniciar la interpretación,
# el gráfico de "Residuals vs Fitted" o "Residuos vs Ajustados" debe asemejarse a un cielo
# estrellado - con puntos totalmente aleatorios.
#### Gráficos de diagnósticos para los cuatro modelos
par(mfrow = c(2, 2))
plot(modelo1, main = "Modelo 1")
plot(modelo2, main = "Modelo 2")
plot(modelo3, main = "Modelo 3")
plot(modelo4, main = "Modelo 4")
#### Otra opción de gráfico
# Fuente:
anscombe_m <- data.frame()
# Código para agrupar datos y gráficos
for(i in 1:4)
anscombe_m <- rbind(anscombe_m, data.frame
(set = i,
x = anscombe[,i],
y = anscombe[,i+4]))
# Gráfico
ggplot(anscombe_m, aes(x, y)) + geom_point(size=5, color="red", fill="purple", shape=21) +
geom_smooth(method="lm", fill=NA, fullrange=TRUE) + facet_wrap(~set, ncol=2)
Archivo con cógidos completos:
Cuarteto de Anscombe.r
No hay comentarios:
Publicar un comentario