El artículo de Edgell y Noon se equivocó.
Antecedentes
El artículo describe el resultado de conjuntos de datos simulados $ (x_i, y_i) $ con coordenadas extraídas de distribuciones Normal, Exponencial, Uniforme y de Cauchy. (Aunque informa dos "formas" de Cauchy, solo diferían en cómo se generaron los valores, lo cual es una distracción irrelevante). Los tamaños del conjunto de datos $ n $ ("tamaño de muestra") oscilaron entre $ 5 $ y $ 100 $. Para cada conjunto de datos, se calculó el coeficiente de correlación de la muestra de Pearson $ r $, convertido en una estadística $ t $ mediante
$$ t = r \ sqrt {\ frac {n-2} {1-r ^ 2 }}, $$
(consulte la Ecuación (1)), y lo refirió a una distribución $ t $ de Estudiante con $ n-2 $ grados de libertad utilizando un cálculo de dos colas. Los autores realizaron simulaciones independientes de $ 10,000 $ para cada uno de los pares de $ 10 $ de esta distribución y cada tamaño de muestra, produciendo estadísticas de $ 10,000 $ $ t $ en cada uno. Finalmente, tabularon la proporción de estadísticas de $ t $ que parecían ser significativas en el nivel de $ \ alpha = 0.05 $: es decir, las estadísticas de $ t $ en las colas externas de $ \ alpha / 2 = 0.025 $ de Student $ t $ distribución.
Discusión
Antes de continuar, observe que este estudio analiza solo cuán sólida es una prueba de cero la correlación podría ser con la no normalidad. Eso no es un error, pero es una limitación importante a tener en cuenta.
Hay un error estratégico importante en este estudio y un error técnico evidente.
El error estratégico es que estas distribuciones no son tan anormales. Ni la distribución Normal ni la Uniforme van a causar problemas para los coeficientes de correlación: la primera por diseño y la segunda porque no puede producir valores atípicos (que es lo que hace que la correlación de Pearson no sea robusta). (Sin embargo, se tuvo que incluir el Normal como referencia para asegurarse de que todo funcionaba correctamente). Ninguna de estas cuatro distribuciones son buenos modelos para situaciones comunes en las que los datos pueden estar "contaminados" por valores de una distribución con una ubicación diferente en conjunto (como cuando los sujetos realmente provienen de poblaciones distintas, desconocidas para el experimentador). La prueba más severa proviene de Cauchy pero, debido a que es simétrica, no prueba la sensibilidad más probable del coeficiente de correlación a valores atípicos unilaterales .
El El error técnico es que el estudio no examinó las distribuciones reales de los valores p: miró únicamente las tasas de dos caras para $ \ alpha = 0.05 $.
(Aunque podemos disculpar mucho de lo que sucedió hace 32 años debido a limitaciones en la tecnología informática, la gente examinaba de forma rutinaria distribuciones contaminadas, distribuciones de barra oblicua, distribuciones lognormales y otras formas más graves de anormalidad; y ha sido una rutina para aún más para explorar una gama más amplia de tamaños de prueba en lugar de limitar los estudios a un solo tamaño).
Corrección de errores
A continuación, proporciono el código R
que reproducirá completamente este estudio (en menos de un minuto de cálculo). Pero hace algo más: muestra las distribuciones de muestra de los valores p. Esto es bastante revelador, así que vayamos y veamos esos histogramas.
Primero, aquí son histogramas de muestras grandes de las tres distribuciones que miré, para que pueda tener una idea de cómo no son normales.
El exponencial está sesgado (pero no demasiado); el Cauchy tiene colas largas (de hecho, algunos valores en miles fueron excluidos de este gráfico para que pueda ver su centro); el Contaminado es un Normal estándar con una mezcla del 5% de un Normal estándar cambiado a $ 10 $. Representan formas de no normalidad que se encuentran con frecuencia en los datos.
Debido a que Edgell y Noon tabularon sus resultados en filas correspondientes a pares de distribuciones y columnas para tamaños de muestra, hice lo mismo. No necesitamos mirar el rango completo de tamaños de muestra que usaron: el más pequeño ($ 5 $), el más grande ($ 100 $) y un valor intermedio ($ 20 $) funcionarán bien. Pero en lugar de tabular las frecuencias de la cola, he trazado las distribuciones de los valores p.
Idealmente, la p- los valores tendrán distribuciones uniformes: todas las barras deben estar cerca de una altura constante de $ 1 $, que se muestra con una línea gris discontinua en cada gráfico. En estos gráficos hay 40 barras, con un espaciado constante de $ 0.025 $. Un estudio de $ \ alpha = 0.05 $ se centrará en la altura promedio de la barra más a la izquierda y a la derecha (las "barras extremas") . Edgell y Noon compararon estos promedios con la frecuencia ideal de $ 0.05 $.
Debido a que las desviaciones de la uniformidad son prominentes, no se necesitan muchos comentarios, pero antes de proporcionar algunos, busque usted mismo el resto de los resultados. Puede identificar los tamaños de muestra en los títulos (todos tienen entre $ 5 y $ 20-100 $ en cada fila) y puede leer los pares de distribuciones en los subtítulos debajo de cada gráfico.
Lo que más debería llamarte la atención es lo diferente las barras extremas son del resto de la distribución. ¡Un estudio de $ \ alpha = 0.05 $ es extraordinariamente especial ! Realmente no nos dice qué tan bien funcionará la prueba en otros tamaños; de hecho, los resultados por $ 0.05 $ son tan especiales que nos engañarán con respecto a las características de esta prueba.
En segundo lugar, observe que cuando está involucrada la distribución contaminada, con su tendencia a producir solo valores atípicos altos, la distribución de los valores p se vuelve asimétrica. Una barra (que se usaría para probar la correlación positiva ) es extremadamente alta, mientras que su contraparte en el otro extremo (que se usaría para probar la correlación negativa ) es extremadamente bajo. Sin embargo, en promedio, casi se equilibran: ¡dos errores enormes se cancelan!
Es particularmente alarmante que los problemas tiendan a empeorar con una muestra más grande tamaños.
También me preocupa la precisión de los resultados. Aquí están los resúmenes de iteraciones de $ 100,000 $, diez veces más de lo que hicieron Edgell y Noon:
5 20100Exponencial-Exponencial 0.05398 0.05048 0.04742Exponencial-Cauchy 0.05864 0.05780 0.05331Exponencial-Contaminado 0.05462 0.05213 0.04758Cauchy- Cauchy 0.07256 0.06876 0.04515Cauchy-Contaminado 0.06207 0.06366 0.06045Contaminado-Contaminado 0.05637 0.06010 0.05460
Tres de estos, los que no involucran la distribución Contaminada, reproducen partes de la tabla del papel. Aunque conducen cualitativamente a las mismas (malas) conclusiones (es decir, que estas frecuencias parecen bastante cercanas al objetivo de $ 0.05 $), difieren lo suficiente como para cuestionar mi código o los resultados del artículo. (La precisión en el artículo será aproximadamente $ \ sqrt {\ alpha (1- \ alpha) / n} \ aproximadamente 0.0022 $, pero algunos de estos resultados difieren de los del artículo en muchas veces más.
Conclusiones
Al no incluir distribuciones no normales que pueden causar problemas para los coeficientes de correlación y al no examinar las simulaciones en detalle, Edgell y Noon no identificaron una clara falta de robustez y perdieron la oportunidad de caracterizar su naturaleza. El hecho de que hayan encontrado solidez para pruebas de dos caras en el nivel $ \ alpha = 0.05 $ parece ser casi un accidente, una anomalía que no comparten las pruebas en otros niveles.
Código R
## Crea una fila (o celda) de la tabla del documento. # simula la función <- (F1, F2 , sample.size, n.iter = 1e4, alpha = 0.05, ...) {p <- rep (NA, length (sample.size)) i <- 0 for (n in sample.size) {# # Create los datos. # x <- matriz (cbind (matriz (F1 (n * n.iter), nrow = n), matriz (F2 (n * n.iter), nrow = n)), dim = c (n, n.iter , 2)) # # Calcule los valores p. # r.hat <- apply (x, 2, cor) [2,] t.stat <- r.hat * sqrt ((n-2) / (1 - r.hat ^ 2)) p.values <- pt (t.stat, n-2) # # Grafique los valores p. # hist (p.values, breaks = seq (0, 1, 1/40), freq = FALSE, xlab = "p-values", main = paste ("Tamaño de muestra", n), ...) abline ( h = 1, lty = 3, col = "# a0a0a0") # # Almacena la frecuencia de los valores p menores que `alpha` (dos caras). # i <- i + 1 p [i] <- mean (1 - abs (1-2 * p.values) < = alpha)} return (p)} ## Las distribuciones del artículo. # distribuciones <- lista (N = rnorm, U = runif, E = rexp, C = function (n) rt (n, 1)) ## Un conjunto de distribuciones ligeramente mejor. ## distribuciones <- list (Exponential = rexp, # Cauchy = function (n ) rt (n, 1), # Contaminated = function (n) rnorm (n, rbinom (n, 1, 0.05) * 10)) ## Representar las distribuciones. # par (mfrow = c (1, length (distribuciones) )) para (s en nombres (distribuciones)) {
x <- distribuciones [[s]] (1e5) x <- x [abs (x) < 20] hist (x, breaks = seq (min (x), max (x), length.out = 60), main = s, xlab = "Value")} ## Realice el estudio. # set.seed (17) sample.sizes <- c (5, 10, 15, 20, 30, 50, 100) # sample.sizes <- c (5, 20, 100) resultados <- matrix (numérico (0), nrow = 0, ncol = length (sample.sizes)) colnames (results) <- sample.sizespar (mfrow = c (2, length (sample) .sizes))) s <- nombres (distribuciones) para (i1 en 1: longitud (distribuciones)) {s1 <- s [i1] F1 <- distribuciones [[s1]] para (i2 en i1: longitud (distribuciones) ) {s2 <- s [i2] F2 <- distribuciones [[s2]] title <- paste (s1, s2, sep = "-") p <- simulate (F1, F2, sample.sizes, sub = title) p <- matriz (p, nrow = 1) nombres de filas (p) <- título resultados <- rbind (resultados, p)}} ## Mostrar la tabla. # imprimir (resultados)
Referencia
Stephen E. Edgel ly Sheila M. Noon, Efecto de la violación de la normalidad en la prueba $ t $ del coeficiente de correlación. Psychological Bulletin 1984, Vol., 95, No. 3, 576-583.