Pregunta:
Robustez de la prueba de correlación con la no normalidad
max
2016-04-27 13:14:31 UTC
view on stackexchange narkive permalink

Estoy tratando de reconciliar dos afirmaciones aparentemente opuestas sobre la solidez de la no normalidad de la estadística de la prueba de correlación de Pearson (donde el valor nulo significa "sin correlación").

Esta respuesta de CV dice:

Muy poco robusto.

Este manual de biostat dice:

[...] numerosos estudios de simulación han demostrado que la correlación y la regresión lineal no son sensibles a la no normalidad; una o ambas variables de medición pueden ser muy anormales, y la probabilidad de un falso positivo (P<0.05, cuando la hipótesis nula es verdadera) todavía es de aproximadamente 0.05 ( Edgell y Noon 1984, y las referencias allí).

¿Qué me estoy perdiendo?

Las dos fuentes diferentes que cita parecen atribuir significados diferentes a la noción de "desviación de la normalidad".¿Se obtiene una muestra de una distribución normal pero en la que una sola observación se reemplaza por un valor arbitrario que se considera que constituye una forma aceptable de desviación de la normalidad?Si es así, entonces claramente se puede demostrar que el manual de biostat (y el documento Edgell y Noon al que se hace referencia) están equivocados.
La regresión de @user603 no requiere de ninguna manera la distribución normal de una o ambas variables: la suposición está integrada en el formalismo matemático: $ Y = \ beta_ {0} + \ beta_ {X} X + \ varepsilon $ donde $ \ varepsilon \ sim\ mathcal {N} (0, \ sigma) $.Tenga en cuenta la última parte: son los residuos, no las variables, las que se distribuyen normalmente.Los verifican empíricamente: (1) simular $ X $ usando una distribución uniforme de, oh, digamos 0 a 100;(2) simule $ Y = 3 + 0.5 \ times X + \ mathcal {N} (0,1) $;(3) retroceda $ Y $ en $ X $ y recupere $ \ beta_ {0} \ approx 3 $, $ \ beta_ {X} \ approx 0.5 $.Ahora vea los histogramas de $ X $ y $ Y $.
@Alexis: No estoy seguro de entender la conexión entre su comentario y el mío.No creo que afirme nada sobre regresión (o normalidad)
@user603 Estoy bastante seguro de que hizo una afirmación sobre la cita de Edgell y Noon, en particular este bit: "numerosos estudios de simulación han demostrado que la regresión lineal y la correlación no son sensibles a la no normalidad; una o ambas variables de medición pueden ser muy anormales" -que se trata precisamente de eso.
Dos respuestas:
whuber
2016-04-27 18:36:32 UTC
view on stackexchange narkive permalink

El artículo de Edgell y Noon se equivocó.

Antecedentes

El artículo describe el resultado de conjuntos de datos simulados $ (x_i, y_i) $ con coordenadas extraídas de distribuciones Normal, Exponencial, Uniforme y de Cauchy. (Aunque informa dos "formas" de Cauchy, solo diferían en cómo se generaron los valores, lo cual es una distracción irrelevante). Los tamaños del conjunto de datos $ n $ ("tamaño de muestra") oscilaron entre $ 5 $ y $ 100 $. Para cada conjunto de datos, se calculó el coeficiente de correlación de la muestra de Pearson $ r $, convertido en una estadística $ t $ mediante

$$ t = r \ sqrt {\ frac {n-2} {1-r ^ 2 }}, $$

(consulte la Ecuación (1)), y lo refirió a una distribución $ t $ de Estudiante con $ n-2 $ grados de libertad utilizando un cálculo de dos colas. Los autores realizaron simulaciones independientes de $ 10,000 $ para cada uno de los pares de $ 10 $ de esta distribución y cada tamaño de muestra, produciendo estadísticas de $ 10,000 $ $ t $ en cada uno. Finalmente, tabularon la proporción de estadísticas de $ t $ que parecían ser significativas en el nivel de $ \ alpha = 0.05 $: es decir, las estadísticas de $ t $ en las colas externas de $ \ alpha / 2 = 0.025 $ de Student $ t $ distribución.

Discusión

Antes de continuar, observe que este estudio analiza solo cuán sólida es una prueba de cero la correlación podría ser con la no normalidad. Eso no es un error, pero es una limitación importante a tener en cuenta.

Hay un error estratégico importante en este estudio y un error técnico evidente.

El error estratégico es que estas distribuciones no son tan anormales. Ni la distribución Normal ni la Uniforme van a causar problemas para los coeficientes de correlación: la primera por diseño y la segunda porque no puede producir valores atípicos (que es lo que hace que la correlación de Pearson no sea robusta). (Sin embargo, se tuvo que incluir el Normal como referencia para asegurarse de que todo funcionaba correctamente). Ninguna de estas cuatro distribuciones son buenos modelos para situaciones comunes en las que los datos pueden estar "contaminados" por valores de una distribución con una ubicación diferente en conjunto (como cuando los sujetos realmente provienen de poblaciones distintas, desconocidas para el experimentador). La prueba más severa proviene de Cauchy pero, debido a que es simétrica, no prueba la sensibilidad más probable del coeficiente de correlación a valores atípicos unilaterales .

El El error técnico es que el estudio no examinó las distribuciones reales de los valores p: miró únicamente las tasas de dos caras para $ \ alpha = 0.05 $.

(Aunque podemos disculpar mucho de lo que sucedió hace 32 años debido a limitaciones en la tecnología informática, la gente examinaba de forma rutinaria distribuciones contaminadas, distribuciones de barra oblicua, distribuciones lognormales y otras formas más graves de anormalidad; y ha sido una rutina para aún más para explorar una gama más amplia de tamaños de prueba en lugar de limitar los estudios a un solo tamaño).

Corrección de errores

A continuación, proporciono el código R que reproducirá completamente este estudio (en menos de un minuto de cálculo). Pero hace algo más: muestra las distribuciones de muestra de los valores p. Esto es bastante revelador, así que vayamos y veamos esos histogramas.

Primero, aquí son histogramas de muestras grandes de las tres distribuciones que miré, para que pueda tener una idea de cómo no son normales.

Figure 1

El exponencial está sesgado (pero no demasiado); el Cauchy tiene colas largas (de hecho, algunos valores en miles fueron excluidos de este gráfico para que pueda ver su centro); el Contaminado es un Normal estándar con una mezcla del 5% de un Normal estándar cambiado a $ 10 $. Representan formas de no normalidad que se encuentran con frecuencia en los datos.

Debido a que Edgell y Noon tabularon sus resultados en filas correspondientes a pares de distribuciones y columnas para tamaños de muestra, hice lo mismo. No necesitamos mirar el rango completo de tamaños de muestra que usaron: el más pequeño ($ 5 $), el más grande ($ 100 $) y un valor intermedio ($ 20 $) funcionarán bien. Pero en lugar de tabular las frecuencias de la cola, he trazado las distribuciones de los valores p.

Figure 2

Idealmente, la p- los valores tendrán distribuciones uniformes: todas las barras deben estar cerca de una altura constante de $ 1 $, que se muestra con una línea gris discontinua en cada gráfico. En estos gráficos hay 40 barras, con un espaciado constante de $ 0.025 $. Un estudio de $ \ alpha = 0.05 $ se centrará en la altura promedio de la barra más a la izquierda y a la derecha (las "barras extremas") . Edgell y Noon compararon estos promedios con la frecuencia ideal de $ 0.05 $.

Debido a que las desviaciones de la uniformidad son prominentes, no se necesitan muchos comentarios, pero antes de proporcionar algunos, busque usted mismo el resto de los resultados. Puede identificar los tamaños de muestra en los títulos (todos tienen entre $ 5 y $ 20-100 $ en cada fila) y puede leer los pares de distribuciones en los subtítulos debajo de cada gráfico.

Figure 3

Figure 4

Lo que más debería llamarte la atención es lo diferente las barras extremas son del resto de la distribución. ¡Un estudio de $ \ alpha = 0.05 $ es extraordinariamente especial ! Realmente no nos dice qué tan bien funcionará la prueba en otros tamaños; de hecho, los resultados por $ 0.05 $ son tan especiales que nos engañarán con respecto a las características de esta prueba.

En segundo lugar, observe que cuando está involucrada la distribución contaminada, con su tendencia a producir solo valores atípicos altos, la distribución de los valores p se vuelve asimétrica. Una barra (que se usaría para probar la correlación positiva ) es extremadamente alta, mientras que su contraparte en el otro extremo (que se usaría para probar la correlación negativa ) es extremadamente bajo. Sin embargo, en promedio, casi se equilibran: ¡dos errores enormes se cancelan!

Es particularmente alarmante que los problemas tiendan a empeorar con una muestra más grande tamaños.

También me preocupa la precisión de los resultados. Aquí están los resúmenes de iteraciones de $ 100,000 $, diez veces más de lo que hicieron Edgell y Noon:

  5 20100Exponencial-Exponencial 0.05398 0.05048 0.04742Exponencial-Cauchy 0.05864 0.05780 0.05331Exponencial-Contaminado 0.05462 0.05213 0.04758Cauchy- Cauchy 0.07256 0.06876 0.04515Cauchy-Contaminado 0.06207 0.06366 0.06045Contaminado-Contaminado 0.05637 0.06010 0.05460  

Tres de estos, los que no involucran la distribución Contaminada, reproducen partes de la tabla del papel. Aunque conducen cualitativamente a las mismas (malas) conclusiones (es decir, que estas frecuencias parecen bastante cercanas al objetivo de $ 0.05 $), difieren lo suficiente como para cuestionar mi código o los resultados del artículo. (La precisión en el artículo será aproximadamente $ \ sqrt {\ alpha (1- \ alpha) / n} \ aproximadamente 0.0022 $, pero algunos de estos resultados difieren de los del artículo en muchas veces más.

Conclusiones

Al no incluir distribuciones no normales que pueden causar problemas para los coeficientes de correlación y al no examinar las simulaciones en detalle, Edgell y Noon no identificaron una clara falta de robustez y perdieron la oportunidad de caracterizar su naturaleza. El hecho de que hayan encontrado solidez para pruebas de dos caras en el nivel $ \ alpha = 0.05 $ parece ser casi un accidente, una anomalía que no comparten las pruebas en otros niveles.


Código R

  ## Crea una fila (o celda) de la tabla del documento. # simula la función <- (F1, F2 , sample.size, n.iter = 1e4, alpha = 0.05, ...) {p <- rep (NA, length (sample.size)) i <- 0 for (n in sample.size) {# # Create los datos. # x <- matriz (cbind (matriz (F1 (n * n.iter), nrow = n), matriz (F2 (n * n.iter), nrow = n)), dim = c (n, n.iter , 2)) # # Calcule los valores p. # r.hat <- apply (x, 2, cor) [2,] t.stat <- r.hat * sqrt ((n-2) / (1 - r.hat ^ 2)) p.values ​​<- pt (t.stat, n-2) # # Grafique los valores p. # hist (p.values, breaks = seq (0, 1, 1/40), freq = FALSE, xlab = "p-values", main = paste ("Tamaño de muestra", n), ...) abline ( h = 1, lty = 3, col = "# a0a0a0") # # Almacena la frecuencia de los valores p menores que `alpha` (dos caras). # i <- i + 1 p [i] <- mean (1 - abs (1-2 * p.values) < = alpha)} return (p)} ## Las distribuciones del artículo. # distribuciones <- lista (N = rnorm, U = runif, E = rexp, C = function (n) rt (n, 1)) ## Un conjunto de distribuciones ligeramente mejor. ## distribuciones <- list (Exponential = rexp, # Cauchy = function (n ) rt (n, 1), # Contaminated = function (n) rnorm (n, rbinom (n, 1, 0.05) * 10)) ## Representar las distribuciones. # par (mfrow = c (1, length (distribuciones) )) para (s en nombres (distribuciones)) {
x <- distribuciones [[s]] (1e5) x <- x [abs (x) < 20] hist (x, breaks = seq (min (x), max (x), length.out = 60), main = s, xlab = "Value")} ## Realice el estudio. # set.seed (17) sample.sizes <- c (5, 10, 15, 20, 30, 50, 100) # sample.sizes <- c (5, 20, 100) resultados <- matrix (numérico (0), nrow = 0, ncol = length (sample.sizes)) colnames (results) <- sample.sizespar (mfrow = c (2, length (sample) .sizes))) s <- nombres (distribuciones) para (i1 en 1: longitud (distribuciones)) {s1 <- s [i1] F1 <- distribuciones [[s1]] para (i2 en i1: longitud (distribuciones) ) {s2 <- s [i2] F2 <- distribuciones [[s2]] title <- paste (s1, s2, sep = "-") p <- simulate (F1, F2, sample.sizes, sub = title) p <- matriz (p, nrow = 1) nombres de filas (p) <- título resultados <- rbind (resultados, p)}} ## Mostrar la tabla. # imprimir (resultados)  

Referencia

Stephen E. Edgel ly Sheila M. Noon, Efecto de la violación de la normalidad en la prueba $ t $ del coeficiente de correlación. Psychological Bulletin 1984, Vol., 95, No. 3, 576-583.

Guau.Entonces, no solo los dos autores del artículo, sino muchas personas que trabajan en el campo hoy (incluido el autor del blog y el Manual de bioestadística que mencioné) tienen un malentendido realmente desafortunado de la técnica que es realmente fundamental para su investigación.
Siempre que la investigación solo incluya una de esas pruebas en cada artículo publicado (de modo que no se necesiten correcciones de comparaciones múltiples), no hay posibilidad de valores atípicos graves y $ \ alpha = 0.05 $ es el umbral de significación, es posible que esté bien.Sin embargo, existen buenas razones por las que la mayoría de los libros de texto sobre regresión múltiple y correlación escritos desde principios de la década de 1980 han incluido secciones importantes sobre cómo identificar, detectar y afrontar la no normalidad.De hecho, subcampos completos de estadísticas (estimación robusta y EDA) que se desarrollaron para hacer frente a esta situación han ido y venido mientras tanto.
+1 Esta es una gran respuesta.Un pequeño detalle: usted dice que "¡un estudio de α = 0.05 es extraordinariamente especial!"da la impresión de que si los autores hubieran considerado otro $ \ alpha $, habrían observado resultados radicalmente diferentes (incluso siguiendo la misma metodología).Pero sus histogramas no muestran claramente que este sea el caso de, por ejemplo,$ \ alpha = 0.01 $ o $ 0.001 $ u otros valores comunes, porque no hay suficiente resolución.Si el resultado para estos alfa es aproximadamente el mismo (tamaños de prueba reales de 0,4 a 0,8), entonces $ \ alpha = 0,05 $ quizás no sea "extraordinariamente" especial.
@amoeba Tienes razón: es un buen conjunto de observaciones.Sin embargo, creo que encontrará que las fuertes tendencias que surgen cerca de las colas en esta resolución se vuelven aún más fuertes cuando se muestran a resoluciones más altas.Por supuesto, esto requerirá simulaciones más grandes, al menos 20 veces más grandes.Eso es factible de realizar por cualquier persona interesada.
Glen_b
2016-04-28 05:09:20 UTC
view on stackexchange narkive permalink

Dado que whuber ha realizado un análisis exhaustivo del comportamiento de las distribuciones de valores p bajo un nulo de correlación cero, centraré mis comentarios en otra parte.

  1. Robustez en relación con las pruebas de hipótesis no solo significa nivel de robustez (acercarse al nivel de significancia deseado). Además de analizar solo un nivel y solo pruebas de dos caras, el estudio parece haber ignorado el impacto en el poder . No tiene mucho sentido decir que se mantiene cerca de una tasa de rechazo del 5% por debajo del nulo si también termina con una tasa de rechazo del 5% * para grandes desviaciones del nulo.

    * (o tal vez peor, si la prueba termina sesgada en las distribuciones anormales para algunas alternativas)

    Investigar el poder es considerablemente más complicado. Para empezar, con estas distribuciones tendría que estar buscando especificar algunas cópulas o cópulas, presumiblemente con una relación casi lineal en las variables no transformadas, y ciertamente con cerca de algún valor especificado para el coeficiente de correlación de la población. Tendrá que observar varios tamaños de efecto (al menos) y posiblemente dependencia tanto negativa como positiva.

    Sin embargo, si uno quiere entender las propiedades de la inferencia con la prueba en estas situaciones, no puede ignorar el impacto potencial en el poder.

  2. Sería Parece extraño discutir esa prueba particular de la correlación de Pearson sin examinar pruebas alternativas, por ejemplo, pruebas de permutación de la correlación de Pearson, pruebas de rango como la tau de Kendall y la rho de Spearman (que no solo tienen un buen desempeño cuando se cumplen los supuestos normales, sino que también tienen relevancia directa para el problema de las cópulas necesarias para un estudio de potencia que mencioné antes), quizás versiones robustas del coeficiente de correlación, posiblemente también pruebas de arranque.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...