Pregunta:
¿Por qué la prueba de chi-cuadrado de Pearson detecta diferencias que el modelo GLM no detecta?
mrb
2015-03-13 01:36:32 UTC
view on stackexchange narkive permalink

¿Cómo puedo interpretar el siguiente resultado? Tengo 4 grupos con alrededor de 300 observaciones cada uno:

  Negro Rojo Grupo A 296 14 Grupo B 292 16 Grupo C 301 7 Grupo D 289 23  

Quiero probar si los grupos tienen una propensión diferente a los resultados Rojo .

Cuando utilizo una prueba de chi-cuadrado de Pearson, el valor p es 0.03, lo que parece sugerir que los grupos tienen diferentes propensiones. Pero si modelo la diferencia como binomial, el GLM estimado no detecta diferencias significativas entre los grupos.

Debe modelar (Frecuencia de eventos) binomialmente una de las dos columnas.La frecuencia de prueba es la columna de sumas de filas.El grupo es el factor.Los resultados son los mismos que al usar el chi-cuadrado de la razón de probabilidad (no de Pearson) para probar su tabla.
One responder:
gung - Reinstate Monica
2015-03-13 01:54:04 UTC
view on stackexchange narkive permalink

No veo una gran diferencia en los resultados:

  d = read.table (text = "Group Black Red A 296 14 B 292 16 C 301 7 D 289 23 ", encabezado = T) chisq.test (d [, 2: 3]) # Prueba Chi-cuadrado de Pearson # # datos: d [, 2: 3] # X-cuadrado = 8.893 , df = 3, p-value = 0.03075mod = glm (cbind (Black, Red) ~ Group, data = d, family = binomial) summary (mod) # ... # Coeficientes: # Estimate Std. Error z valor Pr (> | z |) # (Intercepción) 3,0513 0,2735 11,156 <2e-16 *** # GrupoB -0,1471 0,3751 -0,392 0,695 # GrupoC 0,7099 0,4701 1,510 0,131 # GrupoD -0,5204 0,3489 -1,491 0,136 # ... # # Desviación nula: 9.3651e + 00 en 3 grados de libertad # Desviación residual: 1.1902e-13 en 0 grados de libertad # AIC: 25.6991-pchisq ((9.3651 - 1.1902e-13), df = (3-0)) # [1] 0.02481063  

El GLM es, en todo caso, un poco más significativo. Me pregunto si esto es una confusión sobre cómo interpretar la salida estadística de un modelo con variables categóricas. Cuando tiene una variable categórica, la mayoría del software (incluido R, arriba) utiliza codificación de celda de referencia (consulte aquí). El primer nivel de la variable se convierte en el intercepto y los otros niveles se comparan con el intercepto. Por lo tanto, la salida muestra que B , C y D no difieren significativamente de A , pero eso no No significa que no difieran entre sí ( C y D parecen serlo, por ejemplo). Para probar si todo el factor / variable categórica es significativa, debe ajustar un nuevo modelo sin esa variable y realizar una prueba de modelo anidado. Como solo tiene una variable, puede calcular la importancia de todo el modelo directamente utilizando la desviación nula y residual (consulte aquí).

El GLM binomoal (GzLM, como algunos prefieren abreviar) es _exactamente_ el mismo que el chi-cuadrado de la razón de verosimilitud (no el chi-cuadrado de Pearson): `9.365, p = .025`.El modelado avanzado como GzLM o el análisis log-lineal no se basará en el chi-cuadrado de Pearson, seguro.
También puede evitar los cálculos de prueba LRT manuales, y dejar que R calcule el valor * p * directamente, usando `drop1 (mod, test =" LRT ")` o `anova (mod, test =" LRT ")`.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...