No veo una gran diferencia en los resultados:
d = read.table (text = "Group Black Red A 296 14 B 292 16 C 301 7 D 289 23 ", encabezado = T) chisq.test (d [, 2: 3]) # Prueba Chi-cuadrado de Pearson # # datos: d [, 2: 3] # X-cuadrado = 8.893 , df = 3, p-value = 0.03075mod = glm (cbind (Black, Red) ~ Group, data = d, family = binomial) summary (mod) # ... # Coeficientes: # Estimate Std. Error z valor Pr (> | z |) # (Intercepción) 3,0513 0,2735 11,156 <2e-16 *** # GrupoB -0,1471 0,3751 -0,392 0,695 # GrupoC 0,7099 0,4701 1,510 0,131 # GrupoD -0,5204 0,3489 -1,491 0,136 # ... # # Desviación nula: 9.3651e + 00 en 3 grados de libertad # Desviación residual: 1.1902e-13 en 0 grados de libertad # AIC: 25.6991-pchisq ((9.3651 - 1.1902e-13), df = (3-0)) # [1] 0.02481063
El GLM es, en todo caso, un poco más significativo. Me pregunto si esto es una confusión sobre cómo interpretar la salida estadística de un modelo con variables categóricas. Cuando tiene una variable categórica, la mayoría del software (incluido R, arriba) utiliza codificación de celda de referencia (consulte aquí). El primer nivel de la variable se convierte en el intercepto y los otros niveles se comparan con el intercepto. Por lo tanto, la salida muestra que B
, C
y D
no difieren significativamente de A
, pero eso no No significa que no difieran entre sí ( C
y D
parecen serlo, por ejemplo). Para probar si todo el factor / variable categórica es significativa, debe ajustar un nuevo modelo sin esa variable y realizar una prueba de modelo anidado. Como solo tiene una variable, puede calcular la importancia de todo el modelo directamente utilizando la desviación nula y residual (consulte aquí).