Pregunta:
Agregar un término cuadrático: ¿debería usar el original al cuadrado (y no el estandarizado al cuadrado?)
Zsuzsa
2013-01-08 01:04:13 UTC
view on stackexchange narkive permalink

En una regresión logística múltiple, necesito estandarizar una de las variables porque necesito agregar un término cuadrático. Ya sea que agregue el término cuadrático como el original al cuadrado o el estandarizado al cuadrado, obtengo modelos muy similares, el mismo AIC. ¿Por qué? Las estimaciones del término lineal cambian. Cuando elevo al cuadrado una variable estandarizada, obtengo números positivos después de elevar al cuadrado la mitad de los datos (que son negativos) y eso debería estropear completamente mis datos. ¿Por qué no lo hace? ¿Alguien puede explicar la razón matemática detrás de esto y decirme si definitivamente debería usar el cuadrado original y si puedo usar el cuadrado estandarizado, por qué funciona? Noto que esta es una pregunta de matemáticas en lugar de cualquier otra cosa, pero busqué y no pude encontrar cualquier cosa relacionada con esto.

One responder:
whuber
2013-01-08 01:43:40 UTC
view on stackexchange narkive permalink

Sea la variable $ x $, su media sea $ \ mu $ y su desviación estándar $ \ sigma $, de modo que la variable estandarizada sea $ z = (x- \ mu) / \ sigma $. Al expandir $ z ^ 2 $ y recopilar potencias similares de $ x $, puede reescribir su modelo como

$$ \ eqalign {y & = \ beta_0 + \ beta_1 x + \ beta_2 z ^ 2 + \ varepsilon \\ & = \ beta_0 + \ beta_1 x + \ beta_2 \ left (\ frac {x- \ mu} {\ sigma} \ right) ^ 2 + \ varepsilon \\ & = \ left (\ beta_0 + \ beta_2 \ frac {\ mu ^ 2} {\ sigma ^ 2} \ right) + \ left (\ beta_1 + \ beta_2 \ left (-2 \ frac {\ mu} {\ sigma} \ right) \ right) x + \ left (\ frac {\ beta_2} {\ sigma ^ 2} \ right) x ^ 2 + \ varepsilon \\ & = \ alpha_0 + \ alpha_1 x + \ alpha_2 x ^ 2 + \ varepsilon} $$

donde $ \ alpha_i $ son funciones de los parámetros $ \ beta_i $ dependiendo de las constantes $ \ mu $ y $ \ sigma $ y los términos de error $ \ varepsilon $ son los mismos que antes. (Otros términos de regresión multivariante no cambiarían y no se muestran). Esto significa que un modelo se ajustará a los datos exactamente tan bien como el otro: cualquier diferencia puede atribuirse a errores de redondeo de coma flotante. (Si no son realmente pequeños, es probable que tenga grandes problemas de colinealidad). Además, las estimaciones de los parámetros obtenidas con un modelo se pueden convertir en estimaciones correspondientes con el otro modelo, siempre que el procedimiento de estimación sea invariante bajo cambios lineales de parámetros (que es el caso de Máxima probabilidad, que es lo que se utiliza cuando se informa un AIC).

En resumen, no tiene que estandarizar la variable al elevarla al cuadrado: obtenga un modelo equivalente incluso cuando no esté estandarizado. Debido a que el software estandarizará automáticamente todas las variables al resolver, eres libre de escribir el modelo en la forma que consideres más interpretable.

Una nota: mencionas problemas de colinealidad. Yo diría que estos son bastante comunes cuando se trata de términos cuadráticos, especialmente si la variable original nunca se acerca a 0. Con frecuencia lo he visto recomendado para siempre * centro medio * una variable antes de elevarla al cuadrado (no importa si divide por el sd o no).
@Peter Ese es un muy buen punto. Quizás la mejor manera de lidiar con este problema es usar polinomios ortogonales, pero eso puede crear problemas de interpretación. En última instancia, ser capaz de realizar las manipulaciones algebraicas ilustradas aquí le dará a uno la capacidad de realizar cálculos numéricamente estables * y * derivar coeficientes interpretables.
Gracias por sus respuestas. La variable en cuestión es de hecho una que no llega a cero en este conjunto de datos (es la latitud de 22 a 65 grados). Estoy intentando incluir una tabla de correlación debajo de Latitud Latitud Latitud_sq stLat stLat_sqLatitude 1.0000000 0.9956874 1.0000000 -0.2520726Latitude_sq 0.9956874 1.0000000 0.9956874 -0.1612099stLat 1.0000000 0.9956874 1.0000000 -0.2520726stLat_sq -0.252099-020.1 Con stLat y stLat_sq esa beta es 0.22
Lo siento, inténtelo de nuevo: El coeficiente de corrección de Pearson entre la variable de latitud original y la latitud estandarizada al cuadrado es -0.2520726, igual que entre la variable de latitud estandarizada y su forma al cuadrado. Entre Latitude estandarizado y el original al cuadrado es (sorpresa para mí): 0.9956874. Todavía no entiendo esto, gracias de antemano por un poco más de elaboración sobre este problema. Las estimaciones beta en el modelo son 1,69 para stLat cuando se usa además el cuadrado original, y 0,22 cuando se usa el cuadrado estandarizado, por lo que el primero debe estar completamente apagado. ??
Aunque las preguntas de sus dos últimos comentarios están relacionadas con su pregunta original, son realmente diferentes y requieren una explicación diferente. (Sin embargo, si solo graficara los datos como una matriz de diagrama de dispersión, todo debería quedar claro). Considere publicarlos como una nueva pregunta: eso también le dará la oportunidad de publicar su información en un formato legible.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...