Pregunta:
¿Cómo utilizar las variables derivadas del análisis factorial como predictores en la regresión logística?
user3358
2011-02-22 09:24:55 UTC
view on stackexchange narkive permalink

Contexto

Tengo una encuesta que hace 11 preguntas sobre la autoeficacia. Cada pregunta tiene 3 opciones de respuesta (en desacuerdo, de acuerdo, totalmente de acuerdo). Nueve preguntas sobre la autoestima. Utilicé un análisis factorial de los 11 ítems de autoeficacia y extraje dos factores.

$ x_1 $ a $ x_ {11} $ indican las 11 preguntas de autoeficacia de la encuesta, y $ f_1 $ ($ x_1 $ a $ x_6 $), $ f_2 $ ($ x_7 $ a $ x_ {11} $) denotan los dos factores que obtuve del análisis factorial. $ y $ es una variable dependiente.

Luego creé dos nuevas variables:

  f1 = mean (x1 to x6); f2 = media (x7-x11). 

Entonces, la regresión logística se vería así:

  y = a + bf1 + cf2 + ....  

Mi pregunta:

  • ¿Puedo usar estos dos factores como variables predictoras en mi modelo de regresión logística multivariante?
  • ¿Debo calcular la media de cada ítem en cada factor y usar esta media como una variable continua en mi modelo de regresión logística?
  • ¿Es este un uso apropiado del análisis factorial?
Algunas preguntas: ¿$ y $ es univariante? Entonces tiene una regresión logística múltiple, no una regresión logística multivariante. ¿Cómo estás haciendo el análisis factorial? Si bien existen métodos aplicables a las variables ordinales que son análogos al análisis factorial para las variables de manifiesto continuas, no me queda claro qué está utilizando. Finalmente, ¿qué consideraría un uso inadecuado del análisis factorial? Si lo ve como una técnica de reducción de dimensión (convertir 11 variables en 2), entonces no hay nada intrínsecamente malo en ello. Si es una buena idea o no, es otra cuestión.
Cuatro respuestas:
chl
2011-02-22 17:23:45 UTC
view on stackexchange narkive permalink

Si le entiendo correctamente, está utilizando FA para extraer dos subescalas de su cuestionario de 11 ítems. Se supone que reflejan algunas dimensiones específicas de la autoeficacia (por ejemplo, la eficacia autorreguladora frente a la autoafirmación).

Entonces, puede usar la palabra individual mean (o suma) puntuaciones calculadas en las dos subescalas como predictores en un modelo de regresión. En otras palabras, en lugar de considerar las puntuaciones de 11 elementos, ahora está trabajando con 2 subpuntuaciones, calculadas como se describe anteriormente para cada individuo. La única suposición que se hace es que esos puntajes reflejan la ubicación de uno en una "construcción hipotética" o variable latente, definida como una escala continua.

Como dijo @JMS, hay otras cuestiones que podría aclarar aún más , especialmente qué tipo de AF se hizo. Un problema sutil es que el error de medición no se contabilizará mediante un enfoque de regresión estándar. Una alternativa es usar modelos de ecuaciones estructurales o cualquier modelo de variables latentes (por ejemplo, los que provienen de la literatura IRT), pero aquí el enfoque de regresión debería proporcionar una buena aproximación. El análisis de variables ordinales (ítem tipo Likert) se ha discutido en otra parte de este sitio.

Sin embargo, en la práctica actual, su enfoque es el que se encuentra comúnmente al validar un cuestionario o al construir reglas de puntuación: utilizamos una combinación ponderada o no ponderada de puntuaciones de elementos (por lo tanto, se tratan como variables numéricas) para informar ubicación individual en los rasgos latentes en consideración.

Jeromy Anglim
2011-02-22 17:24:19 UTC
view on stackexchange narkive permalink

Uso de puntuaciones de factores como predictores

Sí, puede utilizar variables derivadas de un análisis de factores como predictores en análisis posteriores.

Otras opciones incluyen ejecutar algún tipo de modelo de ecuación estructural en el que postula una variable latente con los elementos o conjuntos de elementos como variables observadas.

Media como puntuación de escala

Sí, en su caso, la media sería una opción típica para calcular un puntaje de escala. Si tiene elementos invertidos, debe lidiar con esto.

También puede usar puntajes guardados por factores en su lugar de tomar la media. Aunque cuando todos los elementos se cargan razonablemente bien en cada factor y todos los elementos están en la misma escala y todos los elementos están redactados de manera positiva, rara vez hay mucha diferencia entre la media y la puntuación guardada del factor.

También puede mirar métodos que reconocen la naturaleza ordinal de la escala y, por lo tanto, no tratan las opciones de escala como igualmente distantes.

(+1) Es bueno que haya mencionado el uso de las puntuaciones de factor directamente (y su correspondencia con las puntuaciones brutas en determinadas condiciones).
pbneau
2011-02-22 17:37:13 UTC
view on stackexchange narkive permalink

Todo lo han dicho chl y Jeromy para la parte teórica ... Si no tiene el uso de la suma / media de las variables que identifica con FA, puede usar puntuaciones de FA.

Con respecto a la la sintaxis que usa probablemente esté usando SAS. Entonces, para hacer un uso correcto del análisis factorial debes utilizar la puntuación de las observaciones y no la media de las variables.

A continuación, encontrarás el código para obtener la puntuación de 2 factores con un FA. Las puntuaciones que tendrá que usar serán llamadas Factor1, Factor2, ... por SAS.

Este es un 2 pasos ... 1) Primero FA y luego 2) llame al proc score para calcular los puntajes.

  proc factor data = Data method = ml rotate = promax outstat = FAstats n = 3 puntaje msa de residuos de heywood; var x:; ejecutar; proc score data = Data score = FAstats out = MyScores; var x:; ejecutar; 

Las variables a utilizar son Factor1, Factor2, ... en los conjuntos de datos de MyScores.

Andrej
2011-02-23 00:06:08 UTC
view on stackexchange narkive permalink

Las variables latentes continuas con variables manifiestas discretas (politómicas en su caso) son parte del análisis de respuesta al ítem. El paquete 'ltm' en R cubre una variedad de estos modelos. Le remito a este documento, que trata exactamente el mismo problema.

(+1) He (re) leído su artículo, que parece bastante interesante, aunque encontré asombroso el uso de un modelo de Rasch en grupos de genes. ¿Comparó sus resultados con un enfoque de PLS-DA escaso?
@chl Todavía no; Trabajando en ello.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 2.0 bajo la que se distribuye.
Loading...