Pregunta:
Métodos para predecir múltiples variables dependientes
rguha
2011-11-09 23:07:21 UTC
view on stackexchange narkive permalink

Tengo una situación en la que tengo $ n $ observaciones, cada una con $ p $ variables independientes y $ q $ variables dependientes. Me gustaría construir un modelo o una serie de modelos para obtener predicciones de las variables dependientes $ q $ para una nueva observación.

Una forma es construir múltiples modelos, cada uno prediciendo una sola variable dependiente. Un enfoque alternativo es construir un modelo único para predecir todas las variables dependientes de una sola vez (regresión multivariante o PLS, etc.).

Mi pregunta es: ¿tener en cuenta múltiples DV simultáneamente conduce a una / modelo preciso / confiable? Dado el hecho de que algunas de las variables dependientes $ q $ pueden estar correlacionadas entre sí, ¿este hecho dificulta o ayuda a un enfoque de modelo único? ¿Hay referencias que pueda buscar sobre este tema?

Mi experiencia es que el ajuste de q DV correlacionados juntos en un modelo puede obtener estimaciones más precisas que ajustarlos por separado. Es fácil distinguir la diferencia mediante simulaciones.
A partir de lo que me enseñaron en la escuela, se debe construir un modelo basado en conocimientos teóricos; eso evitaría que el analista busque resultados que simplemente ocurren por casualidad (lo que sucede con frecuencia). Por lo tanto, le sugiero que base su modelo en algunas relaciones teóricas de la literatura y luego se expanda desde allí.
Dos respuestas:
gung - Reinstate Monica
2011-11-10 10:08:06 UTC
view on stackexchange narkive permalink

Debe verificar las correlaciones entre sus variables dependientes ( editar: la respuesta de @ BilalBarakat es correcta, los residuos son lo importante aquí ). Si todos o algunos son independientes, puede ejecutar análisis separados en cada uno. Si no son independientes, o los que no lo son, puede ejecutar un análisis multivariante. Esto maximizará su poder mientras mantiene la tasa de error de tipo I en su nivel alfa.

Sin embargo, debe saber que esto no hará que su análisis sea más preciso / sólido. Este es un problema diferente al de si su modelo predice los datos mejor que el modelo nulo o no. De hecho, con tantas cosas sucediendo, a menos que tenga muchos datos, es probable que pueda obtener estimaciones de parámetros muy diferentes con una nueva muestra. Incluso es posible que el letrero de una beta cambie. Mucho depende del tamaño de pyq y de la naturaleza de sus matrices de correlación, pero el volumen de datos necesarios para la robustez puede ser enorme. Recuerde que, aunque muchas personas usan "significativo" y "confiable" como sinónimos, en realidad no lo son. Una cosa es saber que una variable no es independiente de otra variable, pero otra cosa es especificar la naturaleza de esa relación en su muestra como lo es en la población. Puede ser fácil ejecutar un estudio dos veces y encontrar un predictor significativo en ambas ocasiones, pero con la estimación del parámetro lo suficientemente diferente para ser teóricamente significativa.

Además, a menos que esté haciendo un modelado de ecuaciones estructurales, no puede incorporar muy bien sus conocimientos teóricos sobre las variables. Es decir, técnicas como MANOVA tienden a ser puramente empíricas.

Otro enfoque es utilizar lo que sabe sobre el problema en cuestión. Por ejemplo, si tiene varias medidas diferentes de la misma construcción (puede verificar esto con un análisis factorial), puede combinarlas. Esto se puede hacer convirtiéndolos en puntuaciones z y promediando. También se podría utilizar el conocimiento de otras fuentes de correlación (por ejemplo, causa común o mediación). Algunas personas se sienten incómodas al poner tanto peso en el conocimiento del dominio, y reconozco que se trata de una cuestión filosófica, pero creo que puede ser un error exigir que los análisis hagan todo el trabajo y asumir que esta es la mejor respuesta.

Como referencia, cualquier buen libro de texto multivariante debería discutir estos temas. Tabachnick y Fidell está bien considerado como un tratamiento simple y aplicado de este tema.

Bilal Barakat
2011-11-10 20:19:28 UTC
view on stackexchange narkive permalink

Para contradecir el primer párrafo de @ gung (¡lo siento!), debería verificar las correlaciones entre los residuales en sus múltiples modelos, en lugar de las correlaciones entre las variables dependientes como tales. El hecho de que estos últimos estén correlacionados por sí solo no le dice nada sobre si sus estimaciones mejorarán al modelarlas en conjunto.

Esto es correcto. De lo contrario, dos dv podrían ser independientes, pero ambos influenciados por los iv. Como resultado, aparecerían correlacionados en los datos brutos, pero los residuos no lo estarían, y eso es lo más importante. Buena atrapada.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...