(Puede comenzar desde la sección posterior a la línea, para obtener una respuesta más corta). Para empezar, tiene toda la razón al decir que eso en primer lugar depende de los propósitos de su análisis: previsión del precio medio (a nivel macro) o de un precio particular (a nivel micro), análisis causal de las preferencias del consumidor (distrito, tamaño, edad, número de dormitorios, gas, desplazamientos al trabajo, nivel de ruido, etc. ). En segundo lugar, esta especialización verbal lo guiará a la elección adecuada de un modelo y, finalmente, los requisitos para sus datos .
Por lo que ha escrito, supongo que se ocupa de los modelos de precios inmobiliarios. Después de que se mostró la búsqueda rápida en Google, hay muchas formas de especificar un modelo. Una buena referencia inicial podría ser el artículo de Simon P. Leblond, Comparación de la precisión predictiva de los modelos de precios inmobiliarios: un estudio aplicado para la ciudad de Montreal . Desde el punto de vista práctico, debe elegir entre modelos de regresión aditiva o multiplicativa. Este último tiene varias ventajas en comparación con los modelos aditivos:
- las estimaciones de los parámetros (pero el término de intersección, el parámetro de regresión basura de todos modos) no se ven afectados por los cambios en la escala
- parámetros para variables transformadas logarítmicamente tienen una buena interpretación de elasticidad, que ...
- naturalmente permite rendimientos decrecientes a las restricciones de escala ser restricciones cruciales)
- si uno estudia los precios promedio, un promedio más sólido es la media geométrica ponderada que el promedio (aunque esto no será demasiado relevante a nivel micro)
- puede establecer el precio a cero, si, por ejemplo, su apartamento no tiene dormitorios (es difícil hacerlo con modelos aditivos)
Una cosa más importante antes de continuar es pensar en cada una de sus observaciones como un punto de datos único que fue establecido conjuntamente en el mercado por un tomador de decisiones sobre la base de un comportamiento de maximización de la utilidad. Conjuntamente , lo que significa que no se pueden separar las variables entre sí (por ejemplo, el valor de los apartamentos sin dormitorio es cero para la mayoría de los consumidores), pero a un consumidor le pueden gustar o no todos paquete de atributos juntos, después de eso, su presupuesto (dinero en el bolsillo) es todo lo que importa. Por lo tanto, la estandarización es útil para el análisis de la importancia relativa de las variables explicativas, pero tenga cuidado al juzgar qué variables no son significativas (todos los factores pueden ser importantes). La heterogeneidad de preferencias y presupuestos (los compradores son hogares diferentes) en cada caso de su observación también muestra por qué la regresión a nivel micro (sin promediar o algo así) también podría ser engañosa. Finalmente, tiene datos transversales (estáticos). Al tratar de predecir precios para diferentes años (que el año de sus observaciones), las imágenes estáticas funcionan mal para diferentes períodos de tiempo (digamos que construye un modelo basado en los datos del año 2009, no será muy útil predecir retrospectivamente los precios para digamos 2007, o para 2011). Al menos trate de corregir los resultados sobre la base del cambio en el precio promedio para un año en particular en este caso.
Con respecto a sus preguntas particulares (lo que hago personalmente para mis proyectos, o al menos pretendo hacer):
- Enumere todas las variables que tiene y sus unidades de medida
- Verifique y vuelva a verificar los datos para detectar errores de imputación
- Haga más imputación de los puntos con valores perdidos (también puede simplemente excluir las observaciones si tiene un conjunto de datos grande con pocos valores perdidos)
- Haga que todas las unidades de medida sean iguales en variables similares (metros cuadrados, unidades monetarias , etc.)
- Piense en una estructura de marco de datos simple a la vez (necesita comunicarse con $ R $ convenientemente)
- Lleve solo los datos brutos a $ R $, haga todas las transformaciones de log, diferencias y fracciones en $ R $ directamente (los logaritmos son importantes para los modelos multiplicativos, algunas ventajas de uno están en el preludio anterior; las fracciones también son buenas para usted) desea eliminar el efecto de escala (tamaño) de una vez y enfatizar las diferencias causadas por otros factores)
- Deje las variables ficticias como están, pero siempre deje un nivel de atributo cualitativo para el término de intersección (si no, este sería una fuente para el problema de multicolinealidad pura en su modelo)
- Para sus propósitos, puede aplicar mínimos cuadrados ordinarios (MCO), aunque en los modelos de precios también consideraría los modelos tobit o Heckman, que sí necesitan un tratamiento especial ( Una de mis primeras publicaciones que quizás no sean tan exitosas sobre precios fue sobre esto)
- OLS es sencillo y se realiza un análisis residual habitual (que se encuentra en libros de texto sobre econometría) . Violando algunas de las suposiciones, puede optar por métodos generalizados, variables instrumentales, regresión estriada, curas para residuos autorregresivos, pero ... Lo que realmente necesita saber: ¿son las estimaciones de los parámetros teóricamente razonables (valores, signos, etc.)?
- Solo un buen número ... cualquier adición de la comunidad es bienvenida.