La segunda banda en torno a la recta de regresión de la figura 11.6 indica el cálculo del intervalo de predicción dado por la expresión (11.43). Nótese cómo se va abriendo esta banda debido a que se incrementa |x0 – x–|.
Riesgos de la regresión Un primer riesgo del análisis de regresión es que, a partir de un modelo significativo, siempre se concluya de manera directa una relación causa-efecto entre X y Y. En ocasiones, esta conclusión puede ser falsa, ya que al estar relacionadas dos variables no necesariamente implica que hay una relación causa-efecto. Estrictamente hablando, lo único que indica que un análisis de regresión que es significativo es que existe la relación que respalda el modelo, y el usuario es quien debe investigar si tal relación es de tipo causa-efecto. Esto puede ser más o menos difícil dependiendo del origen de los datos. Recordemos que al inicio de este capítulo se dijo que los datos para hacer un análisis de regresión pueden originarse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos. En cualquier interpretación de las razones de una relación significativa se debe recurrir al conocimiento del proceso. Además, se debe tomar en cuenta que algunas de las razones por las que las variables X y Y aparecen relacionadas de manera significativa son: • X influye sobre Y. • Y influye sobre X. • X y Y interactúan entre sí, una tercera variable Z influye sobre ambas y es la causante de tal relación. • X y Y actúan en forma similar debido al azar. • X y Y aparecen relacionados debido a que la muestra no es representativa. Otro riesgo es hacer extrapolaciones indiscriminadas con base en el modelo. Para no incurrir en esto cuando se quieran predecir nuevas observaciones o estimar la respuesta media en algún punto x0, se debe tener cuidado en cuanto a extrapolar más allá de la región que contienen las observaciones originales. Es probable que un modelo que ajusta bien en la región de los datos originales ya no ajustará bien fuera de esa región. Esto se debe a que quizá muy fuera de la región de los datos originales empiecen a actuar otros fenómenos no considerados en el modelo original. Este riesgo es más grande en el análisis de regresión múltiple, ya que se trabaja con regiones multidimensionales.
Regresión lineal múltiple En muchas situaciones prácticas existen varias variables independientes que se cree que influyen o están relacionadas con una variable de respuesta Y, y por lo tanto será necesario tomar en cuenta si se quiere predecir o entender mejor el comportamiento de Y. Por ejemplo, para explicar o predecir el consumo de electricidad en una casa habitación tal vez sea necesario considerar el tipo de residencia, el número de personas que la habitan, la temperatura promedio de la zona, etcétera.