7 minute read

GRAFICA DE RESIDUOS VS VALORES AJUSTADOS

Es importante recordar que los estimadores difieren de los valores reales y que estos simplemente son aproximaciones de los valores verdaderos; de igual manera recordad que los residuos no son errores y que no se debe usar la recta de los mínimos cuadrados cuando los datos no son lineales.

Ej. De los valores ejemplos y la correlación obtenemos la recta de los mínimos cuadrados

Advertisement

¿Cómo podemos saber, que tan bien un modelo está explicando un conjunto de datos?

Para responder esta pregunta se genero la medición de la bondad del ajuste, la cual en el caso de los modelos lineales explica que tan relacionado están X y Y. r se utiliza como el valor estadístico de la bondad del ajuste en relaciones lineales y su cuadrado r2 se usa como coeficiente de la determinación.

COMPARACIÓN DE MODELOS

Si bien la sección anterior nos mostró los pasos para generar un primer modelo basado en la correlación debemos tener en cuenta que éste modelo y todos los demás sirven solamente como una aproximación a la realidad; si bien nos proporcionan un marco de referencia para el estudio y el pensamiento no por eso dejan de ser conceptos matemáticos que no tienen la capacidad de sustituir a la realidad; dicho lo anterior podemos afirmar que la utilidad de cualquier modelo matemático se vera de acuerdo a su capacidad para reflejar o acercarse a la realidad. El proceso por el cual se confirma en la realidad las mediciones estimadas por el modelo se le conoce como validación.

Anteriormente habíamos hablado de la bondad del ajuste como el dato que nos permite saber que tan bien se explica un modelo a partir del conjunto de datos; de igual manera esta bondad del ajuste puede ser comparada con la realidad para distinguir de entre varios modelos aquel que logra reflejar mejor la realidad.

Todos los modelos tienen aproximaciones diferentes a la realidad por lo que no es del todo correcto decir que un modelo es incorrecto a comparación a otro; sin embargo, lo que si puede suceder es que un modelo a comparación del otro tenga mejores cualidades de precisión para los aspectos descritos en la investigación y

es aquí donde este tipo de razonamiento nos permite elegir entre varios modelos. Algunos conceptos que pueden servirnos para la elección de un modelo son:

• Consistencia • Correspondencia • Concordancia • Compatibilidad

Una herramienta que nos puede servir como guía para la elección de un modelo es la Raiz del error medio cuadrático, esta obtiene a partir de la raíz del promedio de las diferencias cuadráticas entre los valores “modelados” y los valores “reales” u observados los cuales son divididos entre la media de los valores observados expresados como un porcentaje.

Se calcula de la siguiente manera:

Minimos Cuadrados Error

(x-X)(y-Y) Y Ajustada e e^2

4375444062 21429204.35 15853132.35 251321805385829.00000 3715263959 25802620.8 16616008.80 276091748490384.00000 2519646272 33924679.92 16037290.92 257194700084031.00000 2866182566 25177847.02 2250267.02 5063701674989.13000 2917926525 18930109.24 -9037661.76 81679330109807.60000 1414087233 39860030.82 6783777.82 46019641456900.30000 337115582.8 58915631.06 20730896.06 429770051364799.00000 703235063.5 47357316.16 4064099.16 16516901958661.80000 620783318.7 43296286.6 -6289666.40 39559903456814.20000 222105521.2 52667893.27 -3600016.73 12960120429687.10000 14155591.93 62039499.95 -2309573.05 5334127673046.31000 -15868556.8 52667893.27 -14439415.73 208496726517110.00000 172033381.8 83906582.19 11387973.19 129685933487500.00000 -211410679 46420155.49 -26580343.51 706514661138603.00000 416054049.8 80782713.3 -3655431.70 13362180893121.10000 -199981509 60789952.39 -27927525.61 779946686518238.00000 2236933892 105461277.6 3311828.55 10968208347994.00000 4061980768 127640746.7 19826661.68 393096513554066.00000 3183853651 108897533.3 -4277084.67 18293453258570.00000 2978649389 99525926.66 -23011364.34 529522888995967.00000 7044040189 137324740.3 8903039.25 79264107889393.50000 6460520942 127640746.7 -4636891.32 21500761071187.40000 45832751213

B1 624773.7784 B0 15181466.57 196007461534395.00 Media e^2 14000266.48 Ej.Raiz de media e^2 En la tabla se calcula el REMC= 0.210896561 21.08965613 21.1%. Raiz de media e^2/valores inic iales de y REMC

GRAFICA DE RESIDUOS VS VALORES AJUSTADOS

Para diagnosticar la regresión de los mínimos cuadrados, podemos utilizar una gráfica de residuos e contra los valores ajustados de y. En esta gráfica los residuos tienen una media de 0, este mismo valor se tiene si obtenemos la correlación entre los residuos y los valores ajustados. Una característica de esta gráfica de residuos es que es horizontal, es decir pasa a través del 0 sobre el eje vertical.

La gráfica ideal de estos valores no debe representar ningún patrón importante, por lo tanto, no debe haber ninguna curva representada en la gráfica; de igual manera los valores en X y Y no deben dispersarse demasiado, cumpliendo estas condiciones tenemos argumentos positivos que respaldan los supuestos del modelo lineal. Si bien este tipo de gráficos presenta argumentos positivos al modelo lineal, éstos no son suficientes para determinar que el modelo lineal es correcto ya que éste puede tener errores que no son reflejados en la gráfica; sin embargo, una gráfica de residuos defectuosa SI es un argumento suficiente para descartar el modelo lineal.

Cuando una gráfica de residuos presenta poca dispersión en X y Y, podemos decir que es homoscedástica (este tipo de gráfica es correcto para la comprobación del modelo lineal), si por el contrario se observa una dispersión hacia alguno de los ejes podemos decir que la gráfica es heteroscedástica (una gráfica de este tipo descarta la validez de un modelo lineal).

Una estrategia que se puede implementar al obtener gráficas heteroscedásticas es la elevación de X o Y o ambas a una potencia determinada, este proceso se le cinco como transformación de potencia; sin embargo,

es importante recalcar que el éxito de este tipo de estrategias varía de acuerdo al modelo y es posible no ver ninguna mejora en el modelo al hacer las transformaciones de potencia. Otras consideraciones respecto a la transformación de potencia son:

• Entre menos muestras se tengan en el estudio, menos valores habrá en la gráfica de dispersión lo cual puede a su vez dificultar la lectura de la misma. • La escala de los ejes X y Y puede dificultar la lectura de la gráfica por lo que se buscara siempre que éstos se representes de manera proporcionada • Pocos puntos u observaciones en una gráfica no tienen la capacidad de validar o descartar el modelo lineal • Es complicado en este tipo de gráficas determinar datos atípicos

Respecto a los datos atípicos, éstos al presentarse en un modelo lineal no deben ser descartados para mejorar el resultado ya que pueden ser un indicativo de error en el modelo, por lo que el primer paso será determinar el origen de dicho dato; en este tipo de situaciones la transformación de potencia puede ser de gran utilidad ya que puede eliminar los valores atípicos.

Ej. Como podemos ver en la gráfica de residuos generada de los datos del ejemplo base, ésta no refleja ningún tipo de comportamiento o tendencia por lo que se considera homoscedástica, con lo que confirmamos cierto grado de validez en las muestras tomadas al inicio.

¿Cómo se el grado de influencia de un dato atípico sobre la recta?

Para responder a la pregunta, podemos observar el comportamiento de la recta si se elimina dicho dato, en este tipo de procesos las herramientas de cálculo estadístico son de gran utilidad ya que nos permite hacer estos cambios en poco tiempo y de manera automatizada. Si al quitar un dato atípico observamos que la pendiente de la recta se modifica de manera considerable podemos considerar dicho dato como un punto influyente; una gráfica de dispersión puede tener mas de un dato atípico lo cuales al ser analizados de forma individual pueden no tener gran influencia en el resultado pero que en conjunto al ser eliminados pueden cambiar de forma radical la pendiente de la recta.

Otra recomendación es que, si se trabajan con observaciones encuadradas en un tiempo definido, se deben graficar los residuos contra el orden con el cual fueron hechas las observaciones. Si observamos algún tipo de tendencia en la gráfica, puede que X y Y estén variando con el tiempo. Por lo que se deberá tomar al tiempo y a sus variables relacionadas como variables independientes, lo cual en consecuencia necesitará del uso de una regresión múltiple.

Conclusiones

El documento redactado compila todas las estrategias estadísticas vistas en el curso de Procedimientos e interpretación de datos y se generó a forma de manual para su posterior consulta en trabajos posteriores. Este manual si bien no abarca de manera exacta todas las diapositivas compartidas en clase, resume completamente toda la información contenida del curso y busca explicarla de tal manera que sea fácil de recordar y útil en su aplicación.

Respecto a las herramientas considero que es importante tener el conocimiento de ellas para su aplicación en la investigación propia del posgrado de tecnologías, ya que gran parte de las investigaciones del área por naturaleza son experimentales y por ende capturan y procesan datos que posteriormente se trasladarán a una conclusión. De igual manera considero que el uso de softwares de análisis estadístico constituyen una herramienta con potencial para su aplicación en todos los ámbitos de la investigación o incluso en ámbitos propios del quehacer profesional.

Finalmente es importante recalcar que el curso no solo sirvió como un compilado de herramientas y métodos; de igual manera nos permite tener un visión general del proceso de investigación y de la lógica detrás del mismo.

This article is from: