
7 minute read
CAPÍTULO 1: INTRODUCCIÓN A LA ESTADÍSTICA
1.4 Distribuciones de probabilidad fundamentales..
Existen varias distribuciones de probabilidad fundamentales que se utilizan comúnmente en estadística y análisis de datos. A continuación, se presentan algunas de las distribuciones más importantes:
Advertisement

Distribución uniforme: Es una distribución en la que todos los resultados posibles tienen la misma probabilidad de ocurrir. En esta distribución, la función de densidad de probabilidad es constante dentro de un intervalo y cero fuera de él.
Distribución binomial: Es una distribución que modela el número de éxitos en un número fijo de ensayos independientes, donde cada ensayo tiene solo dos posibles resultados: éxito o fracaso. Esta distribución se caracteriza por dos parámetros: el número de ensayos (n) y la probabilidad de éxito en cada ensayo (p).
Distribución normal (o gaussiana): Es una de las distribuciones más utilizadas y se caracteriza por su forma de campana simétrica. En esta distribución, los datos se distribuyen alrededor de la media y su forma está determinada por la desviación estándar. Muchos fenómenos naturales y sociales siguen una distribución normal.
Distribución de Poisson: Es una distribución que modela el número de eventos raros que ocurren en un intervalo de tiempo o espacio fijo. Esta distribución se utiliza cuando los eventos ocurren de manera independiente y a una tasa constante en un intervalo dado.
Distribución exponencial: Es una distribución que modela el tiempo entre eventos sucesivos en un proceso de Poisson. Esta distribución se utiliza comúnmente para modelar tiempos de espera o duraciones.
Distribución de chi-cuadrado: Es una distribución que se utiliza en pruebas de hipótesis y análisis de datos para comparar la diferencia entre los datos observados y los esperados. Esta distribución está relacionada con la suma de los cuadrados de variables aleatorias normales estándar independientes.
2.1 MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MEDIANA, MODA)
Las medidas de tendencia central son herramientas estadísticas que nos permiten resumir y describir un conjunto de datos mediante un valor representativo. Las medidas de tendencia central más comunes son la media, la mediana y la moda. A continuación, se describe cada una de ellas:
Media: La media es el promedio aritmético de un conjunto de datos. Se calcula sumando todos los valores y dividiendo la suma entre el número total de datos. La media es sensible a los valores atípicos, ya que los valores extremos pueden afectar significativamente su valor. Mediana: La mediana es el valor que se encuentra en el centro de un conjunto ordenado de datos. Para calcular la mediana, se deben ordenar los datos de menor a mayor y luego encontrar el valor medio. Si el número de datos es impar, la mediana es el valor central. Si el número de datos es par, la mediana es la media de los dos valores centrales.
Moda: La moda es el valor o valores que aparecen con mayor frecuencia en un conjunto de datos. Puede haber una moda (unimodal) cuando un valor aparece con mayor frecuencia, o puede haber múltiples modas (multimodal) cuando varios valores tienen la misma frecuencia máxima. También es posible que no haya una moda en un conjunto de datos (sin moda).
2.1 MEDIDAS DE TENDENCIA CENTRAL (MEDIA, MEDIANA, MODA)
Las medidas de tendencia central son herramientas estadísticas que nos permiten resumir y describir un conjunto de datos mediante un valor representativo. Las medidas de tendencia central más comunes son la media, la mediana y la moda. A continuación, se describe cada una de ellas:
Media: La media es el promedio aritmético de un conjunto de datos. Se calcula sumando todos los valores y dividiendo la suma entre el número total de datos. La media es sensible a los valores atípicos, ya que los valores extremos pueden afectar significativamente su valor. Mediana: La mediana es el valor que se encuentra en el centro de un conjunto ordenado de datos. Para calcular la mediana, se deben ordenar los datos de menor a mayor y luego encontrar el valor medio. Si el número de datos es impar, la mediana es el valor central. Si el número de datos es par, la mediana es la media de los dos valores centrales.
Moda: La moda es el valor o valores que aparecen con mayor frecuencia en un conjunto de datos. Puede haber una moda (unimodal) cuando un valor aparece con mayor frecuencia, o puede haber múltiples modas (multimodal) cuando varios valores tienen la misma frecuencia máxima. También es posible que no haya una moda en un conjunto de datos (sin moda).
CAPÍTULO 2: ESTADÍSTICA DESCRIPTIVA

2.2 MEDIDAS DE DISPERSIÓN (RANGO, VARIANZA, DESVIACIÓN ESTÁNDAR)
Las medidas de dispersión son utilizadas en estadística para cuantificar la variabilidad o dispersión de un conjunto de datos. Estas medidas proporcionan información adicional sobre la distribución de los datos más allá de las medidas de tendencia central. Las medidas de dispersión más comunes son el rango, la varianza y la desviación estándar. A continuación, se describe cada una de ellas:
Conceptos

Rango: El rango es la diferencia entre el valor máximo y el valor mínimo de un conjunto de datos. Es una medida muy básica de dispersión y proporciona una idea de la amplitud total de los datos. Sin embargo, el rango puede ser influenciado por valores atípicos y no proporciona información sobre la distribución interna de los datos.
Varianza: La varianza es una medida que indica qué tan dispersos están los datos en relación con la media. Se calcula tomando la suma de los cuadrados de las diferencias entre cada valor y la media, y luego dividiendo esa suma entre el número total de datos. Una varianza más alta indica una mayor dispersión de los datos.
Desviación estándar: La desviación estándar es la raíz cuadrada positiva de la varianza. Es una medida de dispersión más comúnmente utilizada, ya que tiene la misma unidad de medida que los datos originales. La desviación estándar nos indica cuánto se espera que los valores se desvíen de la media. Una desviación estándar más alta indica una mayor dispersión de los datos.
2.3 REPRESENTACIÓN GRÁFICA DE DATOS (HISTOGRAMAS, DIAGRAMAS DE DISPERSIÓN, BOXPLOTS)
Conceptos

Histograma: Un histograma es una representación gráfica de la distribución de frecuencias de un conjunto de datos numéricos continuos. El eje horizontal representa las categorías o rangos de valores, y el eje vertical representa la frecuencia o la densidad de los datos en cada categoría. Los histogramas son útiles para identificar la forma de la distribución, la presencia de valores atípicos y la concentración de datos en diferentes rangos.
Diagrama de dispersión: Un diagrama de dispersión es una representación gráfica de la relación entre dos variables numéricas. Cada punto en el gráfico representa una observación y su ubicación en el plano se determina por los valores de las dos variables. Los diagramas de dispersión son útiles para identificar patrones, tendencias y relaciones entre las variables, como la correlación positiva o negativa.
Boxplot (o diagrama de caja y bigotes): Un boxplot es una representación gráfica que muestra la distribución de un conjunto de datos numéricos y resalta medidas estadísticas importantes. Consiste en un rectángulo (caja) que representa el rango intercuartílico (Q1 a Q3), una línea vertical (mediana) que divide la caja en dos partes iguales y dos líneas (bigotes) que se extienden desde la caja hasta los valores extremos. Los boxplots proporcionan información sobre la simetría, dispersión y presencia de valores atípicos en los datos.

https://www.youtube.com/watch?v=6vKYZsKpeWg

3.1 TÉCNICAS DE MUESTREO EN EDUCACIÓN SUPERIOR
Muestreo aleatorio simple: En esta técnica, cada elemento de la población tiene la misma probabilidad de ser seleccionado para formar parte de la muestra. Se utiliza un proceso de selección aleatoria, como el uso de números aleatorios, para garantizar la representatividad de la muestra.
2.- Muestreo estratificado: En esta técnica, la población se divide en subgrupos o estratos basados en características importantes, como el nivel de estudios, el género o la facultad. Luego, se selecciona una muestra aleatoria de cada estrato proporcional a su tamaño relativo en la población total. Esta técnica permite garantizar una representación adecuada de cada estrato en la muestra.
3. Muestreo por conglomerados: En esta técnica, la población se divide en grupos o conglomerados, como departamentos académicos o facultades. Luego, se seleccionan algunos conglomerados al azar y se recopilan datos de todos los elementos dentro de los conglomerados seleccionados. Esta técnica es útil cuando no es posible obtener una lista completa de todos los elementos de la población y es más factible seleccionar grupos más grandes.
4. Muestreo sistemático: En esta técnica, se selecciona un elemento inicial de la población al azar y luego se eligen los siguientes elementos en un patrón sistemático. Por ejemplo, cada "késimo" elemento puede ser seleccionado, donde "k" es un número constante. Esta técnica es útil cuando los elementos están ordenados o tienen una estructura sistemática.
5. Muestreo por conveniencia: Esta técnica implica seleccionar elementos que estén fácilmente disponibles o accesibles para formar parte de la muestra. Aunque puede ser conveniente, este tipo de muestreo puede introducir sesgos y no garantiza la representatividad de la muestra.
3.2 DISEÑO DE INVESTIGACIÓN EXPERIMENTAL Y NO EXPERIMENTAL.
Diseño de investigación experimental:
En un diseño experimental, el investigador manipula deliberadamente una o más variables independientes para observar el efecto que tienen sobre una variable dependiente.
Se utiliza un grupo de control y uno o más grupos de tratamiento para comparar los resultados y determinar el impacto de la variable independiente.
Los participantes son asignados aleatoriamente a los grupos de tratamiento, lo que ayuda a minimizar los sesgos y maximizar la validez interna del estudio.
Se utilizan medidas objetivas y estandarizadas para recopilar datos y se pueden aplicar análisis estadísticos para evaluar las diferencias entre los grupos.
Diseño de investigación no experimental:
En un diseño no experimental, el investigador observa y analiza los fenómenos tal como ocurren naturalmente, sin manipular deliberadamente las variables. No se establecen grupos de tratamiento ni se asignan aleatoriamente participantes. Se recopilan datos a través de observaciones, entrevistas, encuestas u otras técnicas de recolección de datos. El investigador se enfoca en describir, explicar o correlacionar variables sin establecer una relación causal directa. Puede haber una mayor flexibilidad en la elección de la muestra y en la recopilación de datos, pero también existe un mayor riesgo de sesgos y confusión de variables.