

APRENDER A DESCUBRIR PATRONES OCULTOS SIN ETIQUETAS
PROPÓSITO DEL MÓDULO
Este módulo tiene como finalidad que el estudiante adquiera la capacidad de explorar y estructurar datos sin supervisión humana, identificando grupos naturales y los factores que los explican. Para ello se abordarán técnicas de clustering (k-means y agrupación jerárquica) y de reducción de dimensión (PCA) que facilitan la visualización, el análisis crítico y la toma de decisiones basadas en evidencias.
OBJETIVOS GENERALES
1. Comprender el principio de k-means y ejecutar segmentaciones reproducibles en Scikit-learn.
2. Aplicar la agrupación jerárquica y representar resultados mediante dendrogramas para revelar relaciones entre observaciones.
3. Emplear PCA para proyectar datos de alta dimensión en componentes principales, preservando la mayor varianza posible y mejorando la interpretabilidad visual.
4. Interpretar los clusters resultantes y extraer insights accionables en contextos de marketing, biología o ingeniería.
5. Evaluar la calidad de las agrupaciones con índices como Silhouette y explicar sus limitaciones.
Resumen gráfico del flujo: datos crudos → clustering → PCA → insights.

k-means: algoritmo paso a paso y ejemplo con clientes.

Agrupación jerárquica: enlace completo vs. promedio; lectura de dendrogramas.

Interpretación de clusters: tabla de perfiles y radar chart de variables fundamentales.

Buenas prácticas y verificación con índice Silhouette; checklist previo al ejercicio guiado “Segmentación de clientes”.
PARA REFLEXIONAR
• Sin etiquetas no existe “verdad absoluta”; la elección de k o del nivel de corte jerárquico debe alinearse a objetivos del negocio.
• La reducción de dimensión empodera al analista para explicar hallazgos sin saturar de números al público.
• La combinación “PCA + k-means” es una estrategia eficaz cuando se manejan docenas de variables correlacionadas.
