Mineria de Datos

Page 1

Breve paseo por la Minería de Datos (DM) •

Introducción

Espectro de Información

Dato, Información, Conocimiento

Relación de Datos, Información y Conocimiento y Sociedad

Sabiduría, Conocimiento, Aprendizaje

Base de Datos

Sistema de Gestión de Base de Datos

Niveles en el Uso de los Datos

Conocimiento en las Base de Datos

Verificación versus Descubrimiento

Descubrimiento de Conocimiento en Base de Datos (KDD)

Minería de Datos (DM)

Minería de Datos (DM) Tareas

Minería de Datos (DM) Enfoque

Minería de Datos (DM) Mapa Conceptual

Minería de Datos (DM) Técnicas

Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM)

Aplicaciones de la Minería de Datos (DM)

Relación de la Minería de Datos (DM) con otras disciplinas

Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”

Minería de Datos (DM) Propósitos Empresariales

Minería de Datos (DM) Ejemplos

Elaborado por: Ing. Jean Sánchez, EPE


Introducci贸n Las computadoras son un mill贸n de veces m谩s poderosas que hace veinte a帽os.


Introducción ¡En veinte años las computadoras van a ser un millón de veces más poderosas que las de hoy!


Introducción •Sobrecarga informativa - ansiedad Demasiadas “cosas” para mantenerse al día. •Aguja en un pajar Parece que nunca encontramos lo que queremos, cómo lo queremos y en la forma adecuada. •Calidad de la información Hay que separar el grano de la paja.


Introducción Aumento en la cantidad de información “Se ha producido más información en los últimos 30 años que en los 5.000 previos.”

(Fuente: Large, P., The Micro Revolution, Revisited, 1984)


Introducción Tamaño de conjuntos de datos Descripción

Tamaño en Bytes

Bien pequeño

102

Modo de Almacenaje Hoja de papel

Pequeño

104

Varias hojas

Mediano

106 (megabyte)

Diskette

Grande

109(gigabite)

Disco Duro

Masivo

1012(Terabyte)

Cinta magnetica

Supermasivo

1015(Petabyte)

Archivos de datos distribuidos


Introducción Sobrecarga de información “En la actualidad, en un número del New York Times hay más información impresa, que la cantidad a la que tuvo acceso una persona del Siglo XVII durante toda su vida”.

(Fuente: Dawis Lewis, Introduction to Dying for Information, www.reuters.com/rbb/research/dfiforframe.htm)


Introducción Sobrecarga de Información. Ejemplo “¿Deben vacunarse los niños? ¿Son seguras?” • Existen 454.150 sitios posibles en el buscador Yahoo. • Mirarlos por solo 5 minutos cada uno, tomaría 37.000 horas. • Se asume que, al menos, 100-200 tengan la información buscada. Usarlos tomaría unas 50 - 100 horas adicionales. • Tiempo potencial total que tomaría: 1545 días, ¡¡¡¡¡más de 4 años!!!!!


Introducción Sobrecarga de información. Ejemplo “¿Qué es la información?” • Existen 171.769.416 sitios posibles en el buscador Google. • Mirarlos por solo 1 minuto cada uno, tomaría 2.862.823 horas. • Tiempo potencial total que tomaría: 119.284 días, ¡¡¡¡¡más de 326 años!!!!! Esto es imposible, y por lo tanto, existe una clara necesidad de disponer de tecnologías que efectúen procesos de búsqueda y aún más, de tecnologías que nos ayuden a comprender su contenido.


Introducción Los crecientes avances tecnológicos y en especial la revolución digital, ha posibilitado que la captura de los datos sea fácil, además, el almacenamiento de los mismos posee un costo casi nulo. Con el desarrollo del software y el hardware, grandes cantidades de datos son recogidas y almacenados en bases de datos. Por tanto, el análisis de estas enormes cantidades de datos a través de las herramientas tradicionales de gestión de datos o con técnicas estadísticas, no son adecuadas. Todo esto parece excelente pero no conocemos el significado de: datos, información y conocimiento.


Espectro de Información Esta formado por: datos, información, conocimiento y sabiduría. Los datos son información en bruto, no es más que una colección de hechos aislados que deben procesarse para poseer valor, por tanto no existe asociatividad. La información se deriva de los datos procesados lo que implica la asociatividad de los datos dentro de un contexto. El conocimiento proviene de procesar la información, por tanto, asocia la información obtenida en un contexto con otra información producida en un contexto diferente. La sabiduría se origina de procesar el conocimiento, la asociatividad se realiza al mayor nivel donde se asocia el conocimiento obtenido en un contexto con otro conocimiento producido en un contexto diferente. La mayoría de los programas, aplicaciones, sistemas de información, WebApps, es decir, el software existente se ha construido para procesar datos o información. Sólo, la Inteligencia Artificial se ha dado a la tarea del tratamiento y uso del conocimiento. Aún no poseemos ni el software ni hardware para el tratamiento o uso de la sabiduría. Datos

Información

Conocimiento

Sabiduría

Se comienzan aclarar las cosas. Prosigue


Espectro de Información

Sabiduría Conocimiento

Información Datos

Es una actividad en la actualidad propia de los humanos. Es una apreciación del por qué. Permite producir conocimiento. Es información útil, contextual, tácita. Es la aplicación de los datos y la información, responde a cómo. Permite aprender. Es la data con un significado por vía de una relación. El significado puede o no ser útil. Responde a quién, qué, donde, cuándo. Es la data cruda. Puede o no existir, pero no posee significado .


Dato, Información, Conocimiento Antes que nada la sabiduría no es mencionada porque no poseemos los recursos ni herramientas computacionales para tratarla o usarla; en la actualidad debemos comprender en qué se diferencian el conocimiento de los datos y la información. En una conversación informal, los tres términos suelen utilizarse indistintamente y esto puede llevar a una interpretación libre del concepto de conocimiento. Quizás la forma más sencilla de diferenciar los términos sea pensar que los datos están localizados en el mundo y el conocimiento está localizado en agentes de cualquier tipo, mientras que la información adopta un papel mediador entre ambos. Un agente no equivale a un ser humano. Podría tratarse de un animal, una máquina o una organización constituida por otros agentes a su vez.


Dato, Información, Conocimiento Dato: Un dato es un conjunto discreto, de factores objetivos sobre un hecho real. El concepto de dato es definido como un registro de transacciones. Un dato no dice nada sobre el porqué de las cosas, y por sí mismo tiene poca o ninguna relevancia o propósito. Los datos describen únicamente una parte de lo que pasa en la realidad y no proporcionan juicios de valor o interpretaciones, y por lo tanto no son orientativos para la acción. La toma de decisiones se basará en datos, pero estos nunca dirán lo que hacer. Los datos no dicen nada acerca de lo que es importante o no. A pesar de todo, los datos son importantes para las organizaciones, ya que son la base para la creación de información.


Dato, Información, Conocimiento Información: Los investigadores que han estudiado el concepto de información, lo describen como un mensaje. Como cualquier mensaje, tiene un emisor y un receptor. La información es capaz de cambiar la forma en que el receptor percibe algo, y de impactar sobre sus juicios de valor y comportamientos. La palabra “informar” significa originalmente “dar forma a” y la información es capaz de formar a la persona que la consigue, proporcionando ciertas diferencias en su interior o exterior. Por lo tanto, estrictamente hablando, es el receptor, y no el emisor, el que decide si el mensaje que ha recibido es realmente información, es decir, si realmente le informa. Un informe lleno de tablas inconexas, puede ser considerado información por el que lo escribe, pero a su vez puede ser juzgado como “ruido” por el que lo recibe. A diferencia de los datos, la información tiene significado (relevancia y propósito). No sólo puede formar potencialmente al que la recibe, sino que esta organizada para algún propósito. Los datos se convierten en información cuando su creador les añade significado.


Dato, Información, Conocimiento Conocimiento: Todos tenemos la sensación intuitiva que el conocimiento es algo más amplio, profundo y rico que los datos y la información. Para Davenport y Prusak (1999) el conocimiento es una mezcla de experiencia, valores, información y “saber hacer” que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción. Se origina y aplica en la mente de los conocedores. En las organizaciones con frecuencia no sólo se encuentra dentro de documentos o almacenes de datos, sino que también esta en rutinas organizativas, procesos, prácticas, y normas. Lo que inmediatamente deja claro la definición es que ese conocimiento no es simple. Es una mezcla de varios elementos; es un flujo al mismo tiempo que tiene una estructura formalizada; es intuitivo y difícil de captar en palabras o de entender plenamente de forma lógica. El conocimiento existe dentro de las personas,

como

impredecibilidad.

parte

de

la

complejidad

humana

y

de

nuestra


Dato, Información, Conocimiento Existen

múltiples

definiciones

de

conocimiento, desde las clásicas y fundamentales como una creencia cierta y justificada, …

… a otras más recientes y pragmáticas como una mezcla de experiencia, valores, información y “saber hacer” que sirve como marco para la incorporación de nuevas experiencias e información, y es útil para la acción.


Dato, Información, Conocimiento “Conocimiento significa entonces apropiarnos de las propiedades y relaciones de las cosas, entender lo que son y lo que no son. Tener discernimiento, es decir juicio por cuyo medio se percibe y establece la diferencia que existe entre varias cosas”. Se concluye fácilmente que el conocimiento se divide en dos partes: a) El objeto en sí, con sus propiedades y relaciones, que queremos conocer. b) El sujeto que trata de apoderarse de ese saber. Además el conocimiento permite: a) El conocimiento permite saber hacer, por tanto, es el marco para incorporar nuevas experiencias e información, es útil para la acción. b) En las organizaciones el conocimiento no sólo se encuentra en los documentos o almacenes de datos, sino también en las rutinas organizativas, procesos, prácticas, y normas.


Relación de Datos, Información y Conocimiento y la Sociedad

CONOCIMIENTO

SOCIEDAD DEL CONOCIMIENTO

Los miembros de la sociedad son personas con capacidades que les permiten tomar conciencia y actuar sobre su contexto

INFORMACIÓN

SOCIEDAD DE LA INFORMACIÓN

Los miembros de la sociedad son personas con habilidades para manejar y compartir información

DATO

SOCIEDAD TECNOLÓGICA

Los miembros de la sociedad son individuos con funciones específicas para que la sociedad prospere

Pirámide de la organización de la experiencia (personal, grupal y social)


SABIDURIA - CONOCIMIENTO - APRENDIZAJE S A B I D U R I A

A P R E N D I Z A J E

El Conocimiento humano para Comprender el mundo utiliza Tres técnicas básicas

Diferenciación de la experiencia en objetos particulares y sus atributos

Distinción entre el todo y sus partes

Clasificación


Base de Datos Es una colección ordenada de datos organizada de tal forma que puede consultarse y actualizarse, de manera eficiente y ordenada. Se usan para registrar y representar el funcionamiento del sistema, a través de los datos relativos a sus diferentes características y componentes . • Tipos de bases de datos – Analíticas – Dinámicas • Modelo de bases de datos – Jerárquicas – Red – Relacionales – Orientada a Objetos Base de Datos – Documentales – Distribuidas


Base de Datos Padre Padre Hijo

Red

Hijo Hijo

Jer谩rquica

Hijo

Hijo

datos datos Padre Redes de comunicaci贸n

Hijo Hijo relacional

datos

Distribuida

Aplicaci贸n


Sistema de Gestión de Base de Datos SGBD; en inglés, Database Management System: DBMS, es un conjunto de programas que permite a los usuarios crear y mantener una base de datos. Si bien, no es imprescindible contar con un SGBD, este software de uso general facilita el proceso de definir, construir y manipular bases de datos para diversas aplicaciones. Debería poseer las siguientes características: Restricción de los accesos no autorizados. Control de la redundancia. Almacenamiento persistente de objetos y estructuras de datos de programas Inferencias en la base de datos mediante reglas de deducción Suministro de múltiples interfaces con los usuarios Representación de vínculos complejos entre los datos Cumplimiento de las restricciones de integridad Respaldo y recuperación Disponibilidad de información actualizada Economías de escala


Niveles en el Uso de los Datos • Nivel operacional: Se utilizan sistemas de información que monitorean las actividades y transacciones elementales. • Nivel de administración : Realiza operaciones repetitivas de captura masiva de datos y servicios básicos de tratamiento de datos, con tareas predefinidas. • Nivel de conocimientos : Realiza actividades de análisis, de seguimiento, de control y toma de decisiones, realiza consultas sobre información almacenada. • Nivel estratégico: Realizar las actividades de planificación a largo plazo, tanto del nivel de administración como de los objetivos que la empresa posee. Mira el futuro


Niveles en el Uso de los Datos


Niveles en el Uso de los Datos considerando el Tiempo Plazo Corto plazo Mediano plazo Largo plazo

Nivel Operacional y Administrativo De Conocimientos Estratégico

Uso Obtención y control de datos Decisiones tácticas Decisiones estratégicas

OLTP OLAP OLAP

OLTP (On-Line Transaction Processing - Procesamiento de Transacciones en Línea). Para la capturan y almacenamiento de transacciones. OLAP (On-Line Analytical Processing – Procesamiento Analítico en Línea). Para el análisis y las navegación en los datos.


Conocimiento en las Base de Datos Según su nivel de abstracción: Conocimiento Evidente: Fácilmente recuperable a través de SQL. Conocimiento Multidimensional: Considera los datos con cierta estructura y relevancia, se usa el OLAP. Conocimiento Oculto: Información evidente desconocida a priori y potencialmente útil sólo se descubre con Minería de Datos “DM”. Conocimiento Profundo: Información que está almacenada en la Base de Datos, pero que resulta imposible de recuperar a menos que se disponga de alguna clave que oriente la búsqueda.

Datos Superficiales (se descubren con SQL)

Datos Multi-Dimensionales (se descubren con OLAP) Datos Escondidos (se descubren con DM) Datos Profundos (se descubren sólo con pistas)


Verificación versus Descubrimiento Verificación

Descubrimiento

Elaborar una hipótesis sobre la Identificar un objetivo existencia de una información de problema de negocio. interés. Convertir consulta.

la

hipótesis

en

Ejecutar la consulta contra sistema de información. Interpretar los resultados.

o

una Habilitar un acceso a los datos de interés y acondicionarlos. un Seleccionar una técnica de explotación de los datos adecuada para el problema. Ejecutar la técnica contra los datos.

Refinar la hipótesis y repetir la Interpretar los resultados. ejecución.


Descubrimiento de Conocimiento en Base de Datos (KDD) Debido a la inmensa cantidad de datos, surge la necesidad de técnicas, prácticas o metodologías para el análisis inteligente de datos, que permitan descubrir un conocimiento útil a partir de los mismos. De allí nace el KDD (Knowledge Discovery in Databases) o “Descubrimiento de Conocimiento en Base de Datos” que puede ser definido como el proceso no trivial de identificar patrones en los datos con las características siguientes: válidos, novedosos, útiles y comprensibles. El KDD es un conjunto de pasos interactivos e iterativos.


Descubrimiento de Conocimiento en Base de Datos (KDD) El KDD se compone de las siguientes fases: a. Fase de Integración y Recopilación. b. Fase de Selección, Limpieza y Transformación. c. Fase de Minería de Datos. d. Fase de Evaluación e Interpretación. e. Fase de Difusión y Uso.


Minería de Datos (DM) La Minería de Datos es un área cuyo objetivo es predecir resultados y/o descubrir relaciones en los datos. La Minería de Datos puede ser descriptivo (descubrir patrones que describen los datos), o predictivo (para pronosticar el comportamiento del modelo basado en los datos disponibles). Por tanto permite: Explorar grandes cantidades de datos (generalmente relacionados a los negocios o mercadeo), Búsqueda de modelos consistentes y/o las relaciones sistemáticas entre las variables, Validar los resultados aplicando los modelos descubiertos a los nuevos subconjuntos de datos. El proceso consiste así en tres fases básicas: •Exploración, •Construcción o definición del modelo, y •Validación/Verificación.


Minería de Datos (DM) Tareas •Describir •Estimar •Predicción •Clasificación •Agrupamiento •Asociación •Modelado de Dependencias


Minería de Datos (DM) Enfoque ENFOQUE ASCENDENTE

ENFOQUE DESCENDENTE

ENFOQUE MIXTO

No hay hipótesis inicial, el procedimiento consiste en examinar los datos para descubrir patrones en ellos. Puede ser: •Supervisada: se tiene la idea de lo que se busca. ¿Qué se suele comprar junto al producto x?. •No Supervisada: no se sabe que se busca. La herramienta de Minería de Datos se le indica buscar algo interesante. Puede ser el acceso a una red y la herramienta puede descubrir a los usuarios que se conectan fuera de su horario de trabajo.

Partiendo de una hipótesis se realizan consultas a los datos para determinar la certeza, si la hipótesis no es cierta se deberá verificar y comenzar el proceso de ser necesario. Por ejemplo: Las personas obesas y que fuman tienen mayor probabilidad de sufrir un infarto.

Es un hibrido entre el enfoque ascendente y descendente, esto con el fin de que la herramienta efectué la búsqueda o encuentre algún patrón interesante y luego testearlo con el enfoque descendente.


Minería de Datos (DM) Mapa Conceptual Fuentes de datos

DHW

Data cruda

Pre-procesamiento

Data Objetivo

Data Pre-procesada

Exploración y transformación

Data Transformada

Reconocimiento de Patrones

Patrones

Evaluación e Interpretación

Evaluación y Entendimiento

DBMS

Texto

Muestreo y Selección • Muestreo • Selección

Limpieza de Datos • Limpieza de datos • Datos que no existen • Datos no clasificados • Identificación de extremos • Eliminación de Ruido

Transformación de Datos • Reducción de Dimensionalidad • Creación de Características • Normalización de Datos • Variables Correlacionadas • Discretización

Modelado • Descripción • Clasificación • Regresión • Agrupamiento • Asociación • Secuenciación • Detección de Desviación

Reportes y Visualización


Minería de Datos (DM) Técnicas Minería de Datos

Descubrimiento de conocimiento

Predicción

Regresión

Clasificación

Detección de Desviaciones

Clustering

Reglas de Asociación

Visualización

• Una actividad de extracción con el objetivo de descubrir hechos contenidos en las bases de datos o almacenes de datos. • Los hechos no son conocidos con anterioridad. • Los hechos escondidos, se representan por reglas. • Las reglas se usan para predecir estados del sistema. • Es un trabajo automatizado. • Las técnicas de minería de datos permite diseñar modelos desde el ámbito del problema para la toma de decisiones automáticas.


Procesamiento Analítico en Línea (OLAP) versus Minería de Datos (DM) OLAP

DM

El OLAP y la Estadística puede usar EL DM no requiere de suposiciones. En su hipótesis o suposiciones. lugar identifica hechos o conclusiones basados en patrones descubiertos. Una herramienta OLAP no es una Las Redes Neuronales (RN), la Inteligencia herramienta DM, ya que la búsqueda se Artificial (AI) y los Algoritmos Genéticos, por origina con el usuario. otra parte, se consideran como verdaderas herramientas de DM, porque interrogan autónomamente a los datos, en búsqueda de patrones. El procesamiento OLAP y la Estadística La Minería de Datos proporciona análisis deproporcionan análisis de-arriba-abajo, abajo-arriba, dirigido por los dirigido por las búsquedas. descubrimientos. Una herramienta puede informar al Una herramienta puede informar de los vendedor sobre el número total de libros factores que influyen en la venta de los libros. vendidos para una región determinada en un trimestre determinado.


Aplicaciones de la Minería de Datos (DM) Ámbitos financieros y de seguros: índices de producción y costes, datos de tarjetas de créditos, detección de fraudes, marketing.

Producción: optimización del proceso de fabricación y del control de calidad.

Redes de telecomunicaciones: patrones de llamadas y gestión de fallos.

Análisis de textos: internet, documentos multimedia.

Salud: modelos de diagnóstico a partir de información almacenada en sistemas hospitalarios, gestión de tratamientos, diseño de campañas de prevención y vacunación.

Control de sistemas.

Distribución: análisis de ubicación de los artículos para la compra en establecimientos comerciales, gestión de inventarios y planificación de transportes.

Dominios científicos: observaciones astronómicas, datos genómicos y biológicos.

Administraciones y organismos públicos: análisis de políticas de empleo, de vivienda, poblacionales, medioambientales, seguridad, de educación, transporte y control del tráfico, etc.


Relación de la Minería de Datos (DM) con otras disciplinas Base de Datos Visualización de Datos

Computación Paralela Toma de Decisiones

Recuperación de Información

Estadística

Aprendizaje Automático


Relación de la Minería de Datos (DM) con otras disciplinas “Estrella Famosa”


Minería de Datos (DM) Propósitos Empresariales Una investigación de la empresa META Group reveló que las 500 empresas del ranking Fortune utilizaban la Minería de Datos básicamente con tres propósitos: • 64% - para la planificación estratégica, • 49% - para inteligencia competitiva, • 46% - para aumentar su cuota de mercado.


Minería de Datos (DM) Ejemplos GERENTE en un BANCO ¿Debe conceder el crédito a este cliente? Ide

D-crédito (años)

C-crédito (Bs.F)

Salarios (Bs.F)

Casa Propia

Cuentas Morosas

Devuelve Crédito

101

15

60.000

1.800

Si

2

No

102

2

30.000

1.500

Si

0

Si

103

9

9.000

700

No

1

No

104

15

18.000

950

No

0

Si

105

10

24.000

1100

Si

0

No

….

Minería de Datos

Si Cuentas-Morosas > 0 entonces Devuelve-crédito = No Si Cuentas-Morosas = 0 Y [(Salario > 1500) O (D-crédito > 10)] entonces Devuelve-crédito = Si


Minería de Datos (DM) Ejemplos GERENTE de un SUPERMERCADO ¿Cuándo se compra huevos, se suele comprar aceite? Idcesta

Huevos

Aceite

Pañales

Vino

Leche

Mantequilla

Salmón

Azúcar

1

Si

No

No

Si

No

Si

Si

Si

2

No

Si

No

No

Si

No

No

Si

3

No

No

Si

No

Si

No

No

No

4

No

Si

Si

No

Si

No

No

No

5

Si

Si

No

No

No

Si

No

Si

6

Si

No

No

Si

Si

Si

Si

No

7

No

No

No

No

No

No

No

No

8

Si

Si

Si

Si

Si

Si

Si

No

Minería de Datos

Huevos → Aceite : Confianza = 75%, Soporte = 12%


Minería de Datos (DM) Ejemplos GERENTE DE RR.HH. en una EMPRESA ¿Qué tipos de empleados tengo? Id

Sueldo

Casado

Vehículo

Hijos

Alq/Prop

Sindicato

Bajas/Año

Antigüedad

Sexo

1

1000

Si

No

0

Alquiler

No

7

15

H

2

2000

No

Si

1

Alquiler

Si

3

3

M

3

1500

Si

Si

2

Propia

Si

5

10

H

4

3000

Si

Si

1

Alquiler

No

15

7

M

5

4000

Si

Si

0

Propia

Si

1

6

H

6

2500

No

No

0

Alquiler

Si

3

16

M

7

2000

No

Si

0

Alquiler

Si

0

8

H

8

800

No

Si

0

Propia

Si

2

6

M

Minería de Datos •Grupo 1: Sin hijos y con vivienda de alquiler. Poco sindicados. Muchas bajas. •Grupo 2: Sin hijos y con vehículo. Muy sindicados. Pocas bajas. Normalmente mujeres y casas alquiladas. •Grupo 3: Con hijos, casados y vehículo. Mayoritariamente hombres propietarios vivienda. Poco sindicados.


Minería de Datos (DM) Ejemplos GERENTE de una EMPRESA COMERCIALIZADORA ¿Cuántos televisores planos se estima vender el mes que viene? Producto

MES-12

MES-4

MES-3

MES-2

MES-1

MES

Televisor plano 30”

20

52

14

139

74

?

Video dvd

11

43

32

26

59

?

Diskman

50

61

14

5

28

?

Lavadora

3

21

27

1

49

?

Nevera

14

27

2

25

12

?

….

Minería de Datos Modelo Lineal: Ventas Mes Siguiente TV Planos V (Mes )TVPlanos = 0 .62V (Mes − 1)TVPlanos + 0 .33V (Mes − 2 )TVPlanos + 0 .12V (Mes − 1)Videodvd − 0 .05


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.