Page 1

Inteligencia de Negocios

Por José Luis Martí USM


Problema Inicial

• ¿Cuáles fueron los volúmenes de venta, por región y por categoría de producto, en el último año?. • ¿Qué tipos de órdenes se debieran favorecer para maximizar las ganancias?. • Un 10% de descuento, ¿incrementará el volumen de ventas de forma satisfactoria?.


Soluci贸n


Soluci贸n

Dashboard


Inteligencia de Negocios • Alternativa

tecnológica para manejar la información requerida por una organización para apoyar la toma de decisiones estratégica. • Comprende desde la extracción de los datos de los sistemas existentes hasta la explotación de la información por herramientas de análisis de datos.


Inteligencia de Negocios BDs Operacional

BD de ERP

Fuentes Internas Archivos Planos

Herramientas de consultas e informes

Respaldos

Herramientas EIS y DSS

ETL

DW

Interfaz y Operadores Herramientas OLAP

Fuente de Datos 1 texto

Fuente de Datos 3

Herramientas de MinerĂ­a de Datos

HTML

Fuente de Datos

Fuentes Externas

Inteligencia de Negocios


Primera Parte: Proceso ETL

BDs Operacional

BD de ERP

Fuentes Internas Archivos Planos

Herramientas de consultas e informes

Respaldos

Herramientas EIS y DSS

ETL

DW

Interfaz y Operadores Herramientas OLAP

Fuente de Datos 1 texto

Fuente de Datos 3

Herramientas de MinerĂ­a de Datos

HTML

Fuente de Datos

Fuentes Externas


Primera Parte: Proceso ETL El encargado del mantenimiento del almacén de datos es el sistema ETL (Extracción – Transformación – Carga): • La construcción del sistema ETL es responsabilidad del equipo de desarrollo del DW. • El sistema ETL es construido específicamente para cada DW, aproximadamente, 50% del esfuerzo. • En la construcción del ETL se pueden utilizar herramientas del mercado o programas diseñados específicamente.


Primera Parte: Proceso ETL Extracción: antes de llevarla a cabo, hay que identificar los cambios, al determinar los datos operacionales (relevantes) que han sufrido una modificación desde el último refresh. C a r a c t e r ís t ic a s

N iv e l E s t r a t é g ic o

N iv e l T á c t ic o

N iv e l O p e r a c io n a l

D e c is ió n q u e apoya

P la n ific a c ió n L a r g o P la z o

C o n tr o l G e r e n c ia l

C o n tr o l O p e r a c io n a l

T ip o d e D e c is ió n

N o E s tr u c tu r a d a

E s tr u c tu r a d a

M o d e lo m á s u s a d o

P r e d ic tiv o

Sem i E s tr u c t u r a d a D e s c r ip tiv o

M e d io A m b ie n te R a z o n a b le R e s u m id a A S o lic itu d Años P r e d ic c ió n

R e g is tr o s In te r n o s Buena D e ta lla d a P e r ió d ic a Años C o n tr o l

O p e r a c ió n In t e r n a E x a c ta M u y D e t a lla d a T ie m p o R e a l M eses A c c ió n D ia ria

C a r a c te r ís tic a s d e la I n fo r m a c ió n :  F u e n te  E x a c titu d  A m p litu d  F r e c u e n c ia  R ango de T ie m p o  U so

N o r m a tiv o


Primera Parte: Proceso ETL Transformaciรณn: โ€ข Unificar estรกndares: unidades de medida, unidades de tiempo, moneda,... cm cm inches DD/MM/YY DD-Mon-YY MM/DD/YY 1,000 GBP USD 600 FF 9,990


Primera Parte: Proceso ETL Carga (transporte): • Consiste en mover los datos desde las fuentes operacionales o el almacenamiento intermedio hasta el DW y cargar los datos en las correspondientes estructuras de datos. • La carga puede consumir mucho tiempo.

Base de datos operacional

T1

T2

T3


Segunda Parte: Data Warehouse (AlmacĂŠn de Datos) BDs Operacional

BD de ERP

Fuentes Internas Archivos Planos

Herramientas de consultas e informes

Respaldos

Herramientas EIS y DSS

ETL

DW

Interfaz y Operadores Herramientas OLAP

Fuente de Datos 1 texto

Fuente de Datos 3

Herramientas de MinerĂ­a de Datos

HTML

Fuente de Datos

Fuentes Externas


Segunda Parte: Data Warehouse (Almacén de Datos) • Data Warehouse: colección de datos orientada a temas específicos, integrada, no volátil y variante en el tiempo, organizada para apoyar las necesidades de la gestión • Data Mart: corresponde a un pequeño data warehouse, específico a un área de negocio o departamento de la empresa.


Segunda Parte: Data Warehouse (AlmacĂŠn de Datos) Su estructura se puede visualizar como un cubo...


Tercera Parte: AnĂĄlisis de Datos

BDs Operacional

BD de ERP

Fuentes Internas Archivos Planos

Herramientas de consultas e informes

Respaldos

Herramientas EIS y DSS

ETL

DW

Interfaz y Operadores Herramientas OLAP

Fuente de Datos 1 texto

Fuente de Datos 3

Herramientas de MinerĂ­a de Datos

HTML

Fuente de Datos

Fuentes Externas


Tercera Parte: Análisis de Datos Consultas y Reportes • Corresponde a un análisis dirigido por el analista, y requiere tanto un conocimiento acabado de los datos como un trabajo excesivo sobre éstos por parte de dicho analista. • Este análisis considera la definición de las consultas, el acceso y recuperación de datos, la manipulación de cálculos, y la preparación y entrega de los reportes.


Tercera Parte: Análisis de Datos Análisis Multidimensional (OLAP) Análisis asistido por el analista, consiste en un estudio basado en las tablas presentes en un data warehouse. Se definen operaciones especiales para el manejo de los datos de un cubo: • Drill-down: obtención de mayor detalle de los datos, bajando por alguna dimensión. • Roll-up: operación inversa a la anterior, para tener datos más agregados.


Tercera Parte: Anรกlisis de Datos Anรกlisis Multidimensional (OLAP)


Tercera Parte: Análisis de Datos Minería de Datos • Análisis dirigido por lo datos, permite moverse a través de los almacenes de datos para encontrar las tendencias, patrones y correlaciones que pueden guiar la toma de decisiones estratégicas. OLAP (Agregación) ¿Cuál es la tasa promedio de accidentes entre fumadores y no fumadores? ¿Cuál es la cuenta telefónica promedio de mis clientes v/s la de quienes que han cancelado el servicio? ¿Cuál es el monto de la compra diaria promedio entre tarjetas de crédito robadas y aquéllas usadas por sus dueños?

Data Mining (Influencias) ¿Cuáles son los mejores predictores de accidentes? ¿Qué atributos están asociados con los clientes que están cerca de cerrar sus servicios? ¿Qué patrones de compra están asociados con fraudes de crédito?


Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Ejemplo Práctico con Clementine (SPSS): Ensayo de Medicamentos (http://www.pcc.qub.ac.uk/tec/courses/datamining/ohp/dm-OHP-final_3.html) • Un número de pacientes hospitalarios que sufren todos la misma enfermedad se tratan con un abanico de medicamentos. • Cinco medicamentos diferentes están disponibles y los pacientes han respondido de manera distinta a los diferentes medicamentos. • Problema: ¿qué medicamento es apropiado para un nuevo paciente.


Tercera Parte: Análisis de Datos Minería de Datos: un Breve Ejemplo Primer Paso: ACCEDIENDO LOS DATOS • Se leen los datos, por ejemplo de un archivo con delimitadores. • Se nombran los campos age sex BP Cholesterol Na K drug

edad sexo presión sanguínea (High, Normal, Low) colesterol (Normal, High) concentración de sodio en la sangre. concentración de potasio en la sangre. medicamento al cual el paciente respondió satisfactoriamente.

• Se pueden combinar los datos; por ejemplo añadiendo un nuevo atributo llamado Na/K.


Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales Se trata de establecer asociaciones del estilo: “si compra X en T … ¿comprará Y en T+P?”

Ejemplo:


Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Patrones Secuenciales


Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Clasificación a) Árboles de Clasificación: estructura similar a un diagrama de flujo, donde cada nodo interno denota una condición sobre un atributo, cada enlace representa una salida de la misma, y cada nodo hoja representa las clases.

b) Extracción de Reglas.


Tercera Parte: Análisis de Datos Minería de Datos: Técnica de Regresión Lineal Predicción: mediante regresión lineal, los datos son modelados usando una recta. que considera conceptos como variable de respuesta, variable predictora, coeficientes de regresión, método de mínimos cuadrados.


Aplicaciones Área: Gobierno y Seguridad Nacional. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunció que el Departamento de Justicia comenzó a introducirse en la vasta cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una acción. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que está suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no gubernamentales, sus enfermedades crónicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tomó clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión inicial ronda los setenta millones de dólares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir información e implementar nuevo software analítico y de visualización.


Aplicaciones Área: Investigación Espacial. Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II) coleccionó tres terabytes de imágenes que contenían aproximadamente dos millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen. El objetivo era formar un catálogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de agrupación (clustering) y árboles de decisión para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrónomos a descubrir dieciséis nuevos quásars. Estos quásars son difíciles de encontrar y permiten saber más acerca de los orígenes del universo.


Aplicaciones Área: Club Deportivo. En el 2003, el AC de Milán comenzó a usar redes neuronales (otra técnica de clasificación) para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudará a seleccionar el fichaje de un posible jugador o a alertar al médico del equipo de una posible lesión. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentación y respuesta a estímulos externos, que se obtienen y analizan cada quince días. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten señales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesión. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesión, lo que haría incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, así como saber si una determinada lesión se relaciona con el estilo de juego de un país concreto donde se practica el fútbol.


Fuente: www.olapreport.com

Anรกlisis del Mercado


Fuente: www.olapreport.com

Anรกlisis del Mercado


Material de apoyo en Inteligencia de negocios  

Material de apoyo en Inteligencia de negocios

Advertisement
Read more
Read more
Similar to
Popular now
Just for you