Seis Grados Data Revista de Big Data, Ciencia de Datos y Social Media

Page 1


Índice Directorio Pág. 4

Bienvenida

Pág. 5

Sección I ¿Cuánto valen nuestros datos?

Armando Jerónimo Cano Los datos tienen un valor comercial, su precio se determina en función de la oferta y la demanda.

Pág. 7

¿La ética para qué? el uso adecuado de los datos.

Jorge Salvador García Ramírez El manejo ético de datos aumenta la confianza hacia una organización, particularmente sobre su información y los resultados obtenidos

Cómo aprovechar las ventajas del derecho de acceso a la información en poder de la administración pública.

Pág. 10

Armando Jerónimo Cano El derecho del acceso a la información pública gubernamental debiera estar garantizado en cada país como el derecho más común de los ciudadanos

Pág. 12

El mundo de los datos

1


Índice Sección II. Entrevista Conversación con la Maestra Mónica Orozco Corona Los datos abiertos necesitan más marco conceptual-metodológico, hoy por hoy, tu entras a internet y puedes encontrar muchas cosas; el asunto, es que no puedes contextualizar la información…

Pág. 16

Sección III.

El nuevo mundo: trabajando con Big Data. El Big Data, su evolución Miguel A. Orozco Malo Big Data no es para todos. Como toda herramienta TIC, su inversión debe hacer sentido de negocios. Pág. 25

Cómo Empezar con Big Data

Oscar Gustavo Alba Nieto Big data representa un santo grial que muchas organizaciones quieren alcanzar. Sin embargo, pocas lo logran. Pág. 30

Construir un Big data es cómo escribir el diario de mi vida

Alberto Martínez Hinojos En este universo de información ¿Qué es lo que realmente debemos guardar? Pág. 34

2


Índice Sección IV La Ciencia de Datos. El camino a la Data Sciencie (Parte 1)

Alejandro Chimal García Desde el punto de vista de los negocios, ¿qué influencia tiene Data Mining? ¿Es en realidad un método que ayude a aportar algo significativo al objetivo de las empresas?

Pág. 36

Sección V Data Warehouse Sobre la importancia del análisis de datos estructurados en un modelo de Data Warehouse Ernesto Ulianov Reyes Romero Un Data Warehouse es diferente de las bases de datos operacionales que soportan las aplicaciones de un Procesamiento de Transacción en Línea

Pág. 38

Sección VI

Reseña de libros

Reseña de Alg0r1tmo de Gustavo Alva. 364 p.

Patricia Quintero Soto Es una novela de Gustavo Alva. El título encierra mucho de verdad: pues significa “seguir de manera sistematizada una serie de instrucciones para solucionar un problema”.

Pág. 43

El mundo de los datos

3


Directorio Seis Grados Data Es una revista digital gratuita de publicación trimestral a través de internet Año 1, número 0 Fecha de elaboración 01 de octubre de 2019 Director Ernesto Armando Jerónimo Cano Diseño Editorial Alberto González Garduño Directora Comercial Verónica López Martínez Comité Editorial (por orden alfabético) Angélica Castañeda Sánchez Armando Jerónimo Cano Gustavo Alva Nieto Laura Dávila Lárraga Salvador García Ramírez Publicidad Verónica López Martínez vlopez@seisgradosdata.com Distribución y contactos www.seisgradosdata.com Facebook: seis grados data Correo: seisgradosdata@hotmail.com ; revista@seisgradosdata.com Teléfono: 55 7353 2667 Registro en trámite Revista Seis Grados Data, Número de Certificado de reserva en Proceso de Autorización. Los artículos, dibujos y fotografías publicados en la presente edición son responsabilidad de exclusiva de sus autores.

4


Bienvenida S

eis Grados Data es una revista multimedia de Ciencia de Datos, que busca crear comunidad, acercando a los expertos que actualmente se encuentran resolviendo problemas: ya sea en sus despachos o en la academia; trabajando para una empresa, dependencia de gobierno o alguna organización sin fines de lucro. También busca acercar a las empresas y a la industria que son principales productores y consumidores de datos, hardware, software y quienes hoy necesitan aprovechar las herramientas de esta área del conocimiento, para optimizar sus escasos recursos sacando ventajas de su información. Pero, también es una ventana para todos aquellos entusiastas que se comienzan en el mundo de la ciencia de datos, bien sea porque han iniciado o ya están estudiando una carrera en la profesión más sexi del siglo XXI, de acuerdo con Harvard Business Review; o porque, como resultado de su trabajo han tenido que involucrase y aprender a usar las técnicas y herramientas que la ciencia de datos provee. Las ventajas de trabajar de manera colectiva en comunidad es que no existen fronteras, gracias al internet, aprovechando el conocimiento y la experiencia de todos sus miembros. De acuerdo con la socioformación, la participación colectiva permite la resolución de los grandes problemas, mediante la suma de las ideas, el respeto y la colabora-

ción, sin importar de donde provengan las propuestas. Debido a que en la práctica los problemas a que nos enfrentamos no están delimitados por especialidades, en muchas ocasiones se requiere de la participación multidisciplinaria para su solución. En otras ocasiones, recurrir a la experiencia de algún miembro de la comunidad puede aportar respuestas más simples y recortar el tiempo para la solución de los problemas que para nosotros son nuevos. Estas solo son algunas de las ventajas de hacer comunidad. Los primeros acercamientos al concepto de ciencia de datos los aporta J. Tukey(1962) quien habla de una evolución de la estadística matemática en su artículo “The Future of Data Analysis”. Peter Naum(1974) utiliza este concepto en su libro “Concise Survey of Computer Methods”. La ciencia de datos como concepto se presenta de manera amplia y aceptada a partir de los 90’s . PaEl mundo de los datos

5


Bienvenida zas como la programación, el deseño, la modelación matemática, las que combinadas con el dominio del contexto en donde se presenta el objeto de estudio permiten la extracción de conclusiones para la toma de decisiones informada.

ra Rogel-Salazar(2017) se trata de un neologismo de nuestros tiempos, un concepto integrado de la palabra ciencia, término que nos lleva a pensar en la organización del conocimiento, con el propósito de presentar evidencia y predicciones que son comprobables. Un concepto en el que la palabra evidencia adquiere relevancia. De acuerdo con esto, el método científico utiliza evidencia proveniente de los datos para analizar, integrar o corregir conocimiento. Sin embargo, nos adentramos en la parte que genera la discusión entre los científicos de datos y los estadísticos; la ciencia de datos no utiliza la estadística de manera directa o la sistematización de datos, como Rogel-Salazar señala . La ciencia de datos trata de la extracción de conocimiento, utilizando para ello diversas fuentes de datos, tanto estructurados como no estructurados, y la aplicación de destre-

6

No hace mucho, leía en el perfil de un científico de datos, su inclinación hacia la elaboración de discursos mediante la técnica de narración de historias; me pregunté porque ese cambio tan drástico; la respuesta no debiera ser un misterio, los resultados que obtiene un científico de datos debieran ser presentados mediante la narración de historias, relatos que presenten lugares comunes entre el emisor y el receptor; se trata de una habilidad que debe ser cultivada pero que resulta de gran impacto para que los resultados puedan conmover a nuestra audiencia. Sabemos que esta definición pudiera servir para abrir el debate, lo cual nos agradaría por sobre manera. La revista es un espacio abierto para quienes quieren publicar artículos, para quienes deseen criticar, cuestionar o refutar con argumentos los puntos de vistas de los autores; para ello, se irán habilitando los medios para recibir sus planteamientos y propuestas de manera que nos permitan aprender, mejorar y establecer con ellos la línea de nuestros próximos números.


Cuánto valen nuestros datos personales?

Armando Jerónimo Cano

La fijación de precios en un mercado com-

petitivo está determinada por la cantidad del bien a consumir (oferta) y por la cantidad de consumidores que requieren de ese bien(demanda); la situación se modifica cuando solo unos cuantos controlan la producción de ese bien, entonces los precios se pueden controlar, considerando que la cantidad de consumidores no cambia, generándose una condición de oligopolio. Pensemos en nuestros datos personales como una mercancía, datos que subimos de manera recurrente mediante nuestras actividades cotidianas en internet: adquisición de bienes; suscripciones; intercambio de información en redes sociales y dándole me gusta a cometarios o imágenes; dando clicks a direcciones consultadas; información sobre los viajes que realizamos, rutas, días y horarios; tramites bancarios como

contratación de tarjetas de crédito, pago de servicios y los depósitos de nuestra nómina, las empresas saben más de nosotros que nuestra esposa, familiares y amigos. Cual mercancía, nuestros datos son intercambiados o vendidos a empresas que se encargan de concentrarlos en base de datos para ser comercializados. ¿Qué es un bróker de datos? Los datos recabados en cada empresa son intercambiados o vendidos a los “data brokers” (corredores de datos), empresas como “Acxiom”, “Experian”, “Epsilon”, “CoreLogic”, “Datalogix”, “inome”, “PeekYou”, “Exactis”, o “Recorded Future” son compañías que intercambian, compran datos o la buscan en internet de manera legal o no; esta información es enriquecida con otros datos fuera de línea, por lo que en ocasiones llegan a tener alrededor de 1500 datos por persona . El mundo de los datos

7


Estas empresas recopilan datos como: •Nombre •Dirección •Sexo •Edad •Ocupación •Ingresos •Estado civil •Número telefónico •Clave Única de Registro de Población (CURP) o número de identidad •Datos sobre bienes muebles e inmuebles No se puede descartar que se cuente con algunos biométricos como huella digital, voz o iris debido a hoy estos datos están almacenados por las: llamadas telefónicas, videollamadas, juegos en línea, desbloqueo de celulares mediante huella o mediante la cara del dueño del aparato. Esta información es enriquecida al combinarse, permitiendo creación de grupos segmentados, audiencias, para clientes específicos. El valor de los datos se determina al combinar el volumen de éstos con el medio en que se va a publicitar, obviamente se trata de datos focalizados con publicidad que puede llegar a comprador potencial. Una verdadera revolución de la mercadotecnia digital. El valor del dato no proviene del dato en sí, sino de las herramientas que se utilicen para su clasificación y extracción. Se trata de datos que identifican una intensión de compra, un comportamiento, una geolocalización, que se dirigen a audiencias con determinados intereses o preferencias y no sólo se trata de correos electrónicos a quienes se envía publicidades indiscriminadas.

8

Cómo operan los nuevos modelos de ventas Gracias a las enormes de cantidades de datos, se pueden realizar una compra-venta programática de datos, los DSP (“Demand Side Plataform”) y los “Ad exchanges” son plataformas para focalizar las audiencias cuando de trata de trabajar campañas de publicidad. Como ejemplos de estas plataformas DMP (Data Management Platform) tenemos a “Krux”, “Blukai”, “Adobe DMP” “Semasio”, “Weborama”, entre otros . Como dicen en su publicidad, se trata de plataformas que integran y unifican la información proporcionada por los usuarios en distintas plataformas para tener una visión completa, una visión de 360 grados en donde el cliente es el centro de la estrategia para el crecimiento de su negocio . Por su parte los “Ad exchanges” ponen en contacto a los compradores con los vendedores. Una especie de bolsa de valores en donde la oferta y la demanda se encuentran. Aquí hay un mecanismo de puja, en tiempo real, en donde los vendedores deciden qué tipo de publicidad se acepta y a qué precio de venta. Por su parte los vendedores eligen el tipo de público y el importe que están dispuestos a pagar. Tal cual, como en las casas de bolsa el “Ad Exchange” se encarga de administrar la oferta y la demanda cobrando por ello una comisión. Uno de los modelos de venta de datos más común es el CPM (coste por mil), las empresas encargadas de vender la información trasfieren paquetes a los “Ad exchanges” para que puedan ser comercializados, los paquetes son colgados por el “Ad exchanges” iniciándose la puja por parte de los compradores a quien le interesa ese segmento de


audiencia. Decimos que el CPM es solo un de los modelos de venta, pero existen otros como eCPM (Coste Efectivo Por Mil), el coste por CPC (Coste Por Click), el CPA (Coste por Adquisición) entre otros.

“Second Data Party”, estos datos se obtienen bien sea por acuerdos de intercambio entre las empresas o de acuerdo con la capacidad de adquisición. Son datos con niveles aceptables de calidad.

Debido a las múltiples fuentes de las que proviene la información, es complejo hablar de su calidad, pero podemos tener marcos de referencia para establecerla, así como de sus dimensiones de acuerdo con su origen. En términos de calidad podemos hablar de transparencia, persistencia y obsolescencia; en el caso de la transparencia podemos señalar que se refiere a su origen y procesamiento que se ha realizado para establecer su confiabilidad; la persistencia de un dato se refiere al tiempo en que el dato es valido de acuerdo tipo de dato y a la forma en que obtuvo, hay datos de vida efímera como la ubicación; finalmente, la obsolescencia, habrá datos con muy corto periodo de vida, un día, una semana o un mes; mientras que habrá otros datos que no cambian en el tiempo o no cambian continuamente, por ejemplo, el sexo o la edad.

“Third Data Party”, se trata de información que ha sido obtenida de los “data brokers” quienes dependiendo el del origen y del trabajo realizado para la obtención e integración de los datos pueden presentar algunas situaciones como la falta de valores en algunos datos, traslapamientos o incongruencias entre valores como la edad y las intensiones de compra o la ubicación. No significa que estén equivocados solo que no se conoce el contexto de su integración.

Cuando se cruzan la calidad de los datos con el volumen y su origen obtenemos las siguientes categorías:

“First Data Party”, quizás por su origen pudieran ser los datos con mayor calidad. Se trata de los datos de la organización, esos que se obtienen de la operación cotidiana, de nuestros clientes y proveedores y que se han ido integrando con el paso del tiempo; datos que por tenerse a la mano han sido tratados con procesos controlados. Justo por su origen el volumen es relativamente limitado.

Como se podido establecer existe un mercado para toda nuestra información, la cual es intercambiada cual mercancía en una nueva bolsa de valores en donde la tecnología, los “brokers data” y los “Ad exchanges” integran un nuevo ecosistema bajo el cual es posible realizar campañas de publicidad aplicando tiros de precisión para incrementar las ventas. Ahora ya tenemos alguna idea de cuánto valen nuestros datos. Referencias: Ciencia y Tecnología. Descubre Axciom, la empresa de la nunca has oído hablar pero que lo sabe todo de ti y vende la información a multinacionales. La información. Septiembre de 2019. https://www.lainformacion.com/ economia-negocios-y-finanzas/descubre-acxiom-la-empresa-de-la-quenunca-has-oido-hablar-pero-que-lo-sabe-todo-sobre-ti-y-vende-la-informacion-a-multinacionales_PAekjpCHoAPSJ3uKfZoMY5/ Parrondo, Nestor. Quienes son los brokers de datos y por qué para Tim Cook son los mayores enemigo de la privacidad. GQ. Septiembre de 2019. https://www.revistagq.com/noticias/tecnologia/articulos/tim-cook-privacidad-brokers-de-datos/32745 Wlosik, Michal. What Is a Data Broker and How Does It Work? Clearcode. Septiembre de 2019. https://clearcode.cc/blog/what-is-data-broker/ Jane, Carmen. Qué saben las redes sociales de ti y para qué lo usan. El periódico. Septiembre de 2019. https://www.elperiodico.com/es/sociedad/20180413/datos-redes-sociales-utilizacion-metodos-6755900

El mundo de los datos

9


¿La ética para qué? el uso adecuado de los datos Jorge Salvador García Ramírez

La era digital provoca que para ser com-

petitivos debamos aprender a gestionar uno de nuestros activos intangibles más valioso: los datos.

La ética son los principios de comportamiento basados en ideas de lo correcto y lo incorrecto. Estos se basan en diversas características como son: integridad, calidad, confiabilidad y transparencia.

Difícilmente conocemos y entendemos todos los datos a los que tenemos acceso, y menos aún las maneras en que podemos utilizarlos.

Parafraseando a W. Edward Deming sobre la calidad, la ética significa “hacerlo bien cuando nadie está mirando” /.

En ese sentido, los seres humanos y las organizaciones en general recolectan, almacenan, procesan e intercambian información, con el fin de crear nuevos bienes y servicios a menor costo y mayor cobertura. Sin embargo, al mismo tiempo, se enfrentan a importantes retos, tales como, gestionar adecuadamente los datos, garantizar su privacidad y cumplir con regulaciones y la normatividad correspondiente.

10

Por ello, la ética en el tratamiento de los datos tiene que ver con la forma en la que obtenemos, almacenamos, administramos, usamos y disponemos de los datos de manera que estén alineados con las cualidades antes mencionadas. Es importante señalar el valor de la transparencia en el uso de los datos, ya que constituye un añadido (plus) para la prestación eficaz, eficiente y oportuna de diversos bienes y servicios.


La ética en el manejo de datos es compleja, pero se centra primordialmente en la calidad de la información, debido a que dicha información se utiliza para tomar decisiones. El uso indebido o no autorizado de la información afecta negativamente a las personas u organizaciones, toda vez que los datos tienen un valor económico per se, que, sin lugar a dudas, dañan su imagen o reputación. En suma, más allá del cumplimiento del marco legal-normativo que se vincula con la gestión y explotación de datos existe una responsabilidad (imperativo) ética para proteger la información, la cual alcanza a lo largo y ancho del ciclo de vida de los datos, que va desde su creación hasta su potencial archivado y destrucción. Las organizaciones ya sea públicas o privadas usan los datos de manera que no hubiéramos imaginado en el pasado. Debido a esto, el suponer que únicamente el seguir al pie de la letra las leyes y normas en la materia, nos exime de riesgos asociados al uso de datos es algo erróneo. Si bien, las leyes tienen en cuenta algunos principios éticos, es imposible que la legislación pueda mantenerse al día respecto a los riesgos asociados con la evolución del entorno de datos. Es importante estar un paso adelante, previniendo probables problemas, aunque aún no estén previstos en la ley.

sidere la creación de instituciones que promuevan el establecimiento de controles. Esta gobernanza de datos tendrá el objetivo de coadyuvar a que los resultados previstos y obtenidos del procesamiento de datos sean éticos y no violen la confianza, ni infrinjan la dignidad humana de las personas. Para la materialización de lo antes expuesto, es menester considerar la creación de un programa de gestión de datos que promueva una adecuada explotación de la información, debido a que los datos y su posterior inferencia es un activo valioso e incuantificable para cualquier organización pública o privada. En síntesis, los datos y la información deben gestionarse de manera cuidadosa, asegurando la calidad, seguridad, integridad, disponibilidad, uso efectivo, el cumplimiento de la normatividad, y por ende los aspectos éticos derivados del uso de estos.

El manejo ético de datos aumenta la confianza hacia una organización, particularmente sobre su información y los resultados obtenidos. Con el fin de introducir una cultura ética de los datos, es necesario acompañarla de una gobernanza de datos adecuada, que conEl mundo de los datos

11


Cómo aprovechar

las ventajas del derecho de acceso a la información en poder de la administración pública. Armando Jerónimo Cano

En uno de tantos ministerios de salud, un

cúmulo de documentos se genera día a día, oficios van y oficios vienen con informes de: contrataciones de personal, adquisiciones de materiales, compras de medicinas, informes de avances de la construcción de clínicas y hospitales, indicadores de productividad del personal médico, informes morbilidad. La información se arremolina en hojas de papel, láminas, presentaciones digitales, documentos electrónicos, bases de datos, cuadros de mando, etc. La administración pública genera de manera cotidiana ingentes cantidades de información. ¿Qué pasa con toda la información que se genera en la administración pública? ¿En dónde se resguarda? De acuerdo con cada uno de nuestros intereses, existe un valor potencial de toda aquella información pública que se crea y se resguarda en la administración pública como resultado de

12

la ejecución de sus funciones. El derecho humano de acceso a la información pública gubernamental sirve para generar las condiciones de igualdad entre los ciudadanos, reduce las asimetrías de la información y permite generar condiciones de ciudadanía a la hora de tomar decisiones de manera informada. El derecho a su acceso garantiza las condiciones en que el ciudadano y las dependencias de gobierno generan la comunicación para el intercambio de la información pública. Aun cuando las acciones en pro del derecho al acceso de la información datan del siglo XVIII, para el caso de Suecia que en 1776 impulsó “Ley para la Libertad de Prensa y del Derecho de Acceso a las Actas Públicas”; mientras que en caso de Colombia se tiene registros de un esfuerzo en la misma línea para el año de 1888 , no fue sino hasta entrada la segunda mitad del siglo


XX cuando se inició en los países el ejercicio de implementar leyes que garantizaran la transparencia de la información pública. En el caso de América Latina este esfuerzo se generalizó hasta principios del siglo XXI, no obstante es de destacar que aun cuando hoy en día hay más de 100 países que cuentan con leyes de transparencia, los casos de Latinoamérica destacan por lo avanzada de sus leyes, situándose dentro de las primera los lugares México, Brasil, Chile y Colombia de acuerdo con Global Right to Information Rating (Clasificación Mundial del Derecho a la Información) del Centro de Derecho y Democracia (CLD, por sus siglas en inglés) . El derecho del acceso a la información pública gubernamental debiera estar garantizado en cada país como el derecho más común de los ciudadanos, al mismo nivel que el derecho de acceso a la salud o la educación. El acceso a la información pública gubernamental transparenta la actuación de los servidores públicos, mejora el nivel de confianza de los ciudadanos al conocer los procedimientos y los resultados de la administración pública, facilitando las acciones de rendición de cuentas y permite la optimización de los recursos escasos al conocer su aplicación. El ejercicio de este derecho se enriquece cuando existe una participación abierta de la sociedad a través de mecanismos de participación vinculatorios, de un órgano rector independiente que se asegure de su cumplimiento y de normas que obliguen a los servidores públicos a su observancia. Para tener una adecuada explotación de la información disponible es necesario que en cada dependencia y organismo de gobierno se cuente con un inventario organizado

bajo normas internacionales de clasificación y disponible de manera pública a la sociedad en los sitios de internet oficiales de cada dependencia. En este sentido los Archivos Generales de cada país tienen el mandato de establecer las reglas y los instrumentos de clasificación tales como: el Cuadro General de Clasificación, que permite conocer la estructura de clasificación del archivo de acuerdo con sus manuales de organización, objetivos e instrumentos normativos de cada dependencia; el Catálogo de Disposición Documental, que permite conocer las características de los documentos resguardados, su tipo de clasificación(pública, confidencial o reservada), su tiempo de guarda legal y su destino final; así como una Guía Simple de Archivos que permite identificar los fondos, sus ubicaciones y los a responsables de cada archivo. Los archivos generales tienen el mandato y la obligación de facilitar en cada dependencia la elaboración de dichos instrumentos. El mundo de los datos

13


Con la revolución que ha implicado el avance de las tecnologías de la información y las telecomunicaciones (TIC), el acceso a la información pública comienza a democratizarse. Sin importar nuestra ubicación geográfica, hoy en día, con el uso de los teléfonos celulares es posible solicitar y acceder a casi toda clase de datos, revisar procedimientos, llenar formularios y recibir la respuesta por el mismo medio. Considerando que la mayor parte de la población tiene acceso a un teléfono celular y muy poca a equipo de cómputo, es importante diseñar páginas pensadas en estos dispositivos con el fin de facilitar su acceso. Por su parte, los gobiernos debieran facilitar en cada municipalidad el acceso a equipo de cómputo e internet para que la ciudadanía pueda hacer sus consultas, lo que democratizaría el derecho del acceso a todo tipo de información pública. Está claro que el derecho del acceso a la información pública gubernamental está delimitado solo por los límites que establezcan otras leyes; sin embargo, es obligación de las dependencias privilegiar el derecho del acceso a la información únicamente acotado por las garantías de confidencialidad que requieren nuestros datos personales. Ante cualquier solicitud de información se requiere privilegiar el principio de transparencia, siempre garantizando la confidencialidad de los datos personales en poder de las dependencias del gobierno. Debido al poder de las Tecnologías de la Información y las Comunicaciones, es necesario que las dependencias que administran datos personales asuman la obligación de contar con mecanismos que garanticen su resguardo; para ello, cualquier medida implementa-

14

da como el encriptado de los datos, barreras de acceso en los servidores y usuarios de prueba fingidos, son solo algunos de los requisitos mínimos para asegurar que éstos no sean utilizados para otros fines. La implementación de las obligaciones de transparencia de la información pública es costosa pero no cara a continuación, lo explicamos. Se deben garantizar recursos para que la organización y el almacenamiento de los documentos se realice de acuerdo con los instrumentos normativos y su localización sea eficiente, esto es en el menor tiempo posible; se requiere la renta de sitios especiales para el resguardo de documentos, la adquisición de mobiliario, instalación de equipo de control de humedad y equipo contra incendios, contratación de personal calificado en la materia para la integración de los archivos de trámite, de Concentración y del archivo histórico, lo anterior facilita tener la documentación siempre organizada, disponible y óptimas condiciones. En lo que respecta a la información digital, se requieren de servidores y sitios redundantes donde se almacenen los datos y se garantice su respaldo en caso de pérdidas de datos; se requieren equipos de expertos en seguridad digital, planes de contingencia Plan de recuperación de Negocios y Plan de Recuperación de Datos (BRP y DRP por sus siglas en ingles); equipos de seguridad con el hackeo de la información que estén evaluando permanentemente cualquier intento de intrusión; e incluso se requiere que en los casos en donde se resguarden datos personales, estos estén encriptados para que, aun cuando se corra el riesgo de intromisión, los datos no sean legibles. Como se puede ver la implemen-


tación de estas medidas sugiere identificar una serie de costos en el presupuesto anual de cada dependencia; sin embargo, cuando se evalúan los beneficios que trae consigo la implementación de la transparencia, tal y como se comentó ha venido comentado, los beneficios para la sociedad en general y para la economía superan sus costos, lo que hace que su implementación sea barata para cualquier administración. Para la sociedad en general existe el compromiso de involucrarse en el tema identificando para ello: los normas existentes, revisando en las páginas de transparencia de nuestros países, evaluando si la información disponible es útil o bien revisando los Cuadros Generales de Clasificación y en los Catálogos de Disposición Documental con el fin de identificar si información existente nos pueda ser de utilidad para futuros proyectos, para realizar trámites y exigir servicios o

simplemente para evaluar el funcionamiento de la administración pública. Un punto de especial atención corresponde al caso de la información en formato digital, tales como: bases de datos, planos, fotografías, videos, presentaciones, entre otros, que forman parte del acervo documental de información en poder de la administración pública y que no necesariamente aparecen referenciados en los instrumentos de clasificación documental, pero a los que se tiene en el mismo derecho a acceder al igual que en el caso de los documentos en papel. En principio, toda la información sin importar su formato y medio de almacenamiento debe estar al alcance de la sociedad sin importar para que la requiera quien la solicite.

El mundo de los datos

15


La Entrevista con la Maestra Mónica Orozco

H

oy en día todo mundo habla de Big Data, minería de datos, analítica de datos o de ciencia de datos; sin embargo, mirando en retrospectiva es refrescante platicar con los pioneros de la ciencia de datos aplicada. Gente que comenzó a hacer ciencia de datos antes de que el concepto mismo se arraigara en nuestro uso cotidiano. Aprender de la experiencia de aquellos que han trabajo con datos, recopilado y organizado grades cantidades de éstos, para finalmente poder ver el resultado de su trabajo impactando la vida de millones de familias, es una experiencia de la que debemos aprender. Una de estas científicas ha accedido a recibirnos y conversar con nosotros, se trata de Mónica Orozco Corona, quien es licenciada en actuaria por el Instituto Tecnológico Autónomo de México (ITAM) y maestra en estadística por la Universidad de Chicago. Ella ha sido consultora del Gobierno Federal, en dependencias como la Secretaría de Desarrollo

16

Social; asimismo, de 2018 a 2019 fue Consultora Senior del Banco Mundial donde participó en investigaciones vinculadas con el impacto de los programas de transferencias condicionadas como Prospera; también, se desempeñó como Directora General de Evaluación Estadística en el Instituto Nacional de las Mujeres en México (INMUJERES) y actualmente es directora de Genders A.C. En la presente conversación aprovecharemos su experiencia para hablar de su trabajo. Seis Grados Data: Buenos días, Maestra Mónica Orozco Corona, comienzo con una cita de Josh Wills quien define al “Científico de datos (n): Persona que sabe más de estadística que cualquier programador y que a la vez sabe más de programación que cualquier estadístico”. Uno de los temas fundamentales que tiene que ver con el análisis de datos es, pues justamente eso, tener datos siempre, tener mu-


chos datos, quizás millones de datos, para poderlos analizar. Entonces utilizando a los datos como hilo conductor de nuestra plática, vamos a iniciar nuestra entrevista; ¿Cómo aprendiste estas habilidades de tratar con datos? Mónica Orozco: realmente el asunto de trabajar con datos, no lo aprendí si no hasta la práctica laboral, o sea, aunque si tuve o si tiene uno como las entradas al manejo de datos, bueno en mi caso en la formación universitaria, el dato y el enfoque en aquel entonces era muy restringido; aprender propiamente lo que es una encuesta, un censo, el manejo estadístico de la información, pues en la práctica laboral, iniciando, haciendo. Seis Grados Data: claro, quizá uno de los principales problemas de nuestra formación es que, normalmente, cuando hacemos ejercicios de los libros, los datos están ya preparados, están ya listos, saben a dónde van a llegar y cuando nos enfrentamos a la realidad no sucede así –exacto- ¿cuáles son los principales retos a los que te has enfrentado para conseguir datos? Mónica Orozco: para conseguir datos, bueno, lo que pasa es que el enfoque, la publicidad de la información ha ido cambiando. Cuando yo empecé a trabajar con datos, hace veinte algo años, las encuestas no eran públicas, por ejemplo, en ese entonces yo trabajaba en el sector gobierno y tenía acceso a cierto tipo de datos, pero no de la forma que ahora se tienen. Los principales problemas, bueno, la primera tener los contactos adecuados para poder conseguir la información; después, ya en épocas más recientes, con los datos públicos, uno de los mayores obstáculos es

y sigue siendo, por ejemplo, en organismos públicos autónomos, como el Instituto Nacional de Estadística y Geografía (INEGI) o el Banco de México (Banxico), quienes apenas muy recientemente, están publicando con criterios más técnicos cómo manejar los datos, siempre existe la metodología, siempre existe metadato, siempre existe el cuestionario, normalmente, pero no necesariamente todos los criterios de utilización o conformación de la información, como si es el caso, por ejemplo, en otras instancias, tales como el Consejo Nacional de Evaluación de la Política de Desarrollo Social (CONEVAL). Allí si el criterio del uso del dato esta detalladamente desglosado, hasta el nivel de la programación, y esas cosas no siempre suceden. Entonces, tiene uno a veces conjuntos de información que, aunque están disponibles, no tienen un origen claramente definido, ese es un problema de una categoría de datos ya evolucionado; otro problema más recurrente todavía, es el hecho de que ni siquiera la información este pública. Seis Grados Data: es complicado, porque de pronto pareciera que existe una normatividad en materia de transparencia y acceso a la información, que obliga a las dependencias a hacer pública la información; pero lo cierto, es que quienes trabajan con datos, pues, no necesariamente se enfrentan a esa apertura y a esa disponibilidad de los datos, que es justamente lo que estas planteando ¿Con el avance de los equipos de cómputo y el internet que tanto evolucionó tu trabajo: para recuperar y acceder a la información? Mónica Orozco: bueno, pues mucho, primero, existe la capacidad de procesamiento El mundo de los datos

17


de la información; segundo, otra cosa muy importante, es la posibilidad de transferir los datos, hoy lo puedes hacer, por ejemplo, a través de la red, en repositorios virtuales, etc…, cosas que antes no existían. Otra es la capacidad de los equipos, también es muy determinante, porque en algunos ámbitos de trabajo la acumulación de información es a un paso muy acelerado; entonces, la posibilidad de que cualquier persona, en cualquier lugar, pueda utilizar los datos, cada vez se restringe más(sic) por los grandes volúmenes de información. Seis Grados Data: uno de los principales temas que toda persona que trabaja con datos debiera conocer es, justamente, sobre la importancia de la estadística descriptiva. Normalmente estamos pensando en hacer ciencia de datos, en analizar grandes cantidades de información, pensamos en “machine learning” o en análisis muy avanzadas como la inteligencia artificial. Pero, antes de que todo eso suceda, sabemos que la estadística descriptiva tiene relevancia cuando se va a iniciar el análisis de los datos ¿qué tipo de trabajo le haces a los datos con la estadística descriptiva, qué tipo de análisis llevas a cabo en tu caso? Mónica Orozco: mira, por supuesto que eso es fundamental y es una cosa que no necesariamente se tiene, yo diría esa es una de las primeras entradas al análisis de los datos y de hecho, tú puedes, hoy por hoy, encontrarte muchos profesionistas recién egresados que no saben que lo básico para iniciar un análisis de cualquier naturaleza es contar con los descriptivos. Te puedes topar con profesionistas, que se van iniciando en la cultura de los datos, que te pueden dar indicadores, pero no sabe sobre la base de

18

que los están haciendo y esto es básico en el proceso de exploración de la información. Si uno no tiene esos tabulados iniciales, esas descriptivas básicas, es difícil contextualizar la información que estas analizando y los resultados que vas a tener. Inclusive, antes de la parte del análisis descriptivo, lo que te diría, es que creo una de las principales cosas que debes de tener muy claras, inclusive antes de empezar con análisis descriptivo, son los marcos conceptuales de la problemática que quieres abordar con el análisis de datos o las características de la información misma. Si tú no tienes ese marco conceptual metodológico, claro, es imposible avanzar y caracterizar cualquier tipo de cosa que quieras analizar. Seis Grados Data: efectivamente, es importantísimo saber a dónde quiere uno llegar, antes de saber si los datos están bien o mal, no puedes establecer calidades, en tanto que no se conoce el problema que quieres analizar. Mónica Orozco: y antes, todavía, no solamente hacia donde quieres llegar, sino (saber) de que se trata el fenómeno que quieres analizar. Para ver un poco (mas allá), siempre me sirve tratar de establecer como ese marco, porque lo que te da, es referencia del fenómeno completo y después tu siempre, normalmente, en el análisis de información, la ciencia de datos pues, lo que vas a tener son observaciones comúnmente parciales de la problemática que quieres analizar. Es muy importante caracterizar la información, identificar si de tipo censal, muestral, si es un registro administrativo; porque, no es lo mismo muestral con un diseño estadístico, que muestral o censal, pero sin un marco probabilístico de selección de dato.


Seis Grados Data: qué tipo de recomendaciones nos harías cuando nos encontramos temas como: los datos que no se ajustan a comportamiento estándar, por ejemplo, los “out liers”; o como tratar, el caso de los datos faltantes ¿cuáles son las recomendaciones que nos darías en estos casos? cuando se enfrenta uno a ellos. Mónica Orozco: depende del tipo de análisis que estés haciendo; también depende, muchísimo, de que tanta influencia (ejerza); esa es una primera cosa, en general, dentro de cualquier fenómeno lo primero es contextualizar, lo que estas haciendo y la relevancia que puede tener un dato faltante o un dato fuera de rango en el tipo de análisis que estas realizando y a veces lo que vas a tener que tomar (son) como criterios: primero identificar que tan alejados se encuentran, una regla general es tratar de caracterizar, en primer lugar, el tipo de datos que faltan, que tanto representan sesgos; como se ubican respecto al resto de la población. En el caso de “out liers”, por ejemplo, que tan lejos o cerca (están) del resto de información reportada. También, en el caso de otros (datos) faltantes, comúnmente, utilizar otro tipo de datos o de información para tratar de detectar que tan sesgada esta la falta de información. Lo primero, cuando tienes patrones más o menos aleatorios, en general, no debe preocuparte tanto (por) la ocurrencia de estos faltantes y también depende del uso que quieras darle a la información; si es de carácter solamente estadístico o es más bien con una lógica de clasificación de algún fenómeno en particular. Seis Grados Data: en materia de ética para el uso y aprovechamiento de los datos ¿existe una filosofía básica que aplique Mónica Orozco?

Mónica Orozco: Devuelta, hay que regresar siempre al marco conceptual, una descripción técnica conceptual que te permita poner en contexto lo que vas a usar y lo que vas a decir; si no tienes eso claro, entonces lo que estás diciendo es ¿quién sabe qué cosa? y puedes sacar conclusiones que no se corresponden con la realidad. Diría como regla de ética general, siempre hay que establecer un marco conceptual metodológico que te permita acotar el resultado que estás diciendo. Seis Grados Data: si, muchas veces, los resultados no son lo que nuestro usuario esperaba (escuchar) y a veces el científico está obligado, como generador de información, a decir lo que se obtiene de los datos o lo que se ve de los datos. Es la parte más complicada, poder explicar qué es lo que te dice el dato finalmente. Mónica Orozco: si totalmente, pero justo por eso, es indispensable definir el marco conceptual y metodológico, para que la utilización de datos, así generado, acotado en un contexto, sea incontroversial respecto al contexto de lo que estas poniendo. No se vale no decir que los datos que están dentro del marco y de la metodología que estas definiendo para explotación de la información. Seis Grados Data: eso es lo que tiene que ver con el resultado; pero, hay otro tema que también es relevante y tiene que ver con cómo se consiguieron los datos; si la fuente de los datos nos autorizó su uso, su acceso, su explotación. Es todo un reto para el analista de datos, para el científico de datos, el poder allegarse esa información y saber que la esta utilizando de manera debida y que los resultados que se van a presentar están más allá de cualquier involucramiento personal, político, social. El mundo de los datos

19


Mónica Orozco: sí, cuando estás hablando de utilizar datos a nivel individual. Cuando tu proceso de generación del dato involucra desde la parte del diseño, de la recolección de la información, la captación de los datos. Hoy por hoy, lo que tenemos es una gran cantidad de datos y de información que ya han pasado por esos procesos, digamos primarios, de recolección; mucha la información que ya está publica, no necesariamente permite al analista ver el trasfondo de la generación de esos datos desde sus inicios. Pero, cuando tienes esa responsabilidad de captación, hay que asegurarse de la guarda de la confidencialidad del dato, la no publicación de información personal, etc… También cuando, un poco al revés, a sabiendas de que estos procesos de resguardo de datos personales (con necesarios), entonces las instituciones productoras de información, también tiene que restringir la disponibilidad del dato, es otra cosa que tienes que tomar en cuenta a la hora del análisis; porque, basarte solamente en el dato que esta público puede generarte estadísticas sesgadas, si no haces las consideraciones pertinentes de que un buen número de datos están ausentes de tu fuente, justamente por estos criterios de ética y guarda de la información. Seis Grados Data: en ese contexto que estas planteando, hay una normatividad en materia de Transparencia (en referencia a la Ley de Transparencia) que hoy por hoy, es una ventaja para todas las personas, para todos los investigadores, para la sociedad que quiere tener acceso a la información que genera la administración pública ¿qué ventajas y que desventajas le ves a este tipo de normas? Mónica Orozco: pues mira, ventajas, creo que tiene todas las ventajas del mundo, por-

20

que es una ley que, si ha detonado la publicidad de muchísima información, no solamente de índole estadística, estructurada en fuentes de datos para su explotación, sino a nivel documental. Creo que abarca mucho más allá que el objeto de la ciencia de datos es una ley muy valiosa. Como desventaja no te diría que la ley en si tenga una desventaja, más bien señalaría que el proceso de cambio cultural que te lleva a la publicidad de los datos y los procesos técnicos y metodológicos de su implementación son en los que todavía tenemos un gran rezago. Si tuviera que decir una desventaja de la ley de transparencia tal como está, es que no tiene un alcance claro sobre el seguimiento, la manera en que se implementa y la calidad con que esa implementación se logra. Entonces al no tener previsto todo ese mecanismo, hoy por hoy, lo que tenemos son organismos que sancionan la publicidad o la no publicidad de los datos y también que sancionan la respuesta adecuada o no adecuada de un organismo público para atender alguna petición concreta de información, pero no tenemos un mecanismo que dictamine la forma en que la implementación de la ley esta hecha y en ese sentido, este un mecanismo


para que de manera incremental se concrete lo que es el fondo el objetivo de la ley. Seis Grados Data: donde pondrías ese ente evaluador: en la academia, en alguna asociación civil, dónde lo pondrías porque seria como un tercero en discordia no, estaría el ente que genera la solicitud, el ente regulador que sería el Instituto Nacional Transparencia, Acceso a la Información y Protección de Datos Personales (INAI) y por último la entidad, la institución de gobierno que está generándote la información y debiera haber un cuarto (ente), que estuviera evaluando si lo que te entregaron cumple. Mónica Orozco: lo pensaría más bien como un mecanismo de mejora de implementación, monitoreo y evaluación del servicio completo que tendría que formar parte del INAI. Uno, con criterios básicos conceptuales metodológicos y de transparencia de propio seguimiento del proceso y dos, que se garantizara la participación de un cuerpo colegiado que puede ser bien académico o sociedad civil, pero yo creo que tiene que ser parte de la tarea o posiblemente de distintas áreas. Pero si veo un ente en desarrollo, aunque si ha habido iniciativas, por ejemplo, la de los datos abiertos, coordinada desde la Presidencia de la República en un momento, pero son iniciativas que no han llegado a cuajar. El padrón único de beneficiarios de la Función Pública, millones de pesos tirados a la basura; en presidencia, millones de pesos tirados a la basura; a parte a la entonces Secretaría de Desarrollo Social (SEDESOL) hoy, Secretaría del Bienestar, millones de pesos tirados a la basura; o sea, INEGI con la parte de la Ley (del Sistema Nacional de Información de Información Estadística y Geográfica) de los inventarios de registros

administrativos y fuentes de información de las redes productoras [sic]. Mientras no haya un proceso de regulación, creo que INEGI podría tener también un papel relevante en el asunto de regulación de registro administrativo: uno, el parte técnico-conceptual, que es como la primera; (dos), el avance de la implementación y luego también el INAI también haciendo mancuerna para calificar digamos la publicidad de los datos. Seis Grados Data: has tomado un tema clave, en materia de duplicidad de entes que tendrían como propósito integrar información y justamente es algo relevante que pudiéramos tratar más adelante y tiene que ver con el tema de organismos que están haciendo exactamente lo mismo. Mencionabas a la Secretaria de la Función Pública (SFP), obligada por norma para integrar a través del Sistema Integral de Información de Padrones de Programas Gubernamentales (SIIPP-G); el Padrón Único de Beneficiarios de Programas Sociales de la SEDESOL (hoy Secretaria del Bienestar) y cuyo mandato no ha cambiado; al INEGI, quien también está solicitando los padrones de beneficiarios para integrarlos y cruzarlos con sus encuestas. Pues todos haciendo lo mismo, y con todo, no tiene un objetivo concreto, no se ven resultados del 2000 a la fecha, diecinueve años de trabajo infructuoso. Mónica Orozco: si mira, pensaría que no está diseñado el proceso completo, o sea, diría que, si hay un avance en términos de normar la recolección, de normar la integración; lo que pasa, es que, si tu dejas el proceso incompleto, por ejemplo, si no brincas del asunto de documentar el marco conceptual-metodológico y juntar el dato, al de generar estadística descriptiva y ponerla a la disposición pública. Entonces es muy difícil El mundo de los datos

21


que se vean los logros, aunque ahí haya cosas que sirven; es muy difícil, entonces, a lo que esta condicionado el proceso o lo que cualquiera puede, muy fácil decir, esto no sirve; eso es como más fácil. Lo difícil es dar el paso siguiente, entonces si tu dices no sirve, entonces no regresamos a hace veinte años y empiezas otra vez a querer hacer el proceso. Creo que si es super importante tener un mapa completo de lo que sí es y de lo que no es este tipo de sistemas; porque la otra, es que la información se hace vieja rápido. Como se hace vieja rápido, si tu no acabas el proceso y estas esperando a dar el paso haber cuando lo des la información ya no te va a servir. Seis Grados Data: en este sentido, por ejemplo, pensando en la iniciativa de Datos Abiertos que, sin duda alguna, nos pone con muchas ventajas, después de, que como lo que comentabas ahorita, veinte años en los que ya hay información, quizá no de la calidad que quisiéramos, de la que la necesitamos ¿qué le sumarias, que le añadirías al tema de los datos abiertos para mejorar la calidad de la información que disponible hoy en día? Mónica Orozco: los datos abiertos necesitan más marco conceptual-metodológico, hoy por hoy, tu entras a internet y puedes encontrar muchas cosas; el asunto, es que no puedes contextualizar la información: no sabes a qué se refiere, cómo fue generada, quién la generó, cómo se recopila, con qué periodicidad, o sea, entras prácticamente confiando a cualquier dependencia y te puede pasar eso; pero, te sucede también en el INEGI, tu tratas de utilizar herramientas como el Directorio Estadístico Nacional de Unidades Económicas (DENUE), por ejemplo, hay una serie de datos de actualiza-

22

ción que no tiene criterios claros; entonces, mientras no tengas criterios claros y bases conceptuales y metodológicas que te permitan contextualizar la información es muy difícil que la información pueda ser aprovechada, eso sería una primera; una segunda, es que hay que regular, no necesariamente, solamente a nivel de la legislación, o sea, mencionábamos el caso de los padrones, una de las razones por las cuáles el padrón anda por aquí y por allá y ahora anda quien sabe dónde; es porque, no hay una ley que establezca con claridad la rectoría del tema. Si bien esta la Ley General de Desarrollo Social, que la menciona la integración de los padrones el articulado es vago, en primer lugar; en segundo, ese articulado no tiene derivado un conjunto de normativas, que no necesariamente a nivel de ley, pero si te permitan regular la generación y control de toda esa información. Así como resumen, hay que darle base legal, normativa y metodológica y conceptual, sino tenemos esas tres, es difícil que se pueda mejorar el asunto de los datos abiertos de manera generalizada. Puede ser que tengamos por ahí datos abiertos, que ya están muy evolucionados en su generación, pero yo lo que diría es del inventario total de datos abiertos posibles, más del noventa por ciento están sin documentar adecuadamente. Seis Grados Data: es todo un reto, la iniciativa de la Alianza para el Gobierno Abierto (AGA) surgió porque ocho países querían justamente ver de qué manera se podía aprovechar la información pública. Hoy en día, casi toda Latinoamérica tiene implementada una iniciativa de datos abiertos, sin que llegue a (ser) ley; finalmente, se busca que toda la información que genera la administración pública esté al alcance


solitario, cómo un trabajo en equipo, cuándo uno cuando el otro?

para poder, aprovecharla, explotarla y tener mayores beneficios. Haz abierto, sin duda, un tema que quizá más adelante podamos avanzar en otro tipo de entrevista ¿cómo ves el mercado laboral para los nuevos profesionistas, para los jóvenes que están buscando una carrera y que ya no quieren entrar a las carreras tradicionales como: medicina, derecho, arquitectura, ingeniería? ¿Cómo ves el mercado laboral para el analista de datos, cuál es tu pronóstico? Mónica Orozco: pues mira, mi pronostico es sesgado como analista de datos; es que, sin la ciencia de datos estamos destinados a cometer muchos errores, así, entonces yo lo que pensaría es que si hay que darle un impulso fuerte a la cultura de la información y que esa cultura de la información debe responder a un objetivo ulterior más allá; más allá de la curiosidad de conocer el dato, en la medida que uno logre conceptualizar ese objetivo ulterior, en esa medida, el dato va a tener sentido, creo que hoy por hoy, el invertir como profesionista: como nuevo profesionista del conocimiento profundo de ciertos fenómenos sociales, económicos, culturales etc., le puede dar sentido, un sentido muy potente a la profesión, a la ciencia de datos en sí. Seis Grados Data:¿cómo concibes el trabajo del científico de datos, cómo un trabajo

Mónica Orozco: yo creo, híjole, yo creo que definitivamente tiene que tener un sentido colectivo, tengo una formación estadística y soy actuaria, de origen, pero el análisis de datos sin marco conceptual, es una cosa que no me interesa demasiado; porque solamente, en la medida en que los datos sirven a un objetivo más grande, es en la medida que los concibo como útiles. Creo que hablar de la ciencia de datos, sin hablar de los trasfondos conceptuales y de las motivaciones sociales, económicas y políticas del uso de los datos, es restringir o pensar que el trabajo del científico de datos es lo que era hace muchos años el trabajo informático; el trabajo informático, tenía un sentido muchísimo más técnico, de organización de la información. Es como una herramienta al servicio de, pero siempre, como se conseguía antes, estaba despegada de una lógica social, creo que hoy las agendas sociales, económicas, política, culturales si necesitan de la ciencia de datos para evolucionar. De otra forma, es como muy complicado, entonces yo si lo entiendo como un trabajo colectivo de interacción, en solitario por supuesto que hay una parte técnica digamos que es lo que estructura el andamiaje. Pero esa parte técnica, así en solitario, despegada de la conexión con la realidad, creo que cada vez es menos posible y cada vez es menos útil. Seis Grados Data: hemos podido constatar, por algunos trabajos periodísticos, que la ciencia de datos está ganando elecciones, por ejemplo: el caso de Estados Unidos, donde se utilizó la información de Facebook para realizar un análisis de sentimientos y poder influir en los votantes. Poder determinar El mundo de los datos

23


qué era lo que sentían respecto de un candidato en qué momento, pero eso tiene que ver mucho con la ética del científico de datos, para que se utilizan (los datos), justamente en el contexto de lo que tu comentabas, saber para qué sirve la información. Mónica Orozco: yo separaría la noción de utilidad de los datos, pues para mejorar las agendas de política publica o en lo social, en lo económico, en todo lo que se te ocurra y para mejorar la política; la ciencia de datos, puede servir también para eso, si tu utilizas los datos para conocer estadísticas de funcionamiento o vincular información de operación de ciertas corrientes políticas con la efectividad de políticas publicas y de otras cosas; pero si lo separaría, por completo, del acto de manipulación, por supuesto que se puede usar la información para manipular y tiene que ver totalmente con la ética del científico de datos. Seis Grados Data: en este sentido, a lo largo de tu experiencia, qué trabajo o que trabajos te han dado más satisfacción a la hora de ver los resultados de tu trabajo. Mónica Orozco: creo que la ciencia de datos, como herramienta, para llegar a treinta millones de personas entre los más pobres de este país. Con un programa social, el programa de focalización de Prospera, creo que es acto de la ciencia de datos con una implicación real más fuerte en la que he participado. Seis Grados Data: qué es lo que hace Mónica Orozco para distraerse un poco del análisis de datos, después del trabajo tan abrumador, tan extenuante ¿en qué se distrae Mónica Orozco? Mónica Orozco: pues fíjate que no parece ni abrumador ni extenuante, me encan-

24

ta, me divierto así, mucho; cuando tengo oportunidad, conforme vas creciendo en la vida profesional, vas ocupándote más en lo administrativo, más en la gestión, más en las relaciones publicas… Seis Grados Data: en la medida que vas creciendo va pasando un proceso… Mónica Orozco: vas pasando ese proceso, en mi experiencia ha sido totalmente enriquecedor porque entonces te vas de los datos a aprender y ver otras cosas y regresas y el dato siempre, el análisis de la información es una herramienta super potente para poder hacer bien a los otros, entonces no me abrumo para nada ni me cansa. Seis Grados Data: quizá deba replantear mi pregunta ¿cuáles son las distracciones, los “hobbies” de una científica de datos? Mónica Orozco: híjole que te puedo decir, me gusta mucho, así lo que más me gusta mi “hobbie” más divertido, mi sobrina, jugar con ella, llevarla al parque, pasear, caminar, me gusta. Así, lo que más me gusta, es pasear en la playa, es lo que más me gusta si puedo lo hago y pinto un poquito a veces. Seis Grados Data: pues, sin duda, has tocado algunos puntos relevantes para todos aquellos que trabajamos con los datos, a todos aquellos que se están iniciando en el manejo de la información, en lo que es la ciencia de datos, tus comentarios podrán servirnos como pautas, como puntos clave que deben de estar considerando a la hora de iniciar su trabajo. Mónica, agradecemos tu atención. Gracias. Mónica Orozco: super, muchas gracias, felicidades, bye.


El Big Data, su evolución

Miguel A. Orozco Malo

Una maestría en Inteligencia Artificial (IA)

en la Fundación Arturo Rosenblueth se convirtió en la puerta de entrada para las tecnologías emergentes. Gran parte de mi vida profesional, he visto ir y venir tecnologías por muchos años. Las tecnologías más exitosas nacen, se desarrollan, y mientras algunas toman nichos muy específicos, otras se popularizan, se hacen virales. Algunas son llamarada de petate, mientras duran muchos años, son como la suegra: llegan para quedarse. Casi siempre, he podido combinar mi trabajo con la academia, impartiendo algún curso universitario o de posgrado. Con esa doble visión, escribo mi opinión sobre el tema de Big Data para México. En 1992, el asesor de informática de Televisa en Estados Unidos, Jorge Franco, trajo el concepto de grandes bases de datos; él hablaba sobre procesar terabytes (1012) y

petabytes (1015). Esas cantidades nos parecían tan lejanas como la Luna, porque la inmensa mayoría de bases de datos estaban medidas en megas, y en pocas ocasiones, en gigas. Mauricio Rojas, y luego, Rodolfo Hernández trajeron la Inteligencia de Negocios, con Sistemas de Información para Ejecutivos y Data Warehousing (DWH) a Televisa. El procesamiento de datos era interesante porque los ratings representaban lo que la empresa cobraba por los cortes comerciales. Terceros, como IBOPE y Nielsen proporcionaban los ratings. El problema de entonces era la infraestructura: notablemente cara para el estándar actual. El mainframe IBM de Televisa estaba dedicado a tareas administrativas y las mini computadoras de entonces tenían poco poder para manejar grandes volúmenes de datos. Nuestras herramientas nos ayudaban poco, porque pocas aplicaciones de Cobol integraban SQL, aunque pronto llegó DB2. En 1998, en Softtek, José Tam nos introdujo en el tema de “big data”, que leí por vez primera sobre en un artículo de Cox & Ellsworth (1997) sobre visualización científica. Aunque el tema estaba restringido a lo “científico”, era fácil intuir que tendría gran aplicación en el análisis de datos de marketing, pero todavía parecía un DWH “extremo”. Para 2005, yo trabajaba como Coordinador de Informática en el INE, ahora (INECC). El El mundo de los datos

25


Sistema Nacional de Información de la Calidad del Aire (SINAICA) operaba con datos en tiempo real producía pocos datos, pero había la promesa de integrar muchas otras fuentes de información. Para prepárame, busqué algún libro sobre el asunto, hasta que me topé con un texto de Ratner (2003), en que planteaba técnicas para hacer minería en grandes bases de datos, una maravilla que me abrió los ojos a lo que venía. Aunque, yo visualizaba el manejo de grandes datos como una parte de DWH, mayormente análisis, había algo diferente. Internet estaba creciendo como adolecente: a toda velocidad. Y requería de análisis, aunque procesar grandes volúmenes de información seguía enfrentando el problema de contar con una infraestructura adecuada, porque el costo era prohibitivo para la mayoría de las empresas mexicanas. En ese entonces, uno de mis antiguos estudiantes me dio a leer un artículo de Costa & Madeira (2004), que abordaba con mucha seriedad el tema. El artículo publicado en un evento de DWH, mostraba todavía, al DWH como la puerta de entrada al análisis de grandes volúmenes de datos. Con la creación del Centro Nacional de Supercómputo en San Luis Potosí, pensé que en México se daría un super impulso al tema, pero no; pasó muy poco. El Laboratorio Nacional de Cómputo de Alto Desempeño que integró UNAM, CINVESTAV y UAM logró entonces mejores resultados en menos tiempo. En 2006, Davenport publicó en la revista de negocios Harvard Business Review un artículo sobre el poder analizar datos para tomar las mejores decisiones. Yo consideraba a Davenport como uno de mis gurús, porque empezó en IA, específicamente en el área de sistemas basados en conocimientos, y se había ido moviendo, siempre a temas de in-

26

formática para negocios. Aunque el artículo es “viejo”, tiene todavía la mirada precisa en lo que importa: utilizar la tecnología informática en mejorar las utilidades y hacer crecer el valor de las acciones, haciendo benchmarking, imitando al mejor para poder superarlo. En 2007, conocí Hadoop, pero la herramienta me pareció rudimentaria. En 2008, el problema con Big Data seguía siendo el costo del hardware y el software. Por ejemplo, hacer DWH con Oracle, SAP, IBM y sus principales competidoras era carísimo. Sin embargo, los norteamericanos ya estaban haciendo cosas interesantes para resolver esos dos obstáculos. La puerta para explotar grandes volúmenes de datos dejó de ser exclusivamente DWH, mientras otras alternativas, (Aquafold, Azure, R, etc.) abrían ventanas de oportunidad Bryant, Katz, & Lazowska, (2008) para nuevos desarrollos. Para 2012, los celulares inteligentes y Big Data eran el nuevo presente. Big Data había salido de las revistas científicas y tecnológicas para estar en las revistas de negocios, Bollier & Firestone (2010), Bughin, Chui, & Manyika (2010), LaValle, Lesser, Shockley, Hopkins, & Kruschwitz (2011), Chen, Chiang & Storey (2012), y Davenport & Patil (2012). Big Data se convirtió en un tema para platicar en reuniones, pero pocos empresarios mexicanos le veían sentido a invertir en esa tecnología. Para mí, Big Data era una realidad, cuando leí el artículo de McAfee & Brynjolfsson (2012) Big data: the Management Revolution, publicado en Harvard Business Review. Brynjolfsson es el experto que, una década antes, puso el dedo en la llaga cuando apuntó a la paradoja de la tecnología informática: en un mundo tan competido, cada vez invertimos más en TICs, no para avanzar, sino solo para evitar retroceder.


Con la brutal cantidad de datos generados por las computadoras y los teléfonos inteligentes, Big Data había llegado para quedarse, pese a los retos. Entre otros obstáculos que enfrenta el Biga Data existe uno que es especialmente relevante para los informáticos: los límites informáticos. Jacobs (2009) destacó en su artículo, con una frase que sigue siendo cierta: it’s easier to get the data in than out (es más fácil meter lo datos que sacarlos), apuntando al problema de los límites reales de lo que podemos hacer con los algoritmos, su implementación y el hardware. Este problema resultó especialmente útil para mí. Yo impartía la materia de Análisis y Diseño de Algoritmos en el Tecnológico de Monterrey, en la Ciudad de México, y mis estudiantes tomaban el curso con toda seriedad cuando comprendían la importancia de esta triada; el ejercicio que les pedía hacer era el clásico benchmarking entre algoritmos de ordenamiento. Luego cambié a un ejercicio de benchmarking entre algoritmos de multiplicación de matrices grandes. Cuando mis estudiantes esperaban los resultados quedaban sorprendidos de la falta de poder de sus computadoras personales; antes de analizar el asunto a fondo, culpaban a todos los elementos involucrados en el cálculo (memoria, disco duro, sistema operativo, algoritmo, lenguaje de programación, etc.) sin entender bien a bien, qué estaba pasando. Cuando su análisis los llevaba en la dirección correcta, el aprendizaje era enorme. En una época en que, muchos profesores nos quejamos que nuestros estudiantes no profundizan en el conocimiento (Carr (2011)), este problema de Big Data resultaba útil para que los estudiantes se esforzaran en aprender seriamente Computación.

En 2013, los norteamericanos ya estaban detallando la importancia y características del tema, como lo muestran las publicaciones de Mayer-Schönberger, & Cukier (2013) y Kaisler, Armour, Espinosa, & Money (2013). Afortunadamente, en México, empezó a existir un genuino interés por Big Data; en buena parte, porque la revista Alto Nivel y elempresario.mx lo dieron a conocer en forma casi sistemática. Luego, otros medios empezaron a abordar el tema. No recuerdo si ese año, o el siguiente, pero el gobierno mexicano a través del Conacyt y la Secretaría de Economía apoyó a los emprendedores en el tema. En 2014, uno de mis estudiantes quería hacer su tesis sobre eso y revisé la información que encontré en Internet. Además, con algunos amigos, estuve revisando las herramientas de Hadoop (s.f.), que ya habían madurado, pero no supe la maravilla que eran, hasta el año siguiente. Aún sin conocer a fondo el tema, me di cuenta que, en México, solo las empresas más grandes que requerían información compleja de sus clientes podrían sacarle provecho real. Grupo Carso (Telmex, Telcel), los bancos más grandes y las de retail (Wallmart, Liverpool y alguna de sus competidoras) tenían el tamaño para que valiera la pena hacer una inversión en el tema. Y por supuesto, el SAT(Sistema de Administración Tributaria). Compañías medianas, como las líneas aéreas y las aseguradoras tendrían que esperar un poco, pero pronto incursionarían en el tema. Difícilmente, sería negocio para FEMSA, Bimbo, Cemex y las mineras porque no generan “Big Data”, por lo que no tienen necesidad de analizarlos. En 2016, traté inútilmente de convencer a un visionario, quien tenía un desarrollo parcial de una solución muy específica de Big Data que El mundo de los datos

27


me permitiera mejorarlo para venderlo. Desafortunadamente para mi bolsillo, las condiciones que impuso hicieron imposible llegar a un acuerdo, para hacer algún negocio; hasta dónde supe, el software quedó guardado en un cajón. Sin embargo, algo saqué del asunto. La necesidad de conocer la aplicación, “aunque fuera por fuera”, me obligó a dos cosas: revisar a mayor detalle la colección de utilidades open-source de Apache Hadoop (Hive, Pig, HDFS y las otras herramientas) y a conversar con desarrolladores de aplicaciones de Big Data. Las herramientas de Hadoop son el software adecuado para desarrollar Big Data en México. aunque requieran de un conocimiento especializado y en algunos casos, mucho trabajo. Además, también habían bajado los precios del hardware necesario. Los discos duros de estado sólido, las nuevas arquitecturas de hardware y el incremento en la velocidad de la conectividad habían cambiado las reglas del juego. Era posible hacer aplicaciones Big Data invirtiendo mucho menos dinero, que 10 años antes, Chen, M., Mao, S., & Liu, Y. (2014), y Erevelles, S., Fukawa, N., & Swayne, L. (2016). En solo unos años, hablar de Big Data había pasado a significar manejar bases de datos de exabytes 1018, mil veces más que en 1992. Y va en aumento según Global Internet Traffic (s.f.). Los desarrolladores con los que platiqué me platicaron experiencias similares a las de casi cualquier forma de BI, especialmente parecidas a las de DWH. Sobresalen dos aspectos. Primero, la calidad y disponibilidad de los datos puede ser un problema para hacer Big Data. Segundo, la información disponible para un proyecto no siempre es adecuada para el tipo de análisis requerido;

28

en esos casos, lo único que queda es ser honesto con el cliente. A fines de 2016, a muchos informáticos mexicanos nos sorprendió la noticia del robo de la base de datos del padrón electoral del INE y su publicación en Amazon.com; un año después, la investigación apuntó a que era un problema de corrupción, no de seguridad informática. Gandomi & Haider (2015) y Fan, Lau & Zhao (2015) son artículos que ayudan a tener una mejor perspectiva sobre Big Data. La Inteligencia de Negocios en algunos casos, requiere de soluciones simples, fácilmente programables en bases de datos; en otras, requiere de herramientas analíticas, y finalmente, en aquellas enormes, de Big Data. Es 2019, y parece que, los mexicanos hemos logrado muy poco con Big Data. Quizás. Sin embargo, permítame ser optimista sobre el futuro de la implementación de soluciones de Big Data en México, porque creo que hay necesidad de estas aplicaciones. Todas las grandes empresas de retail tienen una información vital: qué cosas consumo y cuándo compro, talla de zapatos, pantalones y camisas, qué monto promedio consumo y con qué banco estoy. Porque es un requerimiento legal para abrir una cuenta, mi banco tiene todos mis datos de vida: propiedades, copia de credencial del INE, saben de mis ingresos, como si fueran el SAT. Además, a través de mis transferencias conocen a mis clientes y proveedores, los lugares a los que voy, el combustible que gasto, la escuela de mis hijos, mis vacaciones, etc. Telcel y Telmex saben a quién llamo y quién me llama, y por la frecuencia y duración de las llamadas, tienen más o menos claro, que cuando no son clientes y proveedores, son las personas que me quieren y a quién quiero. Si


se juntaran las bases de datos de estos gigantes corporativos con gmail.com, sabrían más sobre mí, que mis amigos y familiares. Además, tienen información acumulada desde hace años, por lo que saben cuándo cambié de empleo, en dónde he vivido, a donde he viajado, etc. El procesamiento de esos datos permitiría saber más sobre mí, que lo que yo puedo acordarme. Esta revista llega a un nicho muy particular. Hace falta poner en contacto a empleadores (con necesidades) con empleados (que ya hayan hecho algo de Big Data o conozcan las herramientas). Hace falta promover la exportación de servicios de desarrollo. Como casi siempre pasa en México, llegamos tarde y mal a los temas relacionados con la tecnología. Sin embargo, hay un caso exitosísimo del cual aprender. Querétaro es un polo de desarrollo de tecnología de aeronáutica, gracias a que llegaron a tiempo y bien a proponerse como un nuevo lugar de desarrollo. Y no solo lo ganó entonces, sino que sigue siendo una gran opción. Y están buscando como seguir así; por ello, esa ciudad está buscando resolver el problema del agua para poder seguir aprovechando la oportunidad que representa esa industria. Big Data no es para todos. Como toda herramienta TIC, su inversión debe hacer sentido de negocios, sea que hablemos de ROI o de un beneficio intangible, pero bien claro. En las grandes compañías que tienen y generan muchos datos hacen falta ejecutivos con capacidad para detectar oportunidades TIC. Para que una aplicación sea exitosa, su diseño debe ser acorde con la información disponible. Mientras los precios de otras herramientas sigan en dólares, Hadoop (y su fauna) es el software correcto para desarro-

llar Big Data en México. Si es conveniente, adquirir una herramienta para colocarla sobre Hadoop, facilita el uso de esta tecnología. El conocimiento tecnológico es esencial, pero el talento no tiene sustituto. Bibliografía Bollier, D., & Firestone, C. M. (2010). The promise and peril of big data (pp. 1-66). Washington, DC: Aspen Institute, Communications and Society Program. Bryant, R., Katz, R. H., & Lazowska, E. D. (2008). Big-data computing: creating revolutionary breakthroughs in commerce, science and society. Brynjolfsson, E. (1993). The productivity paradox of information technology. Communications of the ACM, 36(12), 66-77. Bughin, J., Chui, M., & Manyika, J. (2010). Clouds, big data, and smart assets: Ten tech-enabled business trends to watch. McKinsey quarterly, 56(1), 75-86. Carr, N. (2011). The shallows: What the Internet is doing to our brains. WW Norton & Company. Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business intelligence and analytics: From big data to big impact. MIS quarterly, 36(4). Chen, M., Mao, S., & Liu, Y. (2014). Big data: A survey. Mobile networks and applications, 19(2), 171-209. Costa, M., & Madeira, H. (2004). Handling big dimensions in distributed data warehouses using the DWS technique. In Proceedings of the 7th ACM international workshop on Data warehousing and OLAP (pp. 31-37). ACM. Cox, M., & Ellsworth, D. (1997, August). Managing big data for scientific visualization. In ACM Siggraph (Vol. 97, pp. 21-38). Davenport, T. H. (2006). Competing on analytics. Harvard Business Review, 84(1), 98. Davenport, T. H., & Patil, D. J. (2012). Data scientist. Harvard Business Review, 90(5), 70-76. Erevelles, S., Fukawa, N., & Swayne, L. (2016). Big Data consumer analytics and the transformation of marketing. Journal of Business Research, 69(2), 897-904. Fan, S., Lau, R. Y., & Zhao, J. L. (2015). Demystifying big data analytics for business intelligence through the lens of marketing mix. Big Data Research, 2(1), 28-32. Gandomi, A., & Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137-144. Global Internet Traffic. (s.f.). En Wikipedia. Consultado el 21 de agosto de 2019, en: https://en.wikipedia.org/wiki/Internet_traffic#Global_Internet_traffic Jacobs, A. (2009). The pathologies of big data. Communications of the ACM, 52(8), 36-44. Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. (2013). Big data: Issues and challenges moving forward. In 2013 46th Hawaii International Conference on System Sciences (pp. 995-1004). IEEE. LaValle, S., Lesser, E., Shockley, R., Hopkins, M. S., & Kruschwitz, N. (2011). Big data, analytics and the path from insights to value. MIT Sloan Management Review, 52(2), 21-32. Lynch, C. (2008). Big data: How do your data grow?. Nature, 455(7209), 28. Mayer-Schönberger, V., & Cukier, K. (2013). Big data: A revolution that will transform how we live, work, and think. Houghton Mifflin Harcourt. McAfee, A. & Brynjolfsson, E. (2012). Big data: the Management Revolution. Harvard Business Review, 90(10), 60-68. Ratner, B. (2003). Statistical modeling and analysis for database marketing: effective techniques for mining big data. CRC Press. The Apache Software Foundation (s.f.) Hadoop. Consultado el 21 de agosto de 2019, en: https://hadoop.apache.org/

El mundo de los datos

29


Cómo Empezar

con Big Data

Oscar Gustavo Alba Nieto

C

ada vez es más común recibir llamadas telefónicas, que nos ofrecen productos o servicios que ya tenemos o que la compañía que los ofrece debería inferir que no necesitamos. Hay múltiples ejemplos. Un día, el banco donde has sido cliente los últimos 10 años, te llama para ofrecerte una tarjeta de crédito con un costo anual total (CAT) muy bajo, cuando la información histórica que tienen sobre ti, indica que nunca les has pagado intereses, pues liquidas tu deuda mes con mes. Por lo tanto, el CAT que te ofrezcan es irrelevante. Al día siguiente, el mismo banco te llama para ofrecerte un crédito “al instante” sobre tu nómina, pero por una cantidad inferior a los ahorros que tienes invertidos con ellos. Tu rechazas su ofrecimiento con tedio, pensando que si necesitaras la cantidad que te ofrecen, solo necesitas hacer un retiro.

30

Al tercer día, tu compañía de telefonía celular, llama para ofrecerte un teléfono de gama baja. Pero tú tienes 15 años con la misma compañía de telefonía y debido a las exigencias de tu trabajo durante ese tiempo solo has usado teléfonos de gama alta que puedan manejar la gran cantidad de correos electrónicos y mensajes que recibes al día. Agradeces al vendedor su ofrecimiento, intentando perder el menor tiempo posible. Sin embargo, dichas llamadas a largo plazo dañan la imagen de la compañía con su cliente, debido a las constantes llamadas inútiles, provocando que el cliente considere cambiarse a un competidor que no le haga tantas llamadas inútiles. La cotidianidad de estas historias, no deja de provocarnos hartazgo. Y estos son claros ejemplos de compañías que, a pesar de gastar millones en almacenamiento de datos, no les dan uso adecuado. Estas compañías poseen información sobre sus clientes


puede dirigir campañas mercadológicas especificas a cada tipo de cliente.

que podrían ayudarles a mejorar sus ventas y no lo hacen, invirtiendo recursos en ofrecerles servicios que de antemano podrían saber que el cliente no necesita. Inclusive, dichas compañías desaprovechan la oportunidad de ofrecerle a su cliente el producto que realmente necesita, lo cual mejoraría enormemente sus posibilidades de realizar una venta exitosa. Es simplemente que algunas compañías no usan los datos que son de su propiedad de manera inteligente, utilizando estos datos en beneficio del cliente, y en consecuencia de sí misma. Claramente ciertas regulaciones no permitirían que el departamento de marketing de un banco tenga acceso a la información de los movimientos bancarios de un cliente. Pero ¿y si un sistema automatizado analiza el comportamiento del cliente con el fin de ubicarlo en un perfil de venta cada seis meses? Y basado en ese perfil, el equipo de marketing

Con base a esta información, al treintañero que tiene un ingreso estable durante los últimos 5 años: se le ofrece un crédito hipotecario. A la chica que ha comprado el celular de moda los últimos 4 años: se le ofrece comprar un teléfono móvil de edición limitada y personalizado. Al caballero de mediana edad con tres dependientes económicos, que cada fin de mes termina con su cuenta en ceros: se le ofrece un crédito de nomina justo antes del inicio del nuevo ciclo escolar para que pueda comprar uniformes para sus hijos. Ventas con mucho mejor oportunidad de ser completadas en comparación con los ofrecimientos masivos de llamadas, generando además una mejora en la apreciación de la marca por parte de los clientes existentes. Y lo más importante. Esta gran utopía de mercadeo, podría ser realizado con una implementación de Big Data. Utilizar los millones de datos almacenados por una compañía con el fin de mejorar sus procesos, generando información estadística útil para la compañía. Dejar de tener Terabytes de datos propiedad de la empresa almacenados y por medio de un sistema especializado analizarlos para generar valor para la compañía y los clientes. Todo esto se escucha grandioso, aunque desde luego, una implementación de Big Data, suena mas sencilla de lo que realmente es. De inicio, es necesario sentarse a analizar las necesidades de la compañía u organización, así como el inventario de la información que esta posee, pues de nada sirve sentarse a analizar datos sin un objetivo claro, como también es inútil establecer objetivos fuera de nuestro alcance. Los objetivos El mundo de los datos

31


de la implementación deben ser delineados para obtener resultados concretos para la organización, como podría ser mejorar las ventas, obtener información para la toma de decisiones en tiempo real o reducir costos. El inventario de la información que se posee, debe ser analizada para entender su alcance y su estado. De nada sirven toneladas de archivo muerto en papel o una base de datos con información poco estructurada. Una vez establecidos los objetivos y analizado el inventario de la información, es como se puede empezar a pensar en los pasos a seguir en la implementación, así como la tecnología a usar. Y desde luego nuestro cliente nos agradecerá no tener que contestar llamadas inútiles y que cada minuto que invierta con nuestra compañía en el teléfono, tendrá un beneficio claro para él. Primeros pasos Big data representa un santo grial que muchas organizaciones quieren alcanzar. Sin embargo, pocas lo logran. Y hay que ser claros también, no todas las organizaciones necesitan Big Data ¿Qué se necesita en una organización para empezar a pensar en una implementación de Big Data en forma? Evidentemente, cada organización es distinta y las necesidades especificas pueden variar, sin embargo, algunas de estas necesidades se repiten y son dignas de considerar, dividiéndose en dos importantes rubros: • Personal • Recursos Informáticos

Personal Frecuentemente las organizaciones tienden a catalogar el Big Data como un proyecto del área Informática, lo cual muchas veces desencadena poca colaboración del usuario y dueño de la información. Por el contrario, un equipo de Big Data sin cercanía con el área Informática, puede desencadenar que estos no tengan los recursos informáticos en tiempo y forma para tener una implementación que avance de manera tersa. Lo ideal, es conformar un equipo multidisciplinario que combine personal del área informática con personal proveniente del equipo dueño de la información (o usuarios de esta), todo esto bajo el liderazgo de un científico de datos. Debe tenerse un aspecto muy claro. Un Big Data se implementa para ser permanente, por lo tanto, es necesario designar un equipo de personas que tengan como funciones el manejo y administración del proyecto de manera permanente. Este equipo, evidentemente podrá ser cos-

32


toso para la operación de la organización, por la necesidad de invertir recursos relevantes en un proceso a largo plazo. Sin embargo, es en la conformación de este equipo donde mucho del éxito del proyecto de implementación tendrá su base. Una vez conformado el equipo, es necesaria capacitación general (en la que entiendan todos los alcances y partes del proyecto) y especifica (donde cada uno sea entrenado en las funciones que va a realizar y herramientas que va a utilizar) Recursos Informáticos Uno de los factores importantes de la implementación de cualquier proyecto en una organización deberá ser que este proceso nunca interfiera con la operación. La implementación de un proyecto de Big Data no debería impactar de ninguna manera el rendimiento de las bases de datos donde obtenga información. Lo ideal sería realizar una extracción de información de las bases de datos productivas para moverlo a un ambiente especialmente diseñado para el Big Data. De esta manera, se evitaría impactos en el rendimiento de las bases productivas, así como reducir los accesos no autorizados a las mismas. Esta extracción, deberá ser periódica, y la definición del periodo deberá ser basada en un análisis que se haga de las características y necesidades de la compañía. Sin embargo, esto puede tener un alto costo en cuestiones de almacenamiento, pues en muchas implementaciones de Big Data, el espacio necesario para la implementación es tres veces el espacio que usan las bases de datos operativas.

Es importante recordar que estas necesidades de Almacenamiento, también conllevan aumentar las necesidades de respaldo para estos datos. Es importante considerar la decisión de donde se realizará el almacenamiento y procesamiento de los datos. La compañía podría afrontar la inversión de tener los equipos informáticos necesarios en sitio o buscar una implementación en la nube. Ambas alternativas tienen sus pros y contras, los cuales considero deben ser motivo de un artículo especifico más adelante. Con respecto a la capacidad de procesamiento necesaria para un proyecto así, es muy difícil estimarlo de manera general, pues dependerá del uso y diseño de la implementación. Por último Es muy importante entender que una implementación de Big Data, es un traje a la medida de una compañía u organización, y por tanto muchos aspectos de la misma deben ser analizados por expertos internos con conocimiento amplio de la organización y externos con conocimientos de Big Data. Pero también es cierto, que un proyecto así puede realizarse de manera incremental con iteraciones que tengan objetivos claros. Pues, inclusive las más grandes edificaciones de la antigüedad se fueron construyendo ladrillo a ladrillo

El mundo de los datos

33


Construir un Big data

es cómo escribir el diario de mi vida Alberto Martínez Hinojos

Hace algunos meses, revisando las notas

de mi diario personal, el cual comencé a escribir desde muy joven, comencé a revivir importantes anécdotas de mi vida, muchas de ellas muy agradables y otras más no tanto; las hice pensando que en algún tiempo esa información tendría valor para mi y mi familia. Revisándolas desde el principio recordé algunos lugares y fechas cómo, por ejemplo: lo dramático de mi entrada a la secundaria, ya que estudié en un internado, fotos de mis primeros compañeros, lo extraño que me sentía en ese tipo de escuela; un incidente relevante, fue mi participación en los talleres de agropecuaria, toda una extraña aventura, para un adolescente de ciudad, matando conejos, castrando puercos y vacunando gallinas. Durante la preparatoria tuve mi primer recital de piano ante toda la escuela, me moría de los nervios, aún recuerdo que el final que me salió fatal. Lamentablemente no pude

34

descifrar algunos otros registros por que el tiempo borró parte de mis notas y los insectos se comieron otra parte, creo que los descuide. Por más que quise leerlos no me fue posible recuperarlos y sólo queda información incompleta e imprecisa. En esa misma época me doy cuenta qué las notas ya eran más espaciadas, una cada mes o más, seguramente les dedique poco tiempo a los registros personales y más a otras actividades propias de mí juventud. Al leerlas, me doy cuenta de que la narrativa era más de registrar mis aventuras y travesuras, eran registros de fechas relevantes cómo: resultados de exámenes, apenas y pasé matemáticas; relaciones entre parejas, mi novia me dio el primer beso; reflexiones de mi vida; situaciones de familia cómo: “No tengo dinero”, “Me rompí un tobillo”, “Reprobé una materia”, “Me rasuré el bigote por primera vez, para la foto de la cartilla militar”,


“Que voy a a estudiar”, y muchos temas más. Ahora, en mi etapa como profesional y trabajando con grandes bases de datos, me pongo a pensar que tanto valor tienen los datos registrados, como si fueran un diario, los datos narran historias; seguramente, para algunos se tratará de buenas reseñas y para otros no tanto, para algunos las noticias llegaran justo a tiempo, para otros demasiado tarde, para unos todo será claro y para otros habrá datos imprecisos, con información faltante. Hace algunos años presenté los resultados de un sistema de información para el gobierno de Chihuahua, al ver la primera noticia de nuestra presentación, salté impresionado, al ver lo que otros compañeros no habían visto, habíamos filtrado más de 500 notas referentes a un tema, e inmediatamente realicé algunas llamadas para mencionar el hallazgo y lo que afectaba el dato en ese momento. En este universo de información ¿Qué es lo que realmente debemos guardar? ¿Lo tenemos en el momento correcto? ¿Tenemos la fuente correcta? ¿Existe la correcta correlación entre todas nuestras fuentes de información de tal forma que nuestro panorama es más claro o más bien obscuro? Regresemos a nuestro BIG DATA personal. Uno de los datos imposibles de olvidar, y qué ni se te olvide, es el cumpleaños de tu novia o esposa, un dato tan simple te puede costar la vida. Desde que trabajo con sistemas de información y con grandes volúmenes de datos siempre los he visto cómo escribir en un diario, siempre guardando lo que realmente vale la pena siempre buscando guardar ese dato valioso que te salve la vida.

¿Cuáles es la información ideal para mi o mi empresa? A continuación, destacare algunos elementos que podrían apoyar a nuestro BIG DATA sin importar el tamaño. Volumen de información: Cómo director de sistemas para una empresa de monitoreo de medios, inicialmente capturábamos diariamente tres mil notas, las cuales eran muchas para aquel tiempo, especialmente se trataba de notas para el análisis; notas informativas, para generar estadísticas y mantener un archivo histórico. Después de tener cientos de notas, quizás miles sobre un tema, resultaba que no teníamos suficiente cobertura y que estaban mal clasificadas, ya que el motor de selección de notas no era el adecuado. Como una medida para mejor, se decidió aumentar el volumen incluyendo notas de otros medios para cubrir la demanda y se perfeccionaron los filtros para mejorar la calidad de notas. Para cubrir la exigencia del cliente se hicieron ajustes aumentando de tres mil notas, luego a 6 mil notas, llegando a ser entre 8 a 10 mil notas diarias. Reflexionando ¿realmente el volumen de información “BIG DATA” es la solución para estar bien informados? Cómo resumen de este capítulo puedo comentar que existen hoy en día los medios para generar, procesar y almacenar un gran volumen de información, pero ¿Es la velocidad correcta o el momento oportuno para obtenerla?, ¿Cubre nuestra necesidad en tiempo y forma? ¡Continuará!

El mundo de los datos

35


El camino a la Data Sciencie (Parte 1)

Alejandro Chimal García

El término Data Science es relativamente

nuevo, hasta hace seis años no se escuchaba tal definición. Hace poco más de veinte años, el término de moda entre los expertos analistas de datos era Minero de Datos, en su momento fue un boom el descubrimiento de patrones en datos. Sin lugar a duda, esto hace que nos remontemos a un caso teórico muy mencionado en toda la literatura del tema: el mito de los pañales-cerveza (Business Intelligence, 2009). Al inicio del siglo XXI, éste caso fue bandera de Data Mining, pero ¿realmente existió tal análisis? Por muchos años este estandarte fue la justificación del uso de la minería de datos. En aquel entonces, al no estar publicados artículos del tema, salvo las publicaciones extranjeras especializadas, todo mundo lo creyó.

36

Desde el enfoque del aprendizaje cognitivo ¿era esto posible? Surgen las siguientes cuestiones: Se habla del qué se hizo, pero no del cómo se llegó a tal resultado. Nunca se menciona el algoritmo que se utilizó. Jamás se especifican aspectos importantes que en una nota técnica se podría incorporar: 1.Periodo de análisis. 2.Universo del mercado: total de transacciones, ticket promedio de compra, etc. 3.Tipo de análisis, si existía una hipótesis previa o fue exploratorio. 4.Tipo de empresa para la que se realizó el estudio. ¿Qué porcentaje de participación en el total de ventas correspondía la venta de pañales y de cerveza? Y en forma conjunta, del total


En realidad, nunca sabremos si esto que se comenta fue cierto y mucho menos en qué condiciones fueron identificados tales los hallazgos. Lo anterior da pie a una interrogante más ¿qué de cierto hay en la minería de datos? Desde el punto de vista de los negocios, ¿qué influencia tiene Data Mining? ¿Es en realidad un método que ayude a aportar algo significativo en lo que las empresas tienen por objetivo? Las empresas persiguen un fin: siempre incrementar ingresos.

de transacciones que incluyen pañales-cerveza, ¿qué porcentaje representa? Una vez identificado el patrón de comportamiento de ventas ¿qué estrategia de marketing se llevó a cabo?, ¿cuáles fueron los indicadores clave para su seguimiento en su implementación? ¿Cuál es la conclusión final? Hoy, en 2019, al seguir investigando sobre el tema nunca he tenido respuesta a tales interrogantes. En el año de 2013 surgió un nuevo caso en Estados Unidos: un padre de familia recibe correspondencia con publicidad de artículos para bebé. El padre enojado con el corresponsal, le reclama que es una equivocación. Al final, resulta que la hija estaba embarazada. ¿Cómo se enteraron? La respuesta es: Data Mining. Como en el caso pañales-cerveza, para no mencionar empresas por ahora, se trata de casos de éxito, esos garbanzos de a libra.

A la batería de preguntas anteriores sugieren nuevas preguntas: •¿Data Mining ayuda a alcanzar estos objetivos? •¿Los temas optimización matemática caben dentro de Data Mining? •¿El análisis de costo-beneficio entran caben dentro del tema? •¿El área de la Investigación de Operaciones se barca en el Data Mining? •¿Qué hay modelos econométricos? •Un experto en Data Mining ¿puede crear pronósticos econométricos? ¿Cuáles son los requisitos? •¿Qué papel juegan el área de sistemas? ¿De verdad Data Mining abarca estos temas? Entonces para un experto de análisis de datos ¿el Data Mining es suficiente? Bibliografía Business Intelligence. (Octubre de 2009). Ejemplo DSS: Pañales y cervezas. Obtenido de Business Intelligence fácil: https:// www.businessintelligence.info/dss/ejemplo-data-mining-panales-y-cerveza.html Reinosa, E. J. (2012). Base de Datos. Medico: Alfaomega. El mundo de los datos

37


Sobre la importancia

del análisis de datos estructurados en un modelo de Data Warehouse Ernesto Ulianov Reyes Romero

Las organizaciones usan los datos desde

sus sistemas operacionales para atender sus necesidades de información. Algunas proporcionan acceso directo a la información contenida dentro de sus aplicaciones. Otras, extraen datos desde sus bases de datos operacionales para combinarlos de forma estructurada y no estructurada, en su intento por atender a los usuarios en sus necesidades de información. Hoy día, las diferentes organizaciones invierten en el desarrollo de sistemas de información ejecutiva al integrar un proyecto de Data Warehouse (DW), lo que sigue siendo una de las mejores formas de contar con indicadores para la toma de decisiones, porque provee un ambiente para que las instituciones gubernamentales y empresas hagan un mejor uso de la información para la toma de decisiones. Nos enfocaremos en mostrar los conceptos, una propuesta de un modelo multidi-

38

mensional y las consideraciones a tomar para planear e instrumentar un Data Warehouse que cumpla con las expectativas de almacenar y explotar grandes volúmenes de información para su análisis. La estructura del modelo se puede extender a cualquier tipo de información y organización que requiera implantar un modelo eficiente como Bodegas de Datos para hacer mucho más claro el modelo a los usuarios finales y, además, como mecanismo para agilizar acceso a la información. Las organizaciones tienen que aprovechar sus recursos y diversas fuentes para obtener la información de valor, a través del cumulo de datos estructurados que se generan de la operación diaria, basados en una arquitectura que almacene de forma estructurada los datos y una estrategia de análisis, para obtener los indicadores por medio de lo que se denomina Bussines Intelligence (BI) y Data Mining (DM).


En un estudio realizado en 1994 por el grupo META acerca de los administradores de tecnología de la información en las empresas Fortune 2000 [HARJNDER, 1996], se encontró que más del 90% planeaba instrumentar un Data Warehouse entre 1994 y 1996. En 1996 el 90% de las grandes corporaciones consideraba adoptar la tecnología del Data Warehouse. En un estudio anual de 1995 de los presidentes ejecutivos y a fin de identificar los 10 aspectos principales de administración para los ejecutivos de sistemas de información, CSC Partners listó los siguientes 3 aspectos como los más prioritarios, que se solventan mediante la tecnología del Data Warehouse: 1. Igualar las metas de los sistemas de información y de las organizaciones. 2. Instituir sistemas de información interrelacionados. 3. Organizar y utilizar datos. En nuestros días, Data Warehouse puede ser definido de diferentes formas. De acuerdo con W. H. Inmon, quien es considerado como el padre del Data Warehouse: “Un Data Warehouse es un conjunto de datos integrados orientados a una materia, que varían en el tiempo y que no son transitorios, los cuales soportan el proceso de toma de decisiones de una administración”. Para algunas organizaciones el Data Warehouse es una arquitectura, para otras, es un depósito semánticamente consistente de datos (separados y que no interfieren con los sistemas operativos y de producción existentes) que atienden por completo los diferentes requerimientos de acceso y reporte de datos. Para algunos otros, es un

proceso continuo que mezcla los datos de diversas fuentes heterogéneas, incluyendo datos históricos y adquiridos para soportar la constante necesidad de consultas estructuradas, reportes analíticos y soporte de decisiones. Así como hay gran divergencia para establecer una definición precisa de un Data Warehouse, hay un claro consenso de que esta tecnología es un ingrediente esencial en el conjunto de soluciones para el soporte de decisiones dentro de instituciones gubernamentales y empresas. Con frecuencia, las áreas de sistemas han construido un recurso de acceso de último usuario para navegar, reportar y unirse a un Sistema de Soporte de Decisiones (SSD). Otros han transferido información de sus bases de datos operacionales a una base de datos histórica y han sumado herramientas de análisis, en muchos casos explotando directamente dichas bases de datos. Lo cierto es que, en cualquier compañía, el ideal de un ejecutivo es tener la información disponible en todo momento para tomar decisiones, como por ejemplo el estatus financiero y/o de operación de sus empresas en el momento justo que lo consulta. Todo negocio en movimiento no hace tan factible y fácil tener a través del Data Warehousing (almacenamiento de datos) la información, pero entre mas avances tecnológicos se tienen es posible trabajar para lograr que un Data Warehouse alcance su verdadero potencial. Varios de los problemas fundamentales de un Data Warehouse o retos a vencer son los siguientes: El mundo de los datos

39


1. La integración de datos provenientes de diversas fuentes de información y/o sistemas como son: Sistema de planificación de recursos empresariales (ERP), Archivos Planos, Bases de Datos Relacionales, Metadatos y Data Mart existentes. 2. Calidad de información: limpiar y refinar (depurar). 3.Condensación y adición de datos. 4. Sincronización de las fuentes con el Data Warehouse para asegurar una actualización constante del Data Warehouse conforme se crean nuevos datos dentro de las fuentes. 5. Retroalimentación para mantener la integridad de la información. 6. Los reprocesos de información. 7. Aspectos de desempeño relacionados con compartir el mismo hardware y plataforma RDBMS (Relational Data Base Management System), tales como la base de datos y las herramientas del Data Warehouse. 8. Administración de Metadatos y espacios físicos de almacenamiento. Un Data Warehouse es diferente de las bases de datos operacionales que soportan las aplicaciones de un Procesamiento de Transacción en Línea (OLTP, On-Line Transaction Procesing). El Data Warehouse debe cumplir con los siguientes puntos: 1. Estar orientado a una materia. 2. Administrar grandes cantidades de información. 3. Guardar información en diversos medios de almacenamiento. 4. Comprender múltiples versiones de un esquema de base de datos. 5. Condensar y agregar información 6. Integrar y asociar información de muchas fuentes de información.

40

Por lo anterior, la tarea principal es crear un modelo de Data Warehouse para almacenar de forma estructurado todos los datos históricos y los que se generan diariamente, fundamentado en los siguientes pasos: 1. Establecer el Modelo del Data Warehouse. 2. El Desarrollo Funcional del Data Warehouse. 3. Ajustes del Modelo de Data Warehouse. 4. Análisis mediante Bussines Intelligence. Lo primero que se debe establecer son los antecedentes, la problemática y necesidades por las cuales se desarrolla un nuevo modelo para almacenar o migrar la información a una arquitectura de Data Warehouse, exponiendo el propósito y los objetivos a alcanzar, justificando el porqué del desarrollo mediante el uso de una metodología, pudiendo ser una tecnología propietaria como son las de IBM, ORACLE, SAS, TERADATA, etc. Por lo que es fundamental establecer la metodología a ocupar y el marco contextual del que se parte para realizar el proyecto. Es importante tomar en cuenta que para la migración de datos, se requiere establecer un proceso que se ejecute una vez que el nuevo sistema de información pase las pruebas finales, con el fin de tomar los datos de las aplicaciones anteriores y convertirlos a las estructuras definidas en la nueva aplicación antes de iniciar su operación. Lo segundo que se debe considerar es el marco conceptual para el diseño del modelo, el marco teórico del que se parte para desarrollar el modelo, los procesos y métodos de carga; diseñando los procesos de carga diaria de datos de las diferentes fuentes de información hacia el Data Warehouse, con-


siderado cada parte del modelo (Interfaz, Dimensiones , Facts o Tablas de Hechos, Agregaciones , Sumarizada ), los estándares que se consideraron para el desarrollo funcional del modelo, la estrategia operativa que se utilizará y los aspectos que se tomaran en cuenta para el cálculo de los indicadores. Como tercer paso es muy importante considerar los ajustes que se realizaran al modelo, partiendo de los requerimientos de ajuste a nivel de detalle de los datos y la frecuencia de carga, elaborando un plan de acción para hacer los ajustes sobre el diseño de la base de datos, en los procesos de extracción, transformación y carga; así como en la generación de estadísticas con el objeto de considerar las mejores prácticas en el ajuste de los espacios en disco. Por último, debe establecerse la forma en que se va a tener acceso de datos, ya sea a través de herramientas OLAP (On Line Analytical Processing), encaminadas al análisis de grandes cantidades de datos y que proporcionan respuestas rápidas y complejas, para presentarlas ya sea a través de en un portal bajo un esquema de seguridad y

de permisos de acceso y/o haciendo uso de las herramientas Ad-Hoc . Es importante establecer el alcance de los reportes que se publicarán partiendo del análisis de indicadores a obtener. Es importante considerar que el Análisis de Datos es la ciencia que examina datos en bruto con el propósito de sacar conclusiones sobre la información, por lo tanto, es usado en varias industrias para permitir que las compañías y las organizaciones tomen mejores decisiones y también es usado en las ciencias para verificar o reprobar modelos o teorías existentes. El análisis de datos se distingue de la extracción de datos por su alcance, su propósito y su enfoque sobre el análisis. Los extractores de datos clasifican inmensos conjuntos de datos usando (BI, Data Mining, OLAP, Big Data, AI) para identificar patrones no descubiertos y establecer relaciones escondidas. El análisis de datos se centra en la inferencia, el proceso de derivar una conclusión basándose en el método utilizado para analizar los datos estructurados y no estructurados. En la siguiente grafica se esquematiza el valor para la organización vs la complejidad.

El mundo de los datos

41


El uso de la Inteligencia Artificial (AI) como una herramienta es una opción para establecer un Modelo Predictivo, ya que permite realizar relaciones complejas o modelos desde un archivo de datos. Lo anterior, basado en que una de las principales diferencias entre los modelos estadísticos y los modelos de inteligencia artificial, es cómo miden su error. Los primeros miden el error relativo tal como el modelo “adapta” los datos, mientras que los segundos, miden el error relativo a los datos aún invisibles (Error predictivo). Además, los modelos estadísticos tienen dificultades al dar datos contradictorios o desordenados, es decir, los datos deben estar limpios y deben existir las correlaciones consistentes. Viceversa, las herramientas de inteligencia artificial buscan “generalizar” relaciones para proporcionar el resultado más probable. Cabe mencionar que el modelado abductivo (argumento en que la premisa mayor es evidente y la menor probable, pero más creíble que la conclusión) usa funciones polinómicas para describir las relaciones al interior de los datos. Esta metodología facilita una variable de entrada para ser ponderado más de una vez. Adicional, sólo se incluyen los términos que significativamente contribuyen al rendimiento.

42

Los modelos predictivos pueden usarse para el soporte de decisión o presentando subrutinas para desarrollar aplicaciones predictivas a clientes. Las capacidades de los modelos predictivos pueden mejorarse si los archivos de datos se mejoran con tantas variables de entrada como sea posible. En los siguientes números, detallaremos cada parte iniciando con explicar el Modelo del Data Warehouse y nos centraremos en aterrizarlo para una empresa de Telecomunicaciones para lograr la comprensión y la importancia del manejo de los datos estructurados, su explotación y obtención de indicadores que permitan analizar el comportamiento de la información que sirva para la toma de decisiones. Bibliografía. •BERTHOLD, M.; Hand, D.J. Intelligent Data Analysis, An Introduction. Springer 1999. •COREY, Michael J., Abbey, Michael. Oracle Data Warehousing. Oracle Press. Osborne/Mc Graw-Hill. 1997. •COREY, Michael J. & Michael Abbey. Oracle Data Warehousing. Computer World 1993 - pág. 218. •DUNHAM, M.H. Data Mining. Introductory and Advanced Topics. Prentice Hall, 2003. •EDWARDS, John. Building the Right Data Mart. Oracle Magazine. U.S. Marzo/Abril 1998. •HARJNDER, S. Gil y Prakash C. Rao. La integración de la información para la mejor toma de decisiones data warehousing. Prentice Hall Hispanoamérica, 1996, México. •INMON, W.H. et al. Managing the data warehouse, John Wiley, 1997. •THURAISINGHAM, B. Data Mining. Technologies, Techniques, Tools, and Trends, CRC Press, 1999.


Reseña de Alg0r1tmo

de Gustavo Alva. 364 p. Patricia Quintero Soto.

“U

na de las cosas más fascinantes de los programadores es que no puedes saber si están trabajando o no sólo con mirarlos. A menudo están sentados aparentemente tomando café, chismorreando o mirando a las nubes. Sin embargo, es posible que estén poniendo en orden todas las ideas individuales y sin relación que pululan por su mente” -- Charles M. Strauss.

Alg0r1tmo es una novela de Gustavo Alva. El título encierra mucho de verdad: pues significa “seguir de manera sistematizada una serie de instrucciones para solucionar un problema”. El autor no solo se refiere a una cuestión de informática, también aborda un embrollo complejo lleno de misterio y acertijos. Se trata de una novela que tiene de todo: acción, intriga, amor, diferentes escenarios, suspenso, muerte… Y así, nos percatamos cómo una noticia puede trastocarlo todo: el asesinato de Zoom, un experto en programas cibernéticos contratado por una poderosa empresa llamada Mcbride & Simmons, la cual maneja un sistema financiero a nivel mundial con operaciones en 150 países. Su mejor amigo Javier, -que también es un destacado ingeniero en sistemas- es llamado por el presidente de la compañía para rescatar la información que es asediada por muchos y que está dispersa por el mundo a través de

personas especializadas en redes computacionales. Los códigos corren el peligro de caer en manos equivocadas. Quienes poseen parte de la información, fueron escogidos por Zoom como una forma de crear candados y que el sistema no cayera en cualquiera. Javier que sabe mucho de Zoom, resulta una pieza clave, ya que, con su conocimiento, inteligencia e intuición, tiene la posibilidad de resolver ese gran reto. La tarea de Javier será juntar todos los códigos para que el emporio bancario tenga el control financiero y no se presente un colapso económico con repercusiones catastróficas. Si logra el objetivo ganará una cuantiosa fortuna. Más trascendental para él, será descubrir quién mató a su amigo y así, hacer justicia. Nunca imaginará que esa obsesión va a provocar su persecución. Su vida y la de muEl mundo de los datos

43


chos correrán peligro. Seres como Mariana, a quien amó profundamente y que reencuentra en el funeral de su amigo, estará involucrada como una parte vertebral. Esto lo hace recordar su historia inconclusa con esa bella mujer. Su alto desempeño como programador le da éxito profesional en el mundo, pero será el factor que implicará que ella se aleje para no renunciar a su proyecto personal. Su historial amoroso va más allá de Mariana, la seductora mujer del perfume. También estará Sara la española, que siempre resultará lastimada por la indecisión amorosa de Javier. La enigmática y activista Neda, una persa dispuesta a dar la vida por su país. Helena la colombiana; extremadamente atractiva, fuerte de carácter e inteligente. Eli, cuya forma de vestir y su físico se relacionará a una modelo. Cómo olvidar la tibieza de los labios de Sasha, que lo salvó de un atentado en Rusia prodigándole cuidados. En la trama aparecen 20 personajes claves con su sobrenombre y el lugar donde viven. Cada uno tiene por decirlo así, una parte del rompecabezas, verdaderos eruditos en software. El autor le dedica un capítulo a cada uno de ellos. Algunos incluso amigos y amigas de Javier y de José María (Zoom), por lo que la historia incluye encuentros llenos de amistad, nostalgia y misterio en diferentes partes del mundo. Una comida, un olor, una edificación, un restaurante, un hecho histórico te trasladan a esa atmósfera y te llevan por Madrid, la Ciudad de México, Paris, Cancún, Ámsterdam, Indonesia o China. Javier se relaciona con personajes muy originales como Cybercóatl, que apoya a la ni-

44

ñez mexicana. IcebladeZ, un chico de tan solo 15 años. Agustina, chef sobresaliente en la elaboración de los más deliciosos platillos. El mismo JimClev que no solo tenía una parte de la red, sino incluso buscará reconciliar a Mariana y Javier al obligarlos a buscar juntos la parte del código en Alemania… Alguien que va a jugar un papel importante en esta vivencia será Kulvir, fiel escudero de Javier, quien de cerca o lejos, le ayudará a descifrar, buscar, deducir los lugares e individuos que posiblemente poseen los códigos. Con una participación menor pero significativa está Miguel García, uno de sus guardaespaldas que va a sufrir en carne propia ataques, disparos. El nudo de la novela está casi al final, y aunque como lector te pones en el lugar de Javier, buscas deducir quién es el culpable. Todo indica que los antagónicos vienen de la misma empresa, por intereses que se dividen o contrapuntean. Efectivamente, la parte medular está en los miembros del sistema financiero, no obstante; la historia da un giro radical, lo que constituye la clave de todo ese embrollo y que no se mencionará para que el lector la descubra. Lo cierto es que el desamor, la desilusión, los malos entendidos, las envidias salen a relucir. Los personajes malos terminarán presos o muertos. En el epílogo se aborda el destino de los protagónicos. Los que portan las mejores intenciones y principios sobreviven, digamos que tienen un final feliz. Así que, si eres un erudito en software, puedes experimentar tan intensa historia a un lado de tu computadora y hacer este viaje imaginario por Alg0r1tmo.



Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.