Revista Seis Grados Data

Page 1



Índice Directorio Pág. 03

Editorial

Pág. 04

Los Articulistas Pág. 05

¿Qué debemos entender por Calidad de Datos (Data Quality)? Dra. Diana Jazmín Meza Maldonado

Causalidad, Ciencia de Datos y la Evaluación de Impacto. Emmanuel Méndez Rolón.

Pág. 08

Pág. 13

¿Cómo darles valor a los datos? Alicia Cruz Martínez.

Pág. 17

El mundo de los datos Noviembre 2021

1


Índice Datos. La Historia de un error de dimensionamiento. Oscar Gustavo Alva Nieto

Industria 4.0 Ventajas y Desventajas (Última. parte). Alberto Martínez Hinojos

El Análisis Exploratorio de Datos (EDA -Primera Entrega). Armando Jerónimo Cano

2

Pág. 20

Pág. 23

Pág. 27


Directorio Seis Grados Data Es una revista digital gratuita de publicación cuatrimestral a través de internet Año 2, número 5 Fecha de elaboración octubre de 2021 Director Ernesto Armando Jerónimo Cano Diseño Editorial José Alberto González Garduño Directora Comercial Verónica López Martínez Comité Editorial Angélica Castañeda Sánchez Armando Jerónimo Cano Oscar Gustavo Alva Nieto Laura Dávila Lárraga Salvador García Ramírez Diana Jazmín Meza Maldonado Publicidad Verónica López Martínez vlopez@seisgradosdata.com Distribución y contactos www.seisgradosdata.com Facebook: seis grados data Correos: seisgradosdata@hotmail.com revista@seisgradosdata.com Teléfono: 55 7353 2667 Registro en trámite Revista Seis Grados Data, Número de Certificado de reserva 04-2019-102213133700-01. Los artículos, dibujos y fotografías publicados en la presente edición son responsabilidad de exclusiva de sus autores.

El mundo de los datos Noviembre 2021

3


Editorial

Poder llegar al punto en que los datos son

el nuevo oro negro del siglo XXI no es una tarea fácil. Transformar el crudo en aceites, gasolinas o plásticos requieren de procesos e inversiones cuantiosas. De manera análoga el transformar los datos que se obtienen de la operación diaria, aquellos que se encuentran en internet, en fuentes de datos abiertos o incluso en mercados de datos requieren de una suma de acciones de depuración antes de su integración y su posterior análisis. En lo que va de este siglo con el desarrollo de las Tecnologías de la información y en particular con el auge del internet la abundancia de los datos se está volviendo inconmensurable; todas nuestras operaciones dejan una huella de datos que permiten identificar experiencias de usuarios (UX), gustos, hábitos, sentimientos. La información está ahí solo hay que saber extraerla para su aprovechamiento. Pero para que esto suceda es necesario identificar qué datos son úti-

4

José Alberto G G 202121

les de acuerdo con el propósito de estudio; extraerlos, “limpiarlos” y luego, para poder analizarlos, es necesario ordenarlos y acomodarlos de una forma u otra para ser interpretados y entonces si poder hacer uso de las poderosas herramientas de análisis y con ello darles el valor a nuestros datos. Cómo bien se plasma en el artículo que sobre la calidad de los datos que se presenta en este número, es necesario, primero, realizar un trabajo de diagnóstico que de idea de cuales son las condiciones que presentan los datos a los que nos enfrentamos, antes de siquiera poder determinar que se cumplen con las 10 características de la calidad de los datos. Incluso antes de iniciar este trabajo de revisión es necesario conocer cuáles son las reglas que se aplican en la empresa, saber si existen reglas escritas de como se manejan los datos, como se documentan sus correcciones, conocer que área es la dueña de la información y por tanto la responsable de dictar las reglas de apli-


José Alberto G G 202121

cación en caso en que se presenta alguna situación que requiere tomar una decisión sobre qué hacer en caso de, el camino de las empresas data driven es conocer e implementar el gobierno de datos.

contemos con los recursos necesarios para su almacenamiento. Ya sabemos que los costos de almacenamiento han bajado, pero al final del día contar con recursos ociosos siempre será costoso.

La calidad de los datos es una diciplina que debemos conocer y aplicar antes de siquiera pensar en modelos que resuelven problemas. El dato es la pieza fundamental de nuestro trabajo y por ello debemos aprender a valorarlo comenzando desde su obtención, su tratamiento, su almacenamiento y su eliminación. Cada acción que llevemos a cabo debe estar prevista con anticipación de tal manera no haya dudas sobre como debemos tratar nuestros datos y que previsiones debemos tener al almacenarlos. Una planeación adecuada permite conocer cómo funciona nuestra empresa u organización, cuáles son las fuentes de datos, que tanto crecen en una semana, en un mes, en un año e incluso que tanto pueden crecer en el mediano plazo de manera que siempre

En este número de la revista digital Seis Grados Datos nos dimos a la tarea de presentar un primer esbozo de la importancia que tienen los datos y que pasos hay que dar para hacer que estos en verdad sean el nuevo oro negro de la empresa. La discusión está abierta y las opiniones son bien recibidas para conocer más sobre cómo darles valor a los datos y transformarlos en el nuevo oro negro del siglo XXI

El mundo de los datos Noviembre 2021

5


Los articulistas Diana Jazmín Meza Maldonado Doctora en Dirección de Organizaciones por la Universidad del Distrito Federal. Maestría en Administración Pública por la Universidad del Valle de México. Especialista en Política y Gestión del Desarrollo Social por la FLACSO México y Especialista en Gestión Pública y Gobierno por la Universidad del Valle de México. Licenciatura en Derecho por la Universidad Autónoma de Nayarit. Ha trabajado como Subdirectora de Control de la Información en los Programas Sociales Progresa-Oportunidades-Prospera y actualmente en la Coordinación Nacional de Becas para el Bienestar Benito Juárez de la SEP. Autora del artículo “Análisis del programa Prospera sobre la disminución de la pobreza en México entre 1997-2017” Correo: diana_mezam@hotmail.com

Alicia Cruz Martínez Maestra en Política y Gestión del Desarrollo Social por la Facultad Latinoamericana de Ciencias Sociales FLACSO Sede Académica de México, cuenta también con una Especialidad en Política y Gestión del Desarrollo Social por FLACSO, es Licenciada en Matemáticas Aplicadas y Computación por la Universidad Nacional Autónoma de México, cuenta con amplia

6

experiencia en el manejo de información, administración de Bases de Datos y proyectos de Tecnología de la Información. Actualmente se desempeña como Directora de Servicios de Cómputo Central en una Institución del Gobierno Federal en la Ciudad de México. Correo: aliciacruzm@gmail.com Emmanuel Méndez Rolón Es Licenciado en Economía por la Universidad de Guanajuato; Maestro en Economía Aplicada por el Instituto Tecnológico Autónomo de México y Maestro en Datos, Economía y Políticas de Desarrollo por el Massachusetts Institute of Technology (MIT). Trabajó como Director General Adjunto de Análisis Delictivo en el Comisionado Nacional de Seguridad y como Asesor de análisis de información socioeconómica en la Coordinación Nacional del Programa Oportunidades-PROSPERA. Se ha especializado en el uso de técnicas econométricas para la evaluación de impacto en el ámbito del desarrollo económico y la seguridad pública. Actualmente, es el Coordinador General de Soluciones en Inteligencia y Estrategia (SIE), Sociedad Civil que fomenta el uso de datos como herramientas para la toma de decisiones basadas en la evidencia en los sectores públicos y privados.


Los articulistas Oscar Gustavo Alva Nieto Ing. en Cibernética y Sistemas Computacionales por la Universidad La Salle Pachuca, Maestro en Ciencias en Administración de Tecnología por la Universidad Tecnológica de Delft y Especialista en Política Pública por la FLACSO México. Ha sido Director General Adjunto de Informática y Desarrollo Tecnológico en Oportunidades/PROSPERA y manejado diversos proyectos de infraestructura en México. Co-autor del artículo: “From Invention to Large-scale Diffusion in Five High-tech Industries” premiado como “Best Paper” por la “18th International Conference on Management of Technology” en Miami, USA. Autor de dos novelas: “Alg0r1tmo” y “Ángel” Twiter: @alg0r1tmo Correo: gus.alva@gmail.com Alberto Martínez Hinojos Egresado de la carrera “Sistemas de Computación Administrativa” por la Universidad del Valle de México, con más de 30 años de experiencia en el Área de Sistemas de Información, Tecnologías de la Información y Dirección de Proyectos (PMO). Más de 10 años en el área educativa cómo Profesor de TI a nivel Secundaria, Preparatoria, Universidad y Maestría. Fundador y Cofundador de empresas cómo “High Quaity English”, “Bu-

siness Intelligence & Tecnology”, “Artesanías Culinarias de México” y “Sistema Educativo para el Emprendimiento”, Actualmente colabora con instituciones para la enseñanza y capacitación para el emprendimiento y mejora de negocios. Ernesto Armando Jerónimo Cano Es Lic. en Economía por la Universidad Autónoma Metropolitana; Mtro. en Sistemas de Información por la Fundación Arturo Rosenblueth; cuenta con una especialidad en Política y Gestión del Desarrollo Social por el FLACSO. Ha trabajado en la Dirección de Sistemas de Información en Progresa-Oportunidades-Prospera diseñando e integrando indicadores bajo de la Metodología del Marco Lógico; ha publicado diversos artículos relacionados con la medición del indicador de economía del conocimiento. Correo: ajeronimo@seisgradosdata.com

El mundo de los datos Noviembre 2021

7


Qué debemos entender por Calidad de Datos (Data Quality)

Dra. Diana Jazmín Meza Maldonado

José Alberto G. G. (2021)

El uso de los datos en las organizaciones

o empresas es de gran valía y agregan valor en su funcionamiento, desarrollo y operación. Para ello, se requiere que los datos sean de buena calidad permitiendo desarrollar estrategias operativas eficaces, de marketing, financieras, desarrollo de nuevos productos, entre otras cosas, es decir, es un elemento indispensable para la toma de decisiones basada en datos de alta calidad. Este artículo tiene como finalidad dar respuesta a las siguientes interrogantes ¿Qué es calidad de datos? ¿Cómo darles calidad a los datos? ¿Cuáles son los beneficios de la calidad de datos? ¿Dónde se almacenan los datos? Peter Ferdinand Drucker, el mayor filósofo de la administración del siglo XX señaló, “Lo que se mide, se controla” agregando a esta frase, se puede decir que, para hacer una buena medición los datos deben ser veraces, confiables, coherentes, oportunos, exactos y completos, en tres palabras: “calidad de datos”.

8

Calidad de Datos ¿Qué es la calidad de datos?, de acuerdo a las definiciones de la Real Academia Española (RAE) calidad significa “Conjunto de propiedades inherentes a algo, que permite juzgar su valor” en tanto que la palabra dato significa “Información sobre algo concreto que permite su conocimiento exacto o sirve para deducir las consecuencias derivadas de un hecho”. Redman, Thomas (2013) define a la calidad de datos como “Calidad de datos se refiere a los procesos, técnicas, algoritmos y operaciones encaminados a mejorar la calidad de los datos existentes en empresas y organismos”. Para International Business Machines (IBM), la calidad de datos ayuda a limpiar y gestionar datos al mismo tiempo que los hace disponibles para toda la organización. Los datos de alta calidad permiten a los sistemas estratégicos integrar toda la información re-


lacionada para proporcionar una visión completa de la organización y las interrelaciones dentro de la misma. La calidad de datos es una característica esencial que determina la confiabilidad en la toma de decisiones. Por su parte, DataOps asegura que la calidad de datos se conserva para cumplir con todos los objetivos de negocio a lo largo de un flujo de datos listos para el negocio. Al implementar una solución de calidad, la organización o empresa puede mejorar la integridad de los datos y obtener el máximo provecho de sus activos informativos. Es decir, las diversas definiciones coinciden en que las empresas u organizaciones no requiere una gran cantidad de datos, lo que necesitan es calidad en los datos que les permita el análisis de información para una acertada toma de decisiones. Según Forbes Insights y el “2016 Global CEO Outlook” de KPMG, el 84 % de los directivos se preocupa por la calidad de los datos que utilizan para obtener business intelligence. Una mala calidad de datos puede salir cara; un estudio asombroso realizado por MIT Sloan apunta que los datos deficientes pueden llegar a costar de un 15 a un 25 % de los ingresos totales (Talend). ¿Cómo darles calidad a datos? Cada organización o empresa de acuerdo con sus necesidades, deberá identificar los aspectos a implementar a fin de contar con una gestión eficaz de los datos, para lograrlo, requerirá de herramientas tecnológicas adecuadas, procesos y personal capacitado. La calidad de datos debe ser responsabilidad de todos los integrantes de las organizaciones o empresas (no solo del personal técnico) por ello, se debe implementar procesos, normas, lineamientos o políticas que

frenen la entrada de datos que no sean de calidad o erróneos. Power Data señala que, mantener la exactitud y la integridad de todos los tipos de datos en toda organización o empresa, es trabajar por su aptitud para cumplir con su propósito en un contexto dado, implica garantizar que cada dato reúne todos los atributos necesarios: • Exactitud • Integridad • Actualización • Relevancia • Coherencia • Confiabilidad • Presentación apropiada • Accesibilidad Menciona 10 puntos para la calidad de los datos afirmando que son una orientación general y que cada organización o empresa debe buscar una fórmula propia basada en los siguientes puntos: 1. Establecer objetivos. El establecimiento de objetivos, qué uso o usos se les va a dar a los datos ahora, o en el futuro, ayuda a establecer un programa de gobierno de datos dentro de un enfoque realista. 2. Herramientas adecuadas. La gestión de la información debe llevarse a cabo teniendo en cuenta el tipo de datos y de empresa. No hay dos empresas iguales ni dos conjuntos de datos idénticos, como tampoco se recogen, mantienen o utilizan de la misma manera. Requerirá de la búsqueda de software y hardware y demás herramientas adecuadas para gestionar la información garantizando la calidad y la protección de los datos.

El mundo de los datos Noviembre 2021

9


3. Analistas adecuados. La tecnología está ligada al negocio, por lo que los usuarios necesitan la aplicación del conocimiento para conseguir un análisis de calidad de los datos. Es así que lograr datos de calidad significa contar con científicos de datos que puedan interpretar los resultados. 4. Actualización. El volumen de datos no deja de aumentar, por lo que hay que estar atentos a ese crecimiento para encontrar soluciones que pueden exigir cambios de sistemas para dar respuesta a necesidades de introducción, almacenamiento y administración de los datos. 5. Anticipación. La gestión de la información va más allá de una administración en el día a día. Por muy efectivas que resulten las soluciones actuales y se domine el funcionamiento de los equipos, conviene estar atentos a futuras arquitecturas y software. Es decir, estar al día para poder anticiparse a los cambios tecnológicos. 6. Implicación. La importancia de mantener datos de buena calidad compete a todos los empleados. Con el fin de incentivar el cumplimiento, los expertos recomiendan establecer orientaciones claras y mantener reuniones periódicas para asegurar que los procesos de calidad están al día. 7. Inversión a largo plazo: Un buen programa de calidad de los datos es una inversión a largo plazo para la rentabilidad de un negocio. En este aspecto, se precisa del apoyo por parte de los ejecutivos, en ocasiones reacios a entender la importancia de la calidad de los datos. 8. Enfoques top-down y bottom-up. Una regla fundamental para la aplicación de programas de calidad de los datos es es-

10

tablecer un plan que suponga un esfuerzo conjunto y estratégico de ejecutivos y personal de base. 9. Los signos del éxito. Cuando un plan de calidad de datos empieza a dar sus frutos algunas de las mejoras se manifiestan de forma puntual. Sin embargo, la manera adecuada de medir su rendimiento ha de sistematizarse mediante el seguimiento de aspectos clave como la satisfacción del cliente en encuestas sobre el producto o servicio, el ahorro de tiempo en la administración de datos o en la precisión de estos. No bajar la guardia. Un programa de datos satisfactorio no es sinónimo de trabajo hecho, pero sí de trabajo bien hecho. Por lo tanto, hay que seguir trabajando para mantener y mejorar los resultados. Bajar la guardia puede significar volver a empezar de nuevo. Los puntos claves antes descritos dan una perspectiva interesante para que las organizaciones o empresas las consideren y apliquen a fin de lograr la calidad de datos que obran en su resguardo lo que conlleva a una mejor toma de decisiones Beneficios de la Calidad de Datos Los beneficios de la calidad de datos son muchos. Digital House menciona que la calidad de los datos es el grado de integridad, validez, exactitud, consistencia, disponibilidad y puntualidad para un uso específico. Scribd señala como principales beneficios de la calidad de datos los siguientes: • Ahorrar costos directos: evitando tener información duplicada y por lo tanto evitar el envío replicado de cartas a un mismo cliente.


José Alberto G. G. (2021)

• Potenciar las acciones de marketing y la gestión: la normalización de archivos mejora el análisis de datos y permite segmentaciones precisas para que sus acciones de mercadotecnia y su gestión ganen en precisión y eficacia. • Optimizar la captación y la fidelización de clientes: con los datos correctos, se mejoran las tazas de respuestas y el cliente se siente plenamente identificado con la empresa. • Mejorar la imagen corporativa: el cliente sólo recibe el envío que le corresponde, una sola vez y con sus datos correctos. • Mejorar el servicio: identificación más rápidamente del cliente que llama a un Call Center, reduciendo los tiempos de espera y dejando tiempo al operador para centrarse en el mensaje de negocio. Las organizaciones y empresas que operan con calidad de datos analizan la información, toman decisiones estratégicas alinea-

das con los objetivos de la organización o empresa y por ende son exitosas y en crecimiento operacional y directivo continuo. Almacenamiento de los Datos Los datos deben ser almacenados para su conservación, almacenamiento, resguardo y utilización entre otras, por ello, las organizaciones o empresas deben identificar las herramientas tecnológicas adecuadas para tal fin. El almacenamiento de datos no es algo nuevo, su origen se remonta a la antigüedad, donde se crearon bibliotecas para almacenar los datos y recopilar información sobre las cosechas y censos, la búsqueda y recolección era manual por lo que obviamente era lenta y poco eficaz. Posteriormente, debido a las necesidades de almacenar grandes cantidades de información o datos y con la aparición de las computadoras, se crearon las bases de datos. El mundo de los datos Noviembre 2021

11


En 1980 Oracle Corporation, desarrolla un sistema de gestión de bases de datos relacional con el mismo nombre de la compañía, el cual es considerado como uno de los sistemas de bases de datos más completos que existen en el mundo, y aunque su dominio en el mercado de servidores empresariales ha sido casi total, actualmente sufre la competencia del SQL Server de la compañía Microsoft y de la oferta de otros Sistemas Administradores de Bases de Datos Relacionales con licencia libre como es el caso de PostgreSQL, MySQL o Firebird que aparecieron en la década de 1990. Actualmente, la información de las organizaciones y empresas se encuentra en bases de datos, un sistema de información o un data warehouse que reúne entre sus atributos la exactitud, completitud, integridad, actualización, coherencia, relevancia, accesibilidad y confiabilidad necesarias para resultar útiles al procesamiento, análisis y cualquier otro fin que un usuario quiera darles. El Big Data, es sin duda una posibilidad para poder tomar buenas decisiones de negocio. Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían. El análisis de Big Data ayuda a las organizaciones a aprovechar sus datos y utilizarlos para identificar nuevas oportunidades. Eso, a su vez, conduce a movimientos de negocios más inteligentes, operaciones más eficientes, mayores ganancias y clientes más felices. (Power Data). Conclusión La calidad de datos es imperante en las organizaciones o empresas, para su análisis y acertada toma de decisiones en las acciones directivas o empresariales, para ello, se re-

12

quiere que los datos tengan los atributos de exactitud, integridad, actualización, relevancia, coherencia, confiabilidad, presentación apropiada y accesibilidad. Sin calidad de datos las decisiones no serán las idóneas y no tendrán el impacto/beneficio deseado. La calidad de datos, requieren herramientas adecuadas, directrices y operadores capacitados, es decir, conformar una triada procesos- personal-tecnología. El Big Data es una herramienta adecuada para el resguardo y manejo de los datos, ya que informatizan y automatizan los procesos de datos y se anticipa a los desafíos del futuro cambiante como son: el aumenta del volumen de datos y además, da la certeza de que los datos continuarán con los atributos de calidad de datos. Como dice Craig James Mundie (Asesor Senior del CEO de Microsoft) “Los datos se están convirtiendo en la nueva materia prima de los negocios”. Referencias Digital House. URL: https://www.digitalhouse.com/ar/blog/5-claves-para-mejorar-y-mantener-la-calidad-de-los-datos. Fecha de consulta 25 de agosto de 2021. Historia de la Informática. URL: https://histinf.blogs.upv. es/2011/01/04/historia-de-las-bases-de-datos/. Fecha de consulta 23 de agosto de 2021. IBM. URL: https://www.ibm.com/mx-es/analytics/data-quality. Fecha de consulta 22 de agosto de 2021. Power Data. URL: https://www.powerdata.es/big-data. Fecha de consulta 25 de agosto de 2021. Real Academia Española. URL:https://dle.rae.es/. Fecha de consulta 22 de agosto de 2021. Redman, Thomas (2013). Data Driven: Profiting from Your Most Important Business Asset. Harvard Business Press. ISBN 978-1-4221-6364-1. Scribd: Data Quality: High-impact Strategies - What You Need to Know: Definitions, Adoptions, Impact, Benefits, Maturity, Vendors. URL: https://de.scribd.com/ doc/61341961/Data-Quality-High-impact-Strategies-What-You-Need-to-Know-Definitions-Adoptions-Impact-Benefits-Maturity-Vendors, Fecha de consulta 25 de agosto de 2021. Talend. URL: https://www.talend.com/es/resources/ what-is-data-quality/ Fecha de consulta 24 de agosto de 2021.


Causalidad, ciencia de datos y la evaluación de impacto

Emmanuel Méndez Rolón Coordinador General de Soluciones en Inteligencia y Estrategia S.C.

José Alberto G. G. (2021)

Lo emocionante de nuestro trabajo proviene de la oportunidad de aprender sobre las causas y los efectos de los asuntos humanos” (Angrist, 2015) Las personas somos capaces de asignar explicaciones a fenómenos naturales y sociales. A través de la observación podemos formular hipótesis para explicar, por ejemplo, el movimiento de los astros, la rotación de la tierra, el fenómeno fotoeléctrico, las fluctuaciones del Producto Interno Bruto, el desarrollo económico, las causas de la violencia o qué motiva a las personas a comprar cierto producto. Dependiendo del fenómeno que observemos, intentaremos darle una explicación tomando como base la información a priori con la que contamos. Por ejemplo, una máxima en casi cualquier cultura es que si robas algo irás a la cárcel. Es decir, establecemos una relación causal entre el cometer un delito y

recibir un castigo, donde el acto de robar es la causa y la cárcel es la consecuencia. Todos los días hacemos este tipo de razonamientos causales con base en la información de nuestro contexto, misma que obtenemos a través de nuestra familia, escuela, ciudad donde crecimos, la religión que profesamos, nuestras preferencias políticas, entre muchas otros que en ocasiones no percibimos. Por ejemplo, podemos estar o no de acuerdo con el siguiente razonamiento: “otorgar apoyos económicos directos a familias de bajos ingresos disminuye la pobreza”. Sin embargo, algo que podría persuadirnos a tomar una posición diferente o incluso tomar acción al respecto es contar con datos y/o evidencia que nos permita dirimir la discusión de manera más objetiva. En este contexto, en la segunda mitad del siglo XX y en lo que va del siglo XXI, los científicos de datos se han encargado de aprovechar los El mundo de los datos Noviembre 2021

13


avances tecnológicos en materia de computación, procesamiento de datos y técnicas estadísticas para intentar responder a la pregunta ¿Cuál es el efecto o impacto de X —variable independiente o de choque— sobre Y —variable dependiente o de resultado—? Las y los científicos de datos, y en particular los economistas, intentan responder a estas preguntas mediante técnicas de análisis denominadas de “inferencia causal”, también conocidas como de “evaluación de impacto”. Su importancia radica en que podemos contar con evidencia estadística respecto a si X tiene un efecto causal sobre Y o, al contrario, si el efecto causal no existe. Además, en caso de que exista algún tipo de impacto, es posible calcular su magnitud y proponer estrategias para, por ejemplo, incrementar las ventas en el sector privado o bien para crear, reforzar y modificar estrategias de política pública. Para la implementación de un análisis de evaluación de impacto es necesario contar con datos que reflejen las principales características del fenómeno a evaluar. En este aspecto, las y los científicos de datos tienen la labor de diseñar instrumentos de recolección (como las encuestas), usar registros administrativos, extraer información de internet o emplear fuentes

de información pública o privada disponibles. No obstante, el principal problema de la evaluación de impacto es el cálculo del escenario contrafactual. El escenario contrafactual intenta responder al siguiente cuestionamiento: ¿qué hubiera pasado con Y si X no hubiese ocurrido? Esta pregunta es difícil de responder ya que, en la realidad, sólo observaremos uno de los siguientes escenarios: • escenario A.- Comportamiento de Y cuando X ocurre o; • escenario B.- Comportamiento de Y cuando X no ocurre. En el caso hipotético de contar con ambos escenarios bastaría con calcular una diferencia de medias entre las observaciones de Y(A) y Y(B) cuyo resultado sería interpretado como el impacto promedio de X sobre Y. Los resultados podrían ser mayor que cero, menor que cero o igual a cero (impactos positivos, negativos o sin impacto). Sin embargo, en la realidad no se presentan ambos escenarios. Para resolver el problema del contrafactual y determinar el impacto de X sobre Y, los(as) científicos de datos han recurrido a técnicas de análisis estadístico como el diseño de Experimentos Aleatorios Controlados —RCT por sus siglas en inglés, ver Diagrama 1—.

Diagrama 1. Experimento Aleatorio Controlado (RCT) o A/B Test

Fuente: elaboración del autor con información de (Torgerson, 2012)

14


A los RCT se les conoce como “la regla de oro” para calcular el efecto de X sobre Y (J-PAL, 2021). Un RCT consiste en definir una población objetivo que se dividirá aleatoriamente en dos grupos, uno de control (GC) y uno de tratamiento (GT). Al GT se le asigna una intervención específica (X=1) y al GC no se le asigna la intervención (X=0). Posteriormente, se calcula la diferencia promedio entre las observaciones de la variable de resultado Y, cuando X=1 y cuando X=0 como se muestra en la siguiente ecuación.

Un ejemplo de RCT en el ámbito del desarrollo económico lo encontramos en el artículo Remedying Education: Evidence From Randomized Experiments in India (Duflo, 2007). Utilizando datos de encuestas realizadas en la India, previo a la implementación de la intervención, los investigadores encontraron que en 2005 el 44% de los niños de entre 7 y 12 años no pudo leer un párrafo básico y 50% no pudo hacer una resta simple. Las autoridades escolares creían que la asistencia a las escuelas garantizaba el buen desempeño de los alumnos en los exámenes de conocimientos, pero no tomaron en cuenta si los niños de recién ingreso se adaptaban al programa escolar y realmente estaban aprendiendo. En este contexto, los investigadores se dieron a la tarea de evaluar, mediante un RCT, el Programa Balsaki (Tutor en español) en 122 escuelas de las provincias de Vadodara y 77 de Mumbai. La Balsaki, normalmente una mujer joven de una comunidad local a la que se pagaba solo una fracción del sueldo de los profesores trabajó con niñas y niños de primaria de segundo a cuarto grado que fueron identificados con deficiencias acadé-

micas. A los niños con retraso académico se les separaba del grupo principal por un periodo de dos horas (dentro del horario escolar) y se les daban tutorías sobre comprensión de lectura y matemáticas básicas. El programa tuvo un impacto positivo en los resultados académicos de los y las alumnos (as). Los puntajes de aprendizajes básicos de niños y niñas en el GT mejoraron entre 4 y 8 por ciento en comparación con aquellos del GC, siendo las y los alumnos con retraso escolar los que resultaron más beneficiados de la intervención. El programa Balsaki nos da una muestra del poder explicativo de los datos combinando técnicas estadísticas de inferencia causal para la medición del impacto de una medida X —tutores Balsaki— en Y (puntajes de aprendizajes básicos). El RCT no sólo tuvo éxito al interior de los grupos experimentales —validez interna— sino que fue masificado y evaluado a nivel nacional en India —validez externa— (J-PAL, 2021). La evaluación de impacto del Programa Balsaki nos permite aprender varias lecciones sobre el uso de los datos. Primero, indica que en ocasiones hacemos relaciones causales incompletas — Ej. asistir a la escuela no necesariamente implica aprendizajes—. Segundo, el manejo de datos debe estar acompañado de un análisis cualitativo y contextual—Ej. Conocer el contexto de las Balsaki y su disponibilidad para dar tutorías— ¬, lo cual permitirá plantear estrategias más adecuadas para la resolución de una problemática. Tercero, se pueden obtener conclusiones válidas desde el punto de vista estadístico a través de la combinación de diferentes fuentes de información—Ej. En la evaluación del Programa Balsaki se convinaron datos de encuestas y registros administrativos de las escuelas —. El mundo de los datos Noviembre 2021

15


Como lo mencionamos con anterioridad, los RCT son una de las técnicas con mayor aceptación entre las y los científicos de datos para determinar efectos causales o impacto de intervenciones en el ámbito del desarrollo económico y social. No obstante, los RCT son de uso común al momento de responder preguntas causales desde el punto de vista de la iniciativa privada. Por ejemplo, (Stephens-Davidowitz, 2017), en su libro Everybody Lies, nos puntualiza cómo Google uso los RCT —conocidos en el mundo de la informática como A/B Test — para revolucionar el internet. Ingenieros de Google dividieron aleatoriamente a los usuarios en grupos de control y tratamiento. Al GT le mostró 20 links de los resultados de una búsqueda, al GC les mostró sólo los 10 que normalmente emergían en las búsquedas y después compararon los niveles de satisfacción entre ambos grupos. Más allá de los resultados, Davidowitz puntualiza que lo relevante en este contexto es que en internet los RCT o A/B Test pueden resultar realmente baratos en comparación a las intervenciones como las del Programa Balsaki — que son altamente intensivas en recursos materiales, económicos y de personal—. Además, Davidowitz agrega que los A/B Test pueden ser diseñados e implementados con mayor rapidez y menor costo en internet. Actualmente, este tipo de experimentos son realizados por varias empresas digitales — Amazon, Youtube, Netflix, Google, Facebook, Apple, por mencionar sólo algunas — para vendernos diferentes productos. Con base en los datos de los usuarios, los científicos de datos de diferentes compañías “corren” diariamente miles de A/B Test dividiendo a sus usuarios en grupos de control y tratamiento para comparar qué estrategia de publicidad tiene un mayor impacto en la

16

compra de productos o mantener clientes fieles a su marca por más tiempo. A través de los ejemplos anteriores, pudimos conocer sobre la importancia de la evaluación de impacto en la ciencia de datos. Aprendimos que los RCT son una de las técnicas más usadas y confiables para evaluar una relación causal que nos permiten conocer de manera más objetiva sobre nuestro comportamiento, las decisiones que tomamos y los incentivos bajo los cuáles reaccionamos ante diferentes situaciones. Sin embargo, los RCT no son la única herramienta dentro del análisis de inferencia causal, existen otros instrumentos que nos permiten aprovechar la ocurrencia de eventos “naturales” para evaluar diversos aspectos que los RCT no pueden realizar, pero esto será materia de discusión de un artículo posterior en el que abordaremos algunos ejemplos de cuasiexperimentos en relacionados con desarrollo económico y seguridad pública.

Referencias Angrist, J. D.-S. (2015). Mastering Metrics: The path from cause to effect. Princeton: Princeton University Press. Duflo, E. &. (2007). Remedying Education: Evidence From Randomized Experiments in India. The Quarterly Journal of Economics 122(3)., 1235-1264. J-PAL. (02 de 09 de 2021). J-PAL A. Obtenido de J-PAL ABDUL LATIF JAMEEL POVERTY ACTION LAB: https:// www.povertyactionlab.org/resource/introduction-randomized-evaluations Stephens-Davidowitz, S. (2017). Everybody lies . New York: Harper Collins Publishers. Torgerson, D. (2012). Test, Learn, Adapt: Developing Public Policy with Randomised Controlled Trials. SSRN Electronic Journal .


¿Cómo darles valor

a los datos? Alicia Cruz Martínez

El mundo está viviendo un momento en el

que se han acumulado una gran cantidad de datos, desde el nacimiento del internet ya suman más de veinte años compartiendo información, la tecnología nos ha llevado a vivir en una sociedad interconectada y globalizada, la transformación digital se acelera cada vez más permitiendo que se acorte la distancia entre sociedades y convirtiéndose en una parte importante de nuestro día a día (Bello, 2021). Existen en el mercado una gran cantidad de herramientas que prometen un análisis ágil de los datos para la toma de decisiones, sin embargo, cuando se hace uso de ellas resulta que los datos deben estar ordenados y acomodados de una u otra forma para poder ser interpretados y generar ese análisis prometido por esas herramientas. Los datos son el alimento de la información, cuando están aislados o son difíciles de acceder se torna complicado encontrar su valor, la calidad de los datos es un factor crítico para la toma de decisiones y la optimización continua de los procesos,

José Alberto G. G. (2021)

de ahí la importancia de definir medidas para organizar los datos, siendo este un paso necesario para poder hacer uso de las aplicaciones, las cuales proporcionarán una mejor información en función de la cantidad y calidad de los datos (Prieto,2019). Gestión de datos Antes ahondar en el tema de gestión de datos resulta necesario comentar que aunque existen varias definiciones para lo que se conoce como Big Data, la definición de Gartner considerada la aportación que la concluye y define de forma más completa, indica que Big Data: es información, proceso y almacenamiento, aportando como diferencial tecnológico su capacidad como herramienta de apoyo en la toma de decisiones a partir del análisis de grandes volúmenes de datos estructurados y no estructurados, es decir, su potencial radica en convertir los datos que proceden de una gran variedad de fuentes en valor para la empresa o institución, al aportar enormes El mundo de los datos Noviembre 2021

17


ventajas para la gestión de relaciones con el cliente, desarrollo de productos, predicciones de comportamiento entre otros, es decir, Big Data viene a ser la gestión inteligente de los datos (Collado,2019). Los datos pueden tener cualquier origen, sin embargo, independientemente de este, si las empresas no saben cómo gestionarlos y darles sentido no serán de utilidad. Actualmente se tiene diversidad de datos: los que provienen de las redes sociales, los que se reciben a través de sensores o medidores que capturan algún evento, los transaccionales en formatos estructurados y semiestructurados, los biométricos que identifican de manera única a las personas, los generados por las personas al hacer una llamada, hablar, enviar un correo electrónico, documentos médicos, etc., esta diversidad de datos se clasifican en tres tipos. Clasificación de los datos Los datos estructurados cuentan con una estructura bien definida, como los números, las fechas o las cadenas de caracteres, entre otros. Se almacenan en tablas, como las bases de datos o las hojas de cálculo, el formato con el que cuentan facilita su administración. Los datos semiestructurados no tienen un formato definido, no se limitan a campos determinados, contienen marcadores o etiquetas para identificar los diferentes elementos. Es información poco regular que no puede ser gestionada de manera estándar entre ellos se encuentran los HTML. XML o JSON. Los datos no estructurados carecen de un formato específico, no pueden ser normalizados ya que no se puede desagregar su información a tipos básicos de datos, sin embargo, deben poder ser localizados de alguna manera, ejemplos de ellos son archi-

18

vos PDF, documentos multimedia, imágenes, correos electrónicos, documentos de texto, videos, entre otros (Collado,2019). Existen asociaciones como la Asociación de Organizaciones de Servicios de Procesamiento de Datos (ADAPSO) y la Asociación Internacional de Gestión de Datos (DAMA International) que desde hace años han abogado por los estándares de gestión de datos para la capacitación y calidad de datos, los gestores de bases de datos introdujeron la forma de procesar datos de manera consistente y redujeron la cantidad de información duplicada, a la fecha se continúa trabajando en la educación y capacitación en gestión de datos, la cual incluye almacenamiento, seguridad de datos, intercambio de datos, gobernanza de datos, arquitectura de datos, gestión de bases de datos y gestión de registros (Campaña,2020). Importancia de la Gestión de Datos Para aprovechar al máximo los datos, estos deben ser administrados, entre las ventajas de su administración se encuentra: una mayor productividad al facilitar la comprensión y comunicación entre los involucrados de un proceso, reducción de costos al ser más productivos evitando búsquedas de información o duplicando esfuerzos, reacción anticipada al contar con información que permite actuar de manera preventiva, mitigación de riesgos al tomar las medidas de seguridad que eviten vulnerar la seguridad de los datos, toma de decisiones más precisas al contar con información actualizada. Un elemento importante para iniciar la gestión de datos es elegir la estrategia básica a considerar, esta puede ser ofensiva o defensiva, la estrategia ofensiva se centra en el cliente y tiene como objetivo aumentar los ingresos, la rentabilidad y la satisfacción del cliente, la estrategia defensiva se centra en la


José Alberto G. G. (2021)

seguridad y el cumplimiento, tiene como objetivo cumplir con las regulaciones que protegen los datos mientras utiliza análisis para detectar y prevenir situaciones de fraude. Independientemente de la estrategia a seguir para la gestión de datos es importante desarrollar el plan a seguir, dicho plan depende en gran medida del tipo de empresa o institución de que se trate, ya que cada una tiene datos distintos y la criticidad e importancia de estos puede ser muy diferente para cada empresa o institución. Gestión de datos empresariales La gestión de datos empresariales tiene que ver en cómo se crean, integran, difunden y administran todos los datos que intervienen en el ciclo de vida de los procesos y aplicaciones. Los desafíos principales se encuentran en la organización de los datos, el procesamiento de datos y la entrada eficiente de datos, es importante identificar la situación a resolver, determinar los requisitos de todas las partes involucradas, establecer políticas, procedimientos y crear definicio-

nes de datos y etiquetado. Se debe determinar el flujo de trabajo, las dependencias de datos y las alternativas en caso de interrupción. Es necesario establecer políticas y procedimientos para la gestión de cambios, la gestión de datos, la seguridad y las dependencias de datos. Una actividad importante para la clasificación de datos radica en estandarizar los términos y definiciones utilizados, estos términos y definiciones son los conocidos metadatos o datos maestros. Gestión de datos maestros La gestión de datos maestros es la consolidación en una única fuente maestra para proporcionar datos consistentes, precisos y completos a toda la empresa o institución. Algunos procesos clave consisten en: administración de reglas comerciales, agregación de datos, clasificación de datos, recolección de datos, consolidación de datos, distribución de datos, gobernanza de datos, mapeo de datos, datos coincidentes, normalización de datos, entre otros. La gestión de datos maestros ayuda a tener datos limpios, consistentes y precisos. El mundo de los datos Noviembre 2021

19


Datos. La Historia de un error de dimensionamiento.

José Alberto G. G. (2021)

Oscar Gustavo Alva Nieto

Hace algunos años, tenía como responsabilidad la operación informática de una organización puntera en su ramo a nivel mundial. Nuestro presupuesto era amplio y nuestro equipo de trabajo experimentado y sólido, muy acorde a las responsabilidades a las que nos enfrentábamos día con día. Es importante decir que la creación de dicho equipo no había sido un logro mío, pues su construcción había sido un largo proceso iniciado antes de que yo llegara. De hecho, yo aún no había terminado el bachillerato cuando se empezó a forjar aquel equipo. Me gusta creer que durante mi gestión le impregné un poco de mi estilo, aunque en mucha parte mi labor fue mantener la inercia de trabajo que se tenía y afinar algunos detalles. Un buen día, mi superior me instruyó que durante su ausencia explicaría nuestra infraestructura y recursos informáticos a los especialistas informáticos de una organización similar procedentes de una nación

20

centroamericana. Esa labor regularmente le correspondía a ella, pero en este caso al encontrarse ausente, confiaba en que podría yo realizar la tarea. Preparé una presentación vistosa y llena de datos técnicos, mostrando las capacidades con las que contábamos, que tanto tiempo y trabajo nos había costado desarrollar. La presentación inició y por cuestión de unos 20 minutos expliqué replicaciones de base de datos, sistemas de telecomunicaciones, procedimientos de respaldos y demás procesos de los que estábamos muy orgullosos. Al final de la explicación, vino la serie de preguntas. Fue entonces que entendí que lo interesante que pudo haber resultado mi explicación, era inversamente proporcional a la utilidad que podría haber tenido. Derivado de sus preguntas, caí en cuenta que el volumen de su operación era mucho más pequeño y dándome cuenta que la mayor parte de los últimos 20 minutos


había yo explicado cosas que no estaban justificadas para dicho volumen. Aquellos 3 ingenieros conformaban el total del equipo informático de aquella organización, que de manera operativa distaba mucho de la centena de personas que trabajábamos en México. Un tremendo error de mi parte al realizar el diseño de aquella presentación. Durante las preguntas, intenté aconsejar de manera más útil a aquellos colegas, generando un diseño etéreo, pero completamente acorde al volumen de su operación y recursos. Durante semanas mantuvimos contacto por correo electrónico, ampliando mis ideas y enriqueciendo las suyas. Años después, me encargue de levantar una operación de un tema similar, desde cero. Nuestro volumen de operación era mucho menor al de mi anterior organización, pero varias veces más grande que el que tenían los colegas centroamericanos que alguna vez aconsejé. Evidentemente utilicé el mismo diseño tecnológico que había sugerido a mis colegas. Y funcionó a la perfección. Me sentí satisfecho de que mi diseño funcionaba. Y que el costo era muy bajo. Esta historia trae a la luz diversos aspectos importantes. El primero es la importancia de analizar el volumen de la operación que esperamos tener por lo menos en el futuro a media-

no plazo, con el fin de poder realizar una planeación sobre nuestro hardware y licenciamiento propietario. Debemos dejar un espacio para crecimiento inesperado, pero sin exagerar, pues terminará siendo un gasto innecesario. Lo cual resultaría terrible en una organización pequeña. Esto puede ser muy complicado en una organización que apenas comienza, pero una conversación con la alta dirección puede clarificar mucho al equipo de diseño. En cuanto al diseño de base de datos y aplicativos, es importante pensar en el crecimiento exponencial desde un principio, aunque no tengamos un panorama claro de cuando esto sucederá. Un diseño sencillo podrá ser funcional y adecuado cuando la operación es pequeña, pero convertirse en una pesadilla en caso de crecimiento. Y en caso de que fuera necesaria una migración a otra plataforma o manejador de base de datos más robusto, puede convertirse en una pesadilla. Alguna vez un talentoso Administrador de Base de Datos (DBA) muy joven, me solicitó tener la oportunidad de presentarme una idea en la que estaba trabajando. Gustoso acepté hacerle un espacio, pues conocía de su capacidad. Su idea de rediseño de base de datos era brillante y sin lugar a dudas resolvería de manera sólida muchos de los problemas que enfrentábamos día con día en la operación. Sin embargo, era inviaEl mundo de los datos Noviembre 2021

21


ble pues requería detener la operación por varios días para realizar el cambio, además de un esfuerzo enorme en rediseño de los sistemas existentes para adecuarlos a los cambios que proponía. Eso la volvía imposible de realizar, pues detener la operación durante tanto tiempo era algo que no era posible hacer. Felicité a aquel DBA por su gran trabajo y su compromiso, pero le expliqué que en la práctica no me era posible implementarlo. No estuvo muy de acuerdo con mi decisión e intentó convencerme en un par de ocasiones más, en las cuales escuché con atención. Sus ideas habían llegado demasiado tarde a nuestra organización. Si tal vez esas mismas ideas y experiencia se hubieran tenido al inicio del diseño original de base de datos de la organización, se habrían ahorrado miles de horas de trabajo arduo y bastante dinero. Pero desgraciadamente en ese momento no teníamos esa perspectiva a posteriori.

22

El segundo aspecto es que contrario a lo que se piensa, no se necesitan de grandes presupuestos para realizar procesamiento y análisis de datos a gran nivel. Unos equipos de escritorio y un servidor en la nube serán suficiente para comenzar, aunque el talento humano es indispensable. Yo recomendaría no solamente reclutar programadores, sino personal con una formación amplia, que entienda la parte tecnológica y del negocio para liderear el proyecto. También será importante añadir algunos jóvenes talentosos, entusiastas y dispuestos a aprender. Y de ser posible, reclutar un par de recién graduados con potencial de convertirse en nuestro CIO en algunos años. Con buenas bases, los resultados se darán después de un tiempo y con ello la inversión. Porque así es como he visto que se construyen los grandes presupuestos y los espectaculares equipos de trabajo.


Industria 4.0 (Última parte),

pasos para su Implementación. Alberto Martínez Hinojos

En la edición anterior recalcamos las ca-

racterísticas principales de la implementación de la industria 4.0 en las empresas. Las ventajas y desventajas de la industria 4.0, este esquema nos abre muchos caminos que parece de futuro que por ciento ha llegado. El objetivo de este articulo es presentar una propuesta de la implementación de la Industria 4.0 y estar preparados para aquello que ha de venir y estar preparados lo mejor posible para sobrevivir en este mundo cambiante. Una de las principales características de la Industria 4.0 es el avance significativo de varias áreas de las tecnologías a continuación numeramos algunas de ellas: • Comunicación. • Inteligencia Artificial. • Internet de las cosas. • Dispositivos con capacidades computacionales. • Análisis de datos (Big Data).

José Alberto G. G. (2021)

• Cloud Computing. • Realidad aumentada. • Fabricación Aditiva. • Ciberseguridad. • Robots Colaborativos (Cobots). • Simulación 3D. • Drones. • Plataformas sociales • Impresión 3D • M2M Maquina a Maquina A nivel mundial nuestra economía se basa en diferentes tecnologías físicas y tecnologías digitales, es claro que debemos a pegarnos lo más posible a esta nueva tendencia. Estrategia para la implementación de la Industria 4.0 En este punto es importante recalcar que la metodología de ir adaptando aspectos de la industria 4.0 dependerá de muchos factores, la economía, la cultura, los paradigmas, la política. Recordemos que las revoluciones industriales pasadas nos han enseñado que El mundo de los datos Noviembre 2021

23


al hacer cambio o adaptaciones en nuestra empresa repercute en la nueva forma de hacer las cosa desde nuestro operador más simple hasta nuestros clientes. Este cambio es paulatino, y a veces muy lento y más para las pequeñas y medianas empresas. Estas son sugerencias que podemos tomar en cuenta para ir implementando la industria 4.0 en nuestros negocios por muy pequeños que sean. Establecer bien nuestros objetivos. Nuestros objetivos a largo plazo deberán de tomar en cuenta las nuevas tecnologías que permitirán cumplir las normas de la industria 4.0. La exigencia de las nuevas tecnologías nos obliga a estructurar nuestra organización, nuestros procesos, los recursos humanos y otras áreas que permitirán que el negocio fluya cómo la industria 4.0 lo especifica. Todo debe de convertirse en una mejora de producto y servicio. Se sugiere enfocarse en algunas de las actividades más relevantes de la empresa cómo son las siguientes. Optimización de procesos: En nuestra cadena de producción pueden existir tiempo muertos, falta de mantenimiento, aumento de desechos innecesarios, etc. Una buena solución sería integrar una serie de indicadores que nos permitan monitorear cuando un mecanismo ya no cumple con su función por lo menos el 70%. Equipar inteligente para que se comunique con otros equipos.

24

El Control de las condiciones ambientales: El área de procesos, ya sea maquila, transformación de los insumos, deben de cumplir condiciones ambientales para su correcta transformación, aquí podemos implementar sensores en diferentes áreas, colocar calentadores, o bien conductos de aire puro, etc. Estos pueden estar monitoreados en una central para verificar en forma constante las condiciones ambientales. Mejora de la calidad en el producto: Hay mucho punto en que mejorar el producto, desde su construcción hasta su entrega, sugerimos los siguientes. Siempre en existencia y fácil localización, cuando uno tiene necesidad y adquiere un articulo lo primero que exige es encontrarlo rápidamente, y si es entrega a domicilio el articulo este constantemente monitoreado para que el cliente pueda ver su trayectoria. Aun que ya existe en muchas compañías este tipo de servicio, la implementación en las PYMES sería un punto que puede diferenciarte con tu competencia. Adaptar el equipo existente: Una de las tareas principales de los administradores de una empresa es la optimización de recursos. En la actualidad existen muchos equipos que bien puede ser ajustados y con poca inversión nos ayudan a integrarlos a la industria 4.0. Actualmente han salido al mercado dispositivos con ciertas características de conectividad e inteligencia eso para su auto administración, podemos aprovechar esto para reutilizar equipo y mejorar productos. La información arrojada nos puede ser útiles en muchas maneras.


José Alberto G. G. (2021)

Atención a clientes: En este aspecto interviene mucho la inteligencia artificial para el primer contacto y seguimiento para nuestros clientes. Una de estas herramientas son los ChatBot más inteligentes. En este punto la inteligencia artificial ha jugado un lugar primordial al permitir que una máquina (equipo de cómputo y software) de seguimiento a una serie de requerimientos de un cliente sin que este se de cuenta. Se sugiere para las PYMES, esta herramienta no es tan costosa. Con este tipo de implementaciones puedes ahorra personal, te pueden atender las 24 horas y aún le falta cierta inteligencia bien puede dar seguimiento a las pláticas básicas. Robots Colaborativos: Ya hace algunas décadas que los robots se han integrado a la vida productiva del ser humano, ahora prácticamente existen en todas las áreas en donde se requiere más precisión que la mano del ser humano. Exactitud, tiem-

po, peligro, destreza, flexibilidad y ahora hay otras tareas más complejas que hacer algo mecánico. Un robot colaborativo es aquel que trabaja conjuntamente con el ser humano apoyándolo en tareas que el humano no podría hacer sólo. Integrar un robot colaborativo a nuestra línea de producción elevaría la calidad del producto, reduce tiempos, y otros muchos más aspectos que depende del producto a tratar. Hay que tener en cuanta que este robot puede tener cierto grado de inteligencia, pero por ahora este concepto ROBOTS COLABORATIVOS requieren ser administrados por personal humano. La personalización de producto: Cada vez que nos integremos más a la industria 4.0 seremos capaces de manufacturar el producto en forma personal. Entregar un producto con las necesidades de tamaño, color, forma, cantidad, etc., exclusiva para cada cliente prácticamente ya es una realidad. Un cliente ya puede pedir un teléfono inteligente con las características que pida, color, tamaño, capacidad y ser enviado unos días después tal y cómo lo pidió. InEl mundo de los datos Noviembre 2021

25


tegrar esta característica a nuestro proceso de producción requerirá equipos inteligentes y con gran capacidad de adaptación. Abrir opciones para nuestros clientes es tener a clientes cautivos a nuestro negocio. Mejora de Datos: Una de las características de la industria 4.0 es el uso de la información generada por todos los indicadores instalados en todas las áreas de la empresa, se ha convertido en un elemento prácticamente esencial para dirigir la empresa en todos los niveles. También aquí interviene la inteligencia artificial para ser procesados e interpretados de tal forma que los valores que arrojan nos permitan ver a la empresa con un enfoque más claro. Tomar decisiones con nuestro banco de datos se ha convertido en un visor del futuro. Seguridad: La Seguridad en todos los sentidos no puede faltar en nuestros proyectos, debido a que la industria 4.0 es de un esquema de alta comunicación ya sea local o externa, si no colocamos candados de seguridad estaremos vulnerables ante los hackers. Esto va requerir una inversión extra a los procesos normales.

El Producto A continuación, mencionaremos algunos de estos elementos pueden incluir en los productos para ser considerados en este aspecto Industria 4.0. Conectado: La conectividad es un elemento esencial para todo producto 4.0, las líneas de comunicación entre los productos pueden variar desde un simple código de barras hasta un chip inteligente en donde constantemente está generando información y enviándole prácticamente en vivo a la base de datos central.

26

Implementar a cierto grado comunicación a nuestro producto iremos mejorando el producto desde un simple diseño hasta eliminarlo. En el mercado existen infinidad de dispositivos que nos permiten ir monitoreando nuestros productos para dar mejor servicio al cliente, detectar anomalías, etc. Adaptable: El producto adaptable a su ambiente o bien a circunstancias externas permite al producto ofrecer un sinfín de alternativas, la auto configuración se protege, da opciones, ofrece alternativas, durabilidad y mucho más. Inteligente: Otro de los elementos es la inteligencia artificial, implementar esta inteligencia permite al articulo interactuar con su entorno tomando decisiones más complejas con escenarios con más variables y una caja de procesamiento. Conclusiones: La implementación de la industria 4.0 es un ejercicio que tienes sus propios desafíos, pero con un plan bien estructurado y los objetivos bien claros, será posible. Estar a la vanguardia de la tecnología nos traerá muchos beneficios. Invitamos a todos los empresarios que integren en su producción las recomendaciones de la industria 4.0, es la época de la innovación o morir. Referencias:

https://dobetter.esade.edu/es/industria-4.0?_wrapper_format=html https://www.logicbus.com.mx/que-es-la-industria-4-0.php https://www.reporteroindustrial.com/temas/Paso-a-pasopara-la-implementacion-de-la-Industria-40-en-su-taller+132526 https://www.factoriadelfuturo.com/optimizacion-de-procesos-industriales-con-tecnologias-digitales-en-la-era-post-covid/


El Análisis Exploratorio de Datos (EDA -Primera Entrega).

Armando Jerónimo Cano

José Alberto G. G. (2021)

Se dice que los datos son el nuevo oro

negro del siglo XXI, lo que no está lejos de realidad, la cantidad de información que estos arrojan después de un trabajo de análisis hacen la diferencia entre la toma de decisiones basada en evidencia y la toma de decisiones basadas en experiencia o en presentimientos (Kahneman, 2011). Sin embargo, el proceso de transformación del petróleo desde su hallazgo en yacimientos hasta su transformación en gasolinas, diésel, plásticos, kerosenos, parafinas, entre otros, requiere de mucho trabajo, exploración, revisión satelital, localización, extracción para valoración de la calidad, instalación del campo, explotación, traslado para su transformación, y un etc. muy largo en el que intervienen múltiples especialistas en cada paso y se invierten una gran cantidad de recursos económicos nos da una idea de que esta transformación no es ni rápida ni económica. En la transformación de los datos en informa-

ción sucede algo similar, con sus debidas proporciones, el ciclo de vida de un proyecto de ciencia de datos (CVPCD) es el proceso mediante el cual los datos se convierten en la información que aporta el sustento para la toma de decisiones basadas en evidencia empírica. Dentro del CVPCD el proceso en el que más se invierte tiempo justamente corresponde a la exploración, la selección de datos, la extracción, el análisis de los datos disponibles, su revisión y refinamiento hasta concluir con un análisis de estadística descriptiva que nos da una idea de las características de nuestra data e incluso algunas conclusiones iniciales. A continuación, presentamos un acercamiento al trabajo de análisis de la data apoyándonos en el lenguaje R y de su entorno de desarrollo integrado (IDE) RStudio. Utilizamos para fines del ejercicio la tabla Valores-faltantes.csv que encontramos en el Github: h t t p s : //g i t h u b . c o m /A j e r o n i m o / S e ries-de-tiempo/ El mundo de los datos Noviembre 2021

27


Al trabajo de extracción de datos le sigue la revisión de los datos, casi siempre, en este paso nos encontramos con sorpresas; al revisar la data identificamos que nos encontramos con datos ausentes que pudieron no

haberse capturado o que se perdieron en el proceso de traslado o almacenamiento o corrupción de la data.

Uno de tantos inconvenientes es que la media de Income es NA, no es posible calcularla debido a que hay valores nulos.

Eliminar información siempre tiene un costo, habrá que estar consciente de esta situación y en caso de que hayamos optado por eliminar las filas podemos proceder

Elimine valores nulos:

Una de las ventajas de eliminar los registros vacíos es que ya podemos calcular la media

Una solución alterna a la eliminación de los registros vacíos (NA) es la de imputar valores, para esto podemos, al menos, usar una de las siguientes tres alternativas: • Llenar los valores faltantes con el valor promedio

28

• Llenar los valores faltantes con el valor previo • Llenar los valores faltantes con un valor fijo


En la nueva columna se imputó el valor promedio en donde había en caso de valor faltante

Cada solución tiene un costo debe uno estar consiente el tipo de sesgo que se puede propiciar dependiendo de la solución que se tome.

Una vez que se cuenta con la información completa avanzamos con el proceso de revisión; la función summary() es nuestra primer opción

El mundo de los datos Noviembre 2021

29


Como se observa algunos datos relevantes son aportados mediante esta función, podemos obtener las medidas de tendencia central de la siguiente manera:

30


José Alberto G G 202121

El mundo de los datos Noviembre 2021

31


32


Mediante el auxilio del diagrama de caja y bigotes visualmente se puede observar tanto la distribución de los datos alrededor de la media como el caso de los valores extremos para los que deberemos tomar importantes decisiones sobre su tratamiento. Esta propuesta es solo descripta utilizada para presentar un ejemplo del proceso del análisis exploratorio de datos (EDA), el lenguaje R contiene funciones y librerías de funciones para llevar a cabo este proceso dependiendo de la naturaleza de la data y del modelo que vayamos utilizar para su análisis, en series de tiempo podemos utilizar la biblioteca de funciones library(zoo) # mediante funciones como: locf(data) #para rellenar con el valor previo y na.fill(data, valor) #para rellenar con un valor determinado. Cuando trabajamos con series de tiempo: Library(forecast) tsoutliers(data) #Propone valores para los outliers tsoutliers(data) Una alternativa la realizar análisis multivariante podemos usar la biblioteca de funciones

library(mice) mice::complete(data) Utlizando alguno de los siguientes métodos • # pmm - predictive mean machine • # logreg - regresión logística • # polyreg - regresión logistica politómica • # polr - modelo de probabilidades proporcionales Tanto R como Python ofrecer una gran cantidad de herramientas para avanzar en la revisión, limpieza y depuración de los datos. Sin importar cual sea la herramienta que utilicemos y mucho menos, porque lo consideramos árido, entrar al debate de cual es herramienta es mejor, lo que si debemos destacar es que los pasos hasta aquí presentados son más bien enunciativos de lo que consideramos se debe hacer una vez que se ha obtenido la data. Las herramientas podrán variar en función de los métodos que estemos utilizando, pero lo que demos tener siempre en claro es que no es gratuito que más del 70% del trabajo del científico de datos se dedica a este proceso en el ciclo de vida de los proyectos de ciencia de datos, por algo será. El mundo de los datos Noviembre 2021

33


34


El mundo de los datos Noviembre 2021

35


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.