
5 minute read
Keepler Data Tech Sergio Gordillo
Gestión eficaz del dato
Según datos publicados por IDC, solo en 2020 se crearon 64,2 Zetabytes de datos, cifra muy cercana a la capacidad de almacenamiento total instalada que alcanza los 6,8 Zetabytes. La explosión de generación de datos tiene mucho que ver con el impulso de la Covid-19, que disparó el consumo por la implantacion del trabajo y educación remotas, el aumento del ocio digital y del consumo de redes sociales.
Firma: SeRgio goRdillo
Sin embargo, de todo este volumen de datos en constante crecimiento, hasta 2021 solo se han guardado y almacenado el 2%, la gran mayoría restante o bien se pierde, o bien forman parte de lo que se conoce como “datos efímeros” es decir, aquellos únicamente asociados al momento del consumo, que requieren almacenamiento solo temporal, o que son actualizados o sobrescritos con datos nuevos.
En este contexto, lo que está claro es que las compañías deberían preparar sus sistemas para capturar más información. Los datos son y serán un valor de negocio clave para las organizaciones, permitiéndoles entrar en lo que se conoce como el círculo virtuoso de los datos: la captura de datos permite generar información de valor, que analizada y explotada, genera insights de negocio para mejorar la toma de decisiones y generar más ventas, las cuales volverán a entregar más datos que generarán nuevos insights.
más datos, nuevos retos
Con tal volumen de información, muchas organizaciones se enfrentan a retos relacionados con la gestión, organización y consumo ordenado del dato, más si cabe en entornos de tecnología cloud e híbridos.
A medida que la organización escala, aparecen nuevas necesidades e iniciativas que, en muchos casos, implican la construcción de repositorios de datos dispersos en distintas áreas, con distintas tecnologías y con distinto modo de consumo.
En muchas ocasiones, esta situación presenta problemas derivados del mantenimiento de estos repositorios
de información que pasan a ser silos aislados. La generación de silos en la organización trae derivados problemas como el desconocimiento o inaccesibilidad de la información por parte de las distintas unidades de negocio, que trabajan sin visibilidad de lo que hacen otras áreas y sin aprovechar el valor que estas generan; la replicación del trabajo en distintas áreas y departamentos, repitiendo tareas una y otra vez cuando se podrían generar sinergias más eficientes; la incapacidad de poner en marcha iniciativas de casos de uso que consuman datos, ante la falta de conocimiento de la existencia de los mismos; la falta de confianza y fiabilidad en los datos existentes, causada por la propia gestión aislada y sin criterios comunes y compartidos, lo que lleva a su no uso o a dedicar excesivo tiempo a validarlos; y, por último, y quizás más clave, la inexistencia de una figura que represente y vele por la calidad y consistencia de los datos en el conjunto de la organización.
Pero, en un escenario así, no está todo perdido. Existen mecanismos que ayudan a enfrentar estos retos y que pasan por realizar un trabajo de descubrimiento del dato y de definición de palancas del cambio dentro de la organización.
La colaboración es indispensable, a través de trabajar estrechamente con y entre los representantes de negocio de cada área generadora de iniciativas y de datos dentro de la organización; la clasificación de dominios de datos de la organización, complementándolo con la
definición de subdominios y datasets
que pertenezcan a cada uno de ellos; el
identificar el dominio técnico de cada
uno de esos datasets; la definición de un framework de trabajo en cuanto a clasificación, catalogación y control de calidad del dato; y, todo ello, apoyado en una herramienta de gobierno del dato que ayude con la puesta en marcha del modelo de gestión y de gobierno.
La puesta en marcha de este tipo de mecanismos no es directa ni inmediata, implica una gestión del cambio dentro de los equipos de negocio e IT que requieren capacitación y tiempo. Una vez definido el marco de trabajo, hay ciertas labores que se pueden realizar de una manera distribuida en los distintos departamentos y equipos de trabajo y que ayudan enormemente a que la gestión del dato sea exitosa. • Distribuir la tarea de descubrimiento del dato inicial entre los equipos generadores de datos. • Establecer un modelo de gestión del dato (Data Owner, Data
Steward) donde cada área se responsabiliza de sus dominios de datos. • Repartir las tareas de catalogación del dato técnico y de negocio. • Definir claramente los mecanismos de acceso al dato y los responsables de los mismos.
Para la gestión y supervisión de estas tareas distribuidas, son necesarias
herramientas y soluciones tecnoló-
gicas. Por ejemplo, algunas organizaciones tienden a apoyar su gestión y gobierno del dato en suites completas, listas para usar y licenciadas tipo Collibra o Informatica. También existen
soluciones propias de los proveedores
cloud y versiones open source que permiten una customización de los procesos y funcionalidades a las necesidades concretas de cada organización, como son Apache Atlas o Datahub.
Este tipo de plataformas o herramientas ofrecen una serie de funcionalidades comunes: catálogo y organización de los datos y dominios de los datos, definición de roles y administradores del dato en sus distintos sabores, implementación de glosarios de términos de negocio, linaje del dato e información de consumo, funcionalidades de explotación del dato, reporting de uso y consumo…
En definitiva, la gestión eficaz y eficiente del dato requiere dar varios pasos indispensables: una fase de descubrimiento del dato de la organización, una fase de definición y consolidación de un marco de trabajo en cuanto a calidad, ownership y organización del dato y una etapa de aterrizaje e implantación tecnológica que nos ayudará en la puesta en marcha y en la implementación de ese marco de trabajo.
Las organizaciones que sean capaces de acometer esta transición a una
gestión del dato más distribuida,
accesible y eficaz, conseguirán implementar, más fácilmente y de forma exitosa, una cultura del dato dentro de la organización. .
