Data management: cómo superar los retos de la fragmentación de datos

Seguramente ya te hayas dado cuenta de una realidad en tu empresa: hay muchos tipos de datos diferentes. Se diferencian, por ejemplo, en su fuente, formatos, calidad, cantidad, madurez y en su potencial para tu empresa. Esta variedad de datos hace que, en la mayoría de los casos, sea inviable contar con una estrategia única para el uso adecuado de los datos, una infraestructura compartida o incluso una tecnología específica, debido precisamente a su diversidad.

Pero esto es bueno. Incluso, podemos decir que recomendable. ¿Te sorprende? Si es así, sigue leyendo.

El punto de partida: Los sistemas legacy y las plataformas de datos all-in-one no cumplen los requisitos actuales de gestión de datos

Hoy en día, la gestión de datos en muchas empresas es simplemente caótica. Los datos se recogen con fines tecnológicos y funcionales, pero también para garantizar el cumplimiento normativo, con lo que debe hacer frente a muchas exigencias. Sin embargo, a menudo esto ha dado lugar a una gran cantidad de plataformas de datos aisladas. La mayoría de estas plataformas de datos se centran cada una de ellas en tareas concretas, como el streaming o el análisis de datos, o el aprendizaje automático. Otras plataformas de datos, en cambio, hacen justo lo contrario: como solución todo en uno, prometen poder satisfacer (casi) todos los requisitos del procesamiento y uso de datos dentro de una sola plataforma. Mediante prácticas de marketing que generan falsas expectativas, suelen hacer creer a sus clientes que pueden satisfacer todas sus necesidades y complejas demandas con esa única herramienta de gestión de datos. ¡Toda una tentación! Sin embargo, muchos usuarios pronto se dan cuenta de que sus retos son mayores de lo que pensaban en un principio y así, el uso de las prometedoras herramientas se convierte en decepción.

Como resultado, muchas organizaciones acaban recurriendo a varios sistemas independientes heredados para cubrir todas las tareas y áreas de la gestión de datos y, a menudo, no tienen posibilidad alguna de migrarlos o no están soportados los costes de migración necesarios.

La consecuencia: un desarrollo revolucionario de las plataformas y arquitecturas de datos

El cambio revolucionario en el ámbito de los datos también ha contribuido a esta problemática, que tratamos aquí brevemente con cuatro hitos a modo de ejemplo:

Data Lakes: Para superar los retos de las empresas en la gestión de datos, se desarrolló la tendencia de ampliar las arquitecturas de data warehouse con OLTP (Online Transaction Processing, un tipo de procesamiento de datos en el que se realizan varias transacciones en paralelo) con soluciones NoSQL, entre otras. Estas han conquistado en muy poco tiempo el mundo de la gestión de datos en forma de data lakes. Ventaja: En los data lakes, el formato no importa, los datos se pueden almacenar, recuperar y procesar tal y como estén disponibles.
Data Streaming: Sin embargo, el OLTP se quedó pequeño rápidamente, por lo que a partir de este tipo de procesamiento enseguida surgieron las llamadas arquitecturas de streaming de datos. Ventaja: A diferencia del procesamiento paralelo que hizo posible el OLTP, las arquitecturas de streaming de datos permiten incluso el procesamiento de datos en tiempo real.
Data Lakehouses: Sin embargo, el procesamiento en tiempo real no supone el final del desarrollo de diversos enfoques para la gestión eficiente de los datos: con los llamados data lakehouses (una arquitectura de gestión de datos que combina las ventajas de los data warehouse y los data lakes) las empresas querían prescindir de silos de datos centralizados y seguir consolidando con las arquitecturas data fabric las tareas más relevantes en materia de gobernanza y seguridad de datos. Ventaja: Combina las ventajas de los data warehouse y los data lakes para ofrecer así beneficios como la reducción de la redundancia de datos, la simplificación de la observabilidad de los datos o la reducción de los costes del almacenamiento de datos.
Data Mesh: En los últimos cuatro años, el concepto de data mesh ha influido en gran medida en el ámbito de la gestión de datos. El data mesh se centra menos en la tecnología y más en la integración de estructuras organizativas probadas como dominios, equipos flexibles y DataOps. Ventaja: Esto aumenta la escalabilidad de una organización en cuanto a la gestión de datos, ya que puedes trabajar cómodamente con una cantidad de datos en rápido crecimiento y manejar perfectamente tanto los nuevos casos de uso como el creciente número de usuarios de los datos.

El reto: políticas de protección de datos para una gestión segura de la información y la inteligencia artificial como nuevo factor influyente

Sin embargo, todos estos avances en el ámbito de la gestión de datos chocan con los límites de la viabilidad, teniendo en cuenta la proliferación en los últimos años de nuevos reglamentos de protección de datos en todo el mundo:

Estos, como el Reglamento General Europeo de Protección de Datos, son muy exigentes, pero genéricos.
Otros van más allá y controlan estrictamente el intercambio de datos (como el marco de privacidad de datos UE-EE. UU. que es objeto de debate en la actualidad).
Otros cubren aspectos concretos como la Ley de Datos, la Ley de Gobernanza de Datos y la Ley de Inteligencia Artificial de la UE, entre otros.

Todo esto afecta a la gestión de datos en cada empresa y regula enfoques innovadores en materia de privacidad y desde el punto de vista de la seguridad. En cuanto a la inteligencia artificial, es importante señalar que se espera que los enormes avances en este ámbito conlleven más cambios en la gestión de datos. Cabe esperar que todas las innovaciones actuales en el campo de la inteligencia artificial influyan en el futuro de forma significativa en el modo en que las empresas gestionarán sus datos. Estas innovaciones en el ámbito de la IA incluyen actualmente, entre otras, las arquitecturas basadas en transformadores (los modelos de aprendizaje profundo), el modelo GPT-4 (como el conocido ChatGPT), nuevos enfoques potencialmente interesantes en el ámbito de la inteligencia artificial general y el machine learning automatizado, por nombrar tan sólo algunas de ellas.

El resultado: Las limitaciones en la gestión de datos podrían pasar pronto a la historia

La dinámica con la que cambia el ámbito de la gestión de datos es enorme, la demanda es alta y el número de factores que influyen es muy grande. El hecho de que en la actualidad no haya un ganador universal y claro entre las soluciones de gestión eficiente de datos no quita complejidad a este asunto. No obstante, me gustaría compartir aquí un par de consejos que, en mi opinión, han demostrado su eficacia y que la seguirán demostrando en el futuro.

El objetivo está claro: Las empresas prefieren hacer preguntas analíticas directamente en el idioma nacional, con la ayuda de una IA, parecida a J.A.R.V.I.S. en Iron Man, que se respondan inmediatamente a partir de los datos disponibles. Suena sencillo y muy práctico, ¿verdad?

Un enfoque de este tipo tendría un potencial ilimitado en lo que respecta a la gama de preguntas. Además permitiría poner los datos pudieran a disposición de un público mucho más amplio. De esta forma, las empresas alcanzarían finalmente la tan deseada democratización de datos.

¿De verdad que esto es tan poco realista? Pues bien, aunque el último juguete del planeta, ChatGPT, aún no es útil para este uso, está claro que pronto se podrán superar las limitaciones que afectan a los llamados Modelos de Lenguaje de Gran Tamaño (Large Language Models). Es probable que otras variantes de esta arquitectura o de una arquitectura similar lleguen antes de lo esperado.

Sin embargo, antes de invertir en una tecnología de data mesh concreta con capacidad multicloud y políglota, es importante conocer primero las soluciones adecuadas a los requisitos particulares de cada empresa.

La solución: Enfoques eficaces para los complejos requisitos de la gestión de datos

A continuación, te presento brevemente cuatro de estos enfoques, con ejemplos, consejos y soluciones en cada caso:

1. Data Discoverability

Hace ya tiempo que las empresas dejaron de estar obligadas a recopilar datos en un solo lugar, bien fuera en un data warehouse o en un data lake, para que estuviesen disponibles.

Hoy en día, lo más importante es la inversión en el descubrimiento (discoverability) de los datos. Esto significa simplemente que las empresas tienen que centrarse en hacer que las ingentes cantidades de datos que gestionan sean fáciles de buscar para permitir que los respectivos cargos de la empresa encuentren los datos que necesitan.

Ejemplo: Un equipo de producto necesita datos sobre la experiencia del usuario y el uso del producto, mientras que un equipo de marketing necesita acceder a los grupos objetivo y a las necesidades de los clientes. Por otra parte, un experto en desarrollo de negocio debe tener siempre en cuenta los datos de la empresa en relación con la consecución de metas y objetivos.

Consejo: El descubrimiento de los datos debe ayudar por tanto a todos los usuarios potenciales a encontrar información útil dentro de la empresa, seguir las normas de uso correcto de los datos y conocer la estructura, especialmente los esquemas de datos. Hace algún tiempo se quiso reducir esta tarea mediante el proceso manual de la catalogación (Data Cataloging) y una solución de linaje de datos altamente especializada, es decir, dedicada a una tecnología. Sin embargo, en la mayoría de los casos se ha demostrado que este enfoque es demasiado lento e insostenible.

Solución: Las soluciones modernas de descubrimiento de datos se basan hoy en día en procesos automatizados, a menudo procedentes del ámbito del machine learning. Esto ha provocado un cambio en la gestión de datos, y ahora los datos se consideran productos. Esto significa que los responsables de dominios proporcionan los conjuntos de datos curados, que se describen con ayuda de metadatos adjuntos, por ejemplo.

2. Virtualización de Datos y Data Gateways

Por virtualización de datos se entiende una capa lógica de datos que integra datos empresariales de diferentes sistemas y los pone a disposición de forma unificada y centralizada en tiempo real. Esto permite gestionar los datos de manera eficaz, aun con un panorama de datos fragmentado.

Ejemplo: Los usuarios de negocio pueden crear un informe de datos unificado que incluya datos de diferentes fuentes, ya que estos se recuperan mediante la virtualización de datos y se disponibilizan en una vista integrada.

Consejo: Para que estos productos, es decir, los datos, puedan encontrarse y buscarse desde varios dominios, debes habilitar una arquitectura de datos transparente en tu empresa. Esto incluye la elaboración y el cumplimiento conjunto de una estrategia que abarque regulaciones y prescripciones para la gestión de datos. Conceptos como virtualización de datos y portales de datos también forman parte de ello.

Solución: Una capa virtual de este tipo puede admitir varias tecnologías de recuperación de datos, como SQL, REST y GraphQL, y, gracias a otras abstracciones como los data gateways, cubrir también los requisitos de esquema, seguridad y escalabilidad.

3. Data Marketplace y Data Observability

Uno de los argumentos en contra en el debate sobre arquitecturas de datos modernas se refiere al esfuerzo adicional que supone el mantenimiento de los datos y la generalización de las interfaces. Lamentablemente, no se pueden evitar los costes adicionales si una empresa quiere evitar la fragmentación incontrolable del panorama de datos, y al mismo tiempo aprovechar el potencial que albergan sus datos.

Ejemplo: Este tipo de costes se generan en ámbitos muy diversos. En su conjunto, los costes de almacenamiento, de entrada y salida en las cada vez más populares arquitecturas multicloud no se pueden subestimar, pero merecen la pena, sobre todo si consideramos las pérdidas que se producen por no utilizar los datos.

Consejo: Para aprovechar al máximo el potencial de tus datos, puedes permitir el acceso a ellos mediante un data marketplace interno. Este es un paso más hacia la democratización de los datos y aumenta su usabilidad.

Solución: Una plataforma centralizada en la que los productores pueden ofrecer datos y los consumidores encontrarlos también puede ayudar a repartir los costes relacionados con el intercambio de datos dentro de la empresa. Un data marketplace interno puede vincularse además a determinados aspectos de la supervisión de datos. Por ejemplo, midiendo la popularidad en los dominios, podrías controlar mejor las estrategias en el ámbito de la gestión de datos y calcular los costes de una forma más específica.

4. Empresas Data-Driven con equipos de DataOps

En general, es inevitable adaptar la organización de tu empresa si quieres gestionar tus datos de forma eficiente y aprovecharlos al máximo. Los equipos altamente especializados que se limitan a una sola tecnología para la gestión de datos tienden a fragmentar aún más el panorama de datos. En su lugar, se deberían introducir prácticas tipo DataOps.

Ejemplo: Así como muchos sistemas legacy solo pueden abarcar un área, quedando por tanto los datos aislados en muchos sistemas, los equipos de tecnología especializados pueden ayudar a perpetuar este enfoque si solo se centran en una aplicación.

Consejo: DataOps consiste, por el contrario, en formar una comunidad de datos global. Esto fomenta el intercambio de ideas y las actividades conjuntas de I+D que permiten la consolidación y la unificación de la arquitectura de datos en determinados aspectos críticos como son la seguridad, el descubrimiento, la observabilidad y la mensurabilidad.

Solución: Los equipos de DataOps son responsables de la gestión de los datos prescrita en la empresa, debaten los temas de integración y administran de manera centralizada herramientas que simplifican la conexión a la plataforma de datos y representan sin duda un enfoque acertado de la gestión de datos. Además, estos equipos asumen tareas como establecer mejores prácticas, definir convenciones de nomenclatura, generalizar metadatos y realizar el mantenimiento de portales de autoservicio, o incluso pipelines GitOps.

Conclusión

Hay muchas razones por las que el panorama de datos está fragmentado en una organización. La normativa legal, los dominios técnicos separados, las diferentes necesidades y objetivos, por nombrar sólo algunos ejemplos, contribuyen a que el panorama de datos esté aún más fragmentado en el futuro.

Para que las empresas puedan controlar esta fragmentación y evitar silos de datos aislados, puedes introducir ciertas prácticas. El objetivo de este artículo es dejar claro que, antes de poder utilizar los datos, primero hay que hacerlos descubribles y accesibles. Y aunque rara vez se logra esto con éxito simplemente introduciendo una nueva tecnología, puede funcionar con éxito mediante los cuatro enfoques descritos.

Por mi experiencia en numerosos proyectos de clientes, puedo asegurar que nuestros expertos en Mimacom pueden resolver con éxito cualquier reto relacionado con las plataformas de datos y la gestión de datos. Contacta con nosotros y te asesoraremos específicamente sobre tu arquitectura de datos.

Pawel Wasowicz

Pawel es Lead Data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.