Democratización de datos - Privacidad en arquitecturas de streaming

data-democratization-privacy-streaming-architecture_2000x1300.jpg

Hoy en día, las empresas ven, por un lado, una creciente necesidad de streaming de datos, pero por otro lado, tienen que seguir nuevas regulaciones de privacidad. Este dilema desafía a las empresas a encontrar técnicas inteligentes de gestión de datos que les permitan cumplir con ambos fines. Por lo tanto, muchas industrias están bajo presión para mantener la utilidad de los datos alta mientras aseguran la seguridad y privacidad de los datos en todo momento. Las técnicas prometedoras que están buscando se llaman conceptos de privacidad de datos. Este post se centrará en estos conceptos y explicará cómo combinar la privacidad de datos con el enfoque de democratización de datos.

De datos aislados a la democratización de datos

La democratización de datos es un proceso o un conjunto de iniciativas que buscan facilitar el acceso a los datos mientras se preserva una gobernanza adecuada de los mismos. El objetivo es empoderar a los empleados para encontrar y usar datos de interés. Esta intención muestra un desarrollo significativo y tiene mucho potencial para las empresas. Por ejemplo, pueden mejorar el servicio y soporte al cliente porque su personal de servicio puede acceder a los datos del cliente más fácilmente. También, el rendimiento de procesos, máquinas o personal puede ser evaluado y optimizado gracias a mejores insights de datos que permiten a las empresas sacar el mejor provecho de sus operaciones.

Una vez que una organización está lista para democratizar datos, acortar la respuesta empresarial y pasar de un almacenamiento seguro único a streaming en tiempo real, las tuberías de datos que preservan la privacidad son imprescindibles. Si una empresa utiliza arquitecturas de streaming de datos federados (por ejemplo, en implementaciones híbridas o multi-nube) o incluso solo tiene una multitud de diferentes fuentes de datos, una solución de streaming de datos sólida y escalable se convierte en el fundamento para una gestión de datos bien funcionante y efectiva.

La relevancia de una estrategia de streaming de datos dedicada combinando privacidad de datos y democratización de datos

Ya sea finanzas, salud, manufactura, o cualquier otra industria, las empresas nunca deberían compartir datos sensibles sin pensar. Desafortunadamente, este miedo a compartir datos hace que las empresas se alejen de poderosas herramientas analíticas en muchos casos, por ejemplo, ofrecidas por proveedores de Nube Pública (PC) o de los portafolios de las organizaciones. Sin embargo, no tiene que ser así, ¡al contrario! El desafío es establecer una estrategia de streaming de datos dedicada. Esta estrategia debe centrarse en arquitecturas de streaming de datos para un flujo de datos eficiente y democratizado, pero también crear el ambiente y estructuras adecuados para una transferencia de datos segura y protegida.

Conceptos de privacidad de datos para un uso seguro y democratizado de datos

Hay muchas técnicas que podrían ayudar a las empresas a mantener sus datos seguros mientras al mismo tiempo impulsan la utilización de datos. Veámoslos en detalle:

  1. Definir datos que necesitan protección: Para las empresas, es decisivo filtrar y excluir datos que deben permanecer protegidos de un procesamiento adicional. Esto es principalmente el caso para datos sensibles de clientes o números y archivos corporativos. En este caso, los datos sensibles permanecen aislados y no son parte de los flujos de streaming de datos.

  2. Anonimizar y desconectar datos: Los métodos llamados de anonimización y perturbación permiten a las empresas desacoplar datos sensibles ya que análisis adicionales se basan en datos desidentificados. Soluciones populares aquí aprovechan algoritmos de privacidad diferencial. Esta es la única manera de mantener un control total sobre la privacidad mientras se usan análisis de Nube Pública (PC).

  3. Trae Tu Propia Llave (BYOK) o Mantén Tu Propia Llave (HYOK): dependiendo de cuán estrictas sean las necesidades de privacidad: Encriptar datos antes de enviarlos a la Nube y desencriptarlos después de que vuelvan a las instalaciones es una manera de asegurar un acceso seguro a los datos. Este enfoque facilita la transición a Nube Pública, sin embargo, en el caso de HYOK solo para propósitos de almacenamiento. La encriptación HYOK efectivamente prohíbe el uso de análisis de PC.

  4. Implementar encriptación E2E en el mensaje (o nivel de campo): Este concepto ofrece las capacidades de privacidad más detalladas. Dependiendo de dónde se gestionen las llaves, pueden prevenir análisis de PC o pueden combinarse con él. Al mismo tiempo, este procedimiento permite la posibilidad de transmitir datos sensibles y es compatible con el derecho al olvido del GDPR.

  5. Usar computación en el borde (Edge Computing) como un caso particular de preprocesamiento y filtrado de datos: EEn lugar de mover todos los datos a la Nube para análisis de PC (es decir, con la ayuda de BYOK), este enfoque permite que los análisis simplificados se muevan más cerca de donde se generan los datos. La computación en el borde puede aplicarse tanto en la manufactura como en sistemas de telemetría médica (sensores de pacientes) para aplicar el enmascaramiento de datos o implementar un análisis simple.

Como se puede ver, hay muchos conceptos entre los que elegir, y el enfoque real puede, aparte de las regulaciones de privacidad, referirse a muchos otros aspectos de la estrategia de datos de una organización. No existe un estándar que se ajuste a todos, pero las empresas pueden, junto con un experto como Mimacom, definir su mejor práctica individual.

El potencial del streaming de datos seguro

No obstante, los sistemas de streaming de datos ofrecen mucho más que solo integración y movimiento en tiempo real de datos y van mucho más allá de la funcionalidad básica de unión. Con analíticas de aprendizaje automático en tiempo real incluidas, el procesamiento de streaming y las analíticas de streaming remodelan la forma en que los datos en bruto se transforman y utilizan. Las capacidades de procesamiento de streaming de plataformas de datos reducen retrasos y abren el camino para insights accionables en tiempo real. Por lo tanto, es esencial darse cuenta de su pleno potencial y aplicar soluciones que preserven la privacidad a los datos "en uso".

Así es como puedes democratizar los datos en una infraestructura segura

Los sistemas de streaming que preservan la privacidad robustos y escalables no son fáciles de diseñar, y encontrar el equilibrio correcto entre utilidad y privacidad también es un desafío. Afortunadamente, el área está siendo investigada activamente, y cada vez aparecen más ideas y herramientas. Sin embargo, al inicio del programa de democratización, es bueno seguir unas pocas reglas básicas:

  1. Comienza pequeño: Elige un único dominio empresarial, tal vez incluso solo una parte de él. Elige un subconjunto de regulaciones de privacidad con las que los datos deben cumplir. Decide qué tipo de enfoque de privacidad de extremo a extremo es el más adecuado. Desarrolla soluciones PoC y asegúrate de que sean ampliables, retándolas dentro de la comunidad de la organización.

  2. Deja que la privacidad de datos sea parte de un programa de gobernanza de datos: La privacidad de datos es muy importante pero solo una parte de un programa de gobernanza de datos mucho más completo. Define objetivos y una visión para tu plataforma de datos para utilizar los mejores métodos para privacidad y gestión.

  3. Interactúa con una comunidad más amplia: Pasar de silos centralizados a plataformas de datos federadas podría potencialmente llevar a islas independientes desconectadas de soluciones parciales. Para evitar eso y retener el potencial de los datos, la gobernanza de datos debe conceptualizarse junto con todas las partes interesadas. Por lo tanto, construir una guild en toda la organización alrededor de tu plataforma de datos es favorable.

  4. Elige los métodos de privacidad de extremo a extremo correctos: Probablemente, no será solo un método de privacidad. Es crucial asegurar flexibilidad en qué método aplicar a un dado pipeline de streaming. Los métodos disponibles incluyen encriptación criptográfica de extremo a extremo a nivel de mensaje o campo. Este método es útil en escenarios de migración de datos y puente hacia la nube y aún permite analíticas de streaming, aunque al precio de una mayor utilización de recursos. Otros métodos aprovechan técnicas de desidentificación como la tokenización, perturbación y enmascaramiento.

  5. Minimiza la recopilación de datos: Reduce la cantidad de datos potencialmente sensibles almacenados y fluyendo a través de los pipelines de streaming. En el caso de la manufactura o la atención médica, las empresas deberían considerar dispositivos inteligentes, aplicando técnicas de preprocesamiento en el borde antes de enviar los datos a, por ejemplo, una nube pública para un análisis en profundidad.

Dentro de una organización, los streams de datos que preservan la privacidad les permiten conectar datos de diferentes divisiones. Tal agregación inteligente de datos puede ser crucial para crear o entrenar modelos más robustos y fiables, que luego pueden utilizarse para tareas como detección de fraude o evaluación de riesgos en el caso de instituciones financieras o para compartir y agregar datos de pacientes en sistemas de atención médica basados en IoT.

Reflexiones finales sobre la democratización de datos vs. privacidad de datos

La democratización de datos es un concepto que vale la pena examinar más de cerca. Permite a las organizaciones gestionar mejor el potencial de sus datos y puede influir positivamente en el desarrollo de nuevos productos, acelerar la entrega de productos e incrementar el retorno de inversión. En consecuencia, las arquitecturas de streaming se vuelven más generalizadas para maximizar la utilidad de los datos. Sin embargo, las estrictas regulaciones de privacidad del gobierno y la industria, que tienen como objetivo reducir el riesgo de filtraciones de datos y eliminar la consecuencia del eventual mal uso de los datos, podrían obstaculizar este proceso. Para seguir siendo una organización exitosa impulsada por datos, las empresas necesitan superar los desafíos planteados por estas regulaciones y utilizar métodos que preserven la privacidad en sus arquitecturas de streaming de datos. En Mimacom, estaríamos encantados de asistirte durante el desafiante proceso de adoptar y expandir tus plataformas de datos de streaming, reduciendo riesgos de privacidad y cumpliendo con el cumplimiento.

Head of Data Engineering

Pawel Wasowicz

Pawel es Head of data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.