Un enfoque que preserva la privacidad en la arquitectura de streaming de datos

privacy-preserving-approach-data-streaming-architecture_2000x1300.jpg

Las perspectivas comerciales en (casi) tiempo real basadas en flujos continuos de datos están en creciente demanda. El procesamiento y análisis de streaming tienen el potencial de mejorar considerablemente la competitividad de las compañías. Sin embargo, esta tendencia se ve desafiada por la necesidad de seguridad y privacidad de los datos. Los enfoques tradicionales para la seguridad de datos, utilizados extensivamente en configuraciones de silos de datos únicos, no son adecuados para plataformas de datos modernas, que aprovechan las arquitecturas de streaming. Nuevas y estrictas regulaciones como GDPR, HIPAA plantean desafíos adicionales para las empresas centradas en datos. Esta publicación en el blog destaca conceptos relevantes para plataformas de datos exitosas que preservan la privacidad.

Introducción a la gestión de datos que preserva la privacidad

Para una gestión exitosa de datos que preserva la privacidad, una organización necesita combinar la gobernanza de datos y la seguridad de datos. Mientras que la gobernanza de datos se enfoca en gestionar procesos y metadatos, la seguridad de datos se enfoca en restringir el acceso a los datos.

Las técnicas estándar de seguridad de datos proporcionan auditabilidad de toda la plataforma de datos, trazabilidad de las acciones de los usuarios y acceso seguro a los recursos. Sin embargo, esto no es suficiente, como muestran las recientes brechas de datos:

  • Los servicios de confianza pueden ser comprometidos

  • Pueden ocurrir fugas de datos

  • Regulaciones de privacidad como GDPR o HIPAA traen más atención a esta área y son una fuerza motriz principal detrás de avances tecnológicos en el dominio de la privacidad de datos.

  • Consecuentemente, las soluciones estándar de seguridad de datos que apuntan a reducir la probabilidad de brechas de datos previniendo el acceso no autorizado y sellando datos en reposo necesitan ser complementadas por otro conjunto de técnicas fundamentales en el contexto de la privacidad de datos.

El objetivo: La privacidad de datos está en lugar para eliminar los efectos de las brechas de datos y la exposición de datos sensibles aplicando medidas de seguridad a los datos mismos.

Datos sensibles y protección de datos – ¿qué desafíos enfrentan las compañías?

Los datos sensibles pueden describirse como cualquier dato que requiera un modelo de confianza especial, siguiendo regulaciones impuestas por, por ejemplo, el gobierno o la industria.

Pueden ser:

  • Información Personal Identificable (PII)

  • Información Privada de Salud (PHI)

  • o Información No Pública (NPI)

La protección de datos, por otro lado, se entiende como seguridad de datos y privacidad de datos combinadas y debe volverse ubicua en plataformas de datos a lo largo de toda la tubería de datos. La protección de datos de usuario o datos sensibles, en general, debe ser de la mayor importancia en cualquier organización, sin embargo, el objetivo de asegurar datos compite naturalmente con su utilidad, es decir, aplicar técnicas de aleatorización a todos los datos sensibles los hace inutilizables para análisis y tener datos en silos invalida tanto los enfoques de análisis federados como de streaming.

No es fácil preservar la utilidad de los datos y al mismo tiempo cumplir con las regulaciones de privacidad. Está lejos de ser suficiente construir soluciones de protección de datos solo en la noción de aviso y consentimiento. Las partes autorizadas deben respetar la privacidad de los datos; por lo tanto, debe controlarse lo que puede inferirse de los datos.

La necesidad de perspectivas en tiempo real, generalmente logradas a través de arquitecturas de streaming de datos, plantea un desafío adicional para la privacidad de los datos. Los datos ya no solo están "en reposo" almacenados de forma segura en un almacenamiento dedicado. Los datos fluyen continuamente a lo largo de las tuberías de datos. Están "en tránsito", y debido al análisis de streaming, pueden estar continuamente "en uso".

Estos tres aspectos: "en reposo", "en tránsito", "en uso" hacen que sea un verdadero desafío desarrollar plataformas de datos que preserven la privacidad. Esto puede entonces obstaculizar el proceso de adopción de soluciones modernas para plataformas de datos.

Seguridad de Datos, Privacidad de Datos y Encriptación de Datos

La seguridad de datos y la privacidad de datos se complementan entre sí. Sin embargo, es crucial diferenciar entre ellas y reconocer técnicas utilizadas por la seguridad de datos y la privacidad de datos.

Como se mencionó, la seguridad de datos se enfoca en prevenir el acceso no autorizado y el uso de datos. Originalmente, cuando los datos estaban mayormente estáticos y almacenados en almacenes centrales con trabajos relacionados con datos que se ejecutan dentro de estos silos, las organizaciones confiaban en técnicas de control de acceso. Podría haber sido el control de acceso basado en roles (RBAC) que ya era una mejora sobre las listas de control de acceso (ACL). Sin embargo, tenía sus deficiencias y la necesidad de un control más detallado abrió camino para el control de acceso basado en atributos (ABAC). ABAC es uno de los métodos de seguridad más sofisticados y detallados. Sus técnicas utilizan atributos del propio dato, metadatos, contexto del sistema y propiedades de los usuarios.

Otro pilar de la seguridad de datos es la encriptación de datos. En caso de datos "en tránsito" la mayor parte del tiempo se consideraba suficiente el túnel de canal TLS con mecanismos de integridad y no repudio eventualmente utilizados. Para datos "en reposo" se aplicaba la encriptación criptográfica a nivel de conjunto de datos, sistema de archivos o disco completo. En caso de arquitecturas legadas que aprovechaban silos de datos estáticos y centralizados, estos conceptos proporcionaban un nivel de seguridad deseable ya que los datos raramente salían del almacenamiento y el procesamiento también ocurría en estos silos.

Por otro lado, un conjunto de herramientas de privacidad de datos aborda el problema de preservar una alta utilidad de los datos y mantener su privacidad en plataformas de datos dinámicas y descentralizadas. Como ya sabemos, el objetivo de la privacidad de datos es cumplir con regulaciones legales de privacidad como GDPR. Pero además, al mismo tiempo, su enfoque está en preservar su alta utilidad a través de una organización.

Tres maneras de habilitar exitosamente la privacidad de datos

Hay básicamente tres maneras complementarias de mejorar la privacidad de los datos:

  1. Dividir cuidadosamente la PII y otros datos sensibles del resto y democratizar el acceso solo a partes no sensibles: De esa manera, ambos conjuntos de datos pueden ser gestionados de manera diferente, es decir, para la regla del "derecho al olvido" de GDPR, es suficiente eliminar los registros respectivos solo del conjunto de datos PII.

  2. Aplicar métodos de anonimización y tokenización: Con estos métodos, la privacidad individual mejora mientras se retiene la capacidad de realizar análisis de datos.

  3. Aplicar encriptación: En arquitecturas de streaming de datos, esto se traduce en la encriptación criptográfica de mensajes a nivel de mensaje o incluso de campo, tanto para datos "en reposo" como "en uso".

Los tres se complementan entre sí y deben usarse como bloques de construcción de una plataforma de datos que preserva la privacidad. Sin embargo, como ninguna solución será nunca 100% infalible, el primer y principal enfoque debe ser almacenar el mínimo de datos necesarios.

¿Qué significa eso para una empresa?

Las regulaciones de privacidad afectan a todos los posibles tipos de datos y deben ser respetadas en cada industria. Estas regulaciones: GDPR, HIPAA, PCI DSS, por nombrar algunas, podrían restringir severamente la manera en que las organizaciones utilizan sus datos y como resultado, impactar negativamente en la competitividad y el desarrollo de nuevos productos. Un examen cuidadoso de posibles soluciones de técnicas que preservan la privacidad es crucial para que las organizaciones liberen el potencial oculto en sus datos.

Para resumir, la seguridad de datos apunta a asegurar la confidencialidad de los datos sensibles y el acceso seguro a recursos mientras proporciona auditabilidad de actividades en el sistema y trazabilidad de las acciones de los usuarios. Sin embargo, la tendencia a moverse hacia arquitecturas de streaming de datos federadas por un lado y nuevas regulaciones de privacidad por el otro requieren técnicas adicionales para mantener alta la utilidad de los datos. Tales técnicas están asociadas con los llamados conceptos de privacidad de datos que explicaremos en el siguiente post del blog, ¡así que mantente atento!

Head of Data Engineering

Pawel Wasowicz

Pawel es Head of data Engineering en Mimacom en Berna, Suiza, y ayuda a nuestros clientes a sacar el máximo partido de sus datos aprovechando las nuevas tendencias, tecnologías ya probadas y los muchos años de experiencia en este campo.