Redakt: Cumplimiento Práctico del GDPR para Equipos de AI
TL;DR
Decirles a los empleados "no ingresen datos personales en herramientas de AI" no funciona si no les das una forma de cumplir. Redakt es un anonimizador de PII de código abierto construido sobre Microsoft Presidio que se coloca entre tus empleados y sus herramientas de AI. Pega el texto, obtén una versión anonimizada con marcadores de posición. Pega la respuesta de la AI de vuelta, recupera los valores originales. El servidor nunca almacena PII. Corre en tu infraestructura, dentro de tu red. No se necesitan acuerdos de procesamiento de datos adicionales. La herramienta es gratuita, el código es abierto.
A principios de este mes escribí sobre shadow AI y la brecha de cumplimiento, discutiendo cómo los empleados que usan herramientas de AI no aprobadas con datos personales están creando responsabilidad silenciosa bajo el GDPR en toda Europa, y cómo la brecha entre lo que la ley exige y lo que las empresas realmente hacen crece cada día.
La respuesta dejó algo claro: la gente sabe que tiene un problema. Las medidas actuales se sienten como si estuviéramos jugando al juego del topo.
El consejo con el que terminaba ese post era honesto pero incompleto. Guías específicas por departamento, listas de herramientas aprobadas, comunicación más clara — todo necesario, todo insuficiente. Porque incluso con políticas perfectas, sigues teniendo el mismo problema fundamental: un empleado sentado frente a ChatGPT con un párrafo de texto que contiene el nombre, email e historial de pedidos de un cliente, y ninguna forma práctica de eliminarlo antes de presionar enter.
Así que construí algo.
Una Herramienta Mejor que una Política
Un representante de ventas pega el nombre, email e historial de pedidos de un cliente en el tier gratuito de ChatGPT, usando una cuenta personal, para redactar un email de seguimiento. Treinta segundos después tiene un resultado pulido. Lo envía y nunca vuelve a pensar en ello. Esos treinta segundos acaban de crear una potencial violación de datos bajo el Artículo 4(12) del GDPR: datos personales transmitidos a un tercero sin un DPA, sin base legal y sin el conocimiento del titular de los datos. El reloj de notificación de 72 horas empieza a correr una vez que la empresa se entera.
El representante de ventas no es imprudente. Está haciendo lo que cada blog de productividad le dice que haga. No puedo culparlo. La presión para adoptar AI es real. El problema no es la motivación. Es que "simplemente anonimízalo primero" es un consejo sin un mecanismo.
¿Qué significa "anonimízalo" para alguien que no es especialista en protección de datos? ¿Encontrar manualmente cada nombre y reemplazarlo con "Persona A"? No puedes resolver un problema de comportamiento con un documento de políticas. Lo resuelves con una herramienta.
Presentando Redakt
Redakt es una aplicación web de código abierto y una REST API para detectar y anonimizar PII en texto antes de que llegue a una herramienta de AI. Envuelve Microsoft Presidio, el framework probado de detección de PII de Microsoft, y añade un flujo de trabajo práctico diseñado exactamente para el escenario descrito arriba.
Así es como funciona:
1. Pega tu texto. El empleado toma el texto que quiere enviar a una herramienta de AI y lo pega en la interfaz web de Redakt.
2. Redakt detecta y reemplaza PII. Los nombres se convierten en <PERSON_1>, las direcciones de email en <EMAIL_1>, los números de teléfono en <PHONE_1>. Cada tipo de entidad recibe un marcador de posición numerado que preserva la estructura y el significado del texto original.
3. Copia el texto anonimizado en tu herramienta de AI. La versión limpia va a ChatGPT, Claude, DeepL, o lo que el empleado prefiera. La AI genera su respuesta usando los marcadores de posición.
4. Pega la respuesta de la AI de vuelta en Redakt. La respuesta regresa con <PERSON_1> y <EMAIL_1> intactos. La desanonimización de Redakt restaura los valores originales y el empleado tiene un resultado terminado y personalizado.
El mapeo entre marcadores de posición y valores reales vive en la sesión del navegador. Nunca toca el servidor. El servidor procesa texto, detecta PII, devuelve resultados y olvida. Sin estado por diseño.
La Herramienta de Cumplimiento Es Cumpliente
Cada decisión arquitectónica en Redakt fue tomada para minimizar la carga de cumplimiento de la herramienta misma.
Sin PII en reposo. El servidor nunca almacena datos personales. Procesa texto en memoria y lo descarta. Esto significa que Redakt no se convierte en otro sistema para el que necesitas escribir una política de privacidad.
Sin DPA adicional requerido. Debido a que Redakt corre en tu infraestructura y no persiste datos, no necesitas un Data Processing Agreement con nadie para usarlo. Compara eso con enviar los mismos datos a un servicio de anonimización en la nube, que en sí mismo requeriría un DPA, mecanismos de transferencia internacional y toda la misma carga de cumplimiento que estás tratando de evitar.
Despliegue empresarial interno. Un comando docker compose up y tienes el stack completo corriendo dentro de tu red. Tus datos nunca salen de tu infraestructura. Sin preocupaciones de transferencia transfronteriza. Sin procesamiento por terceros.
REST API para automatización. Las mismas capacidades de anonimización disponibles a través de la interfaz web están expuestas como endpoints de API. Agentes de AI y flujos de trabajo automatizados pueden llamar a Redakt programáticamente. Esto importa a medida que las empresas pasan del uso individual de herramientas de AI hacia flujos de trabajo agénticos donde los prompts se generan y envían sin intervención humana.
Construido sobre Presidio. Esto no es un juguete basado en regex. Microsoft Presidio combina coincidencia de patrones (para PII estructurado como direcciones de email, IBANs e identificaciones fiscales), reconocimiento de entidades nombradas basado en NLP (para nombres de personas, ubicaciones y organizaciones), y puntuación contextual (palabras circundantes como "email" o "teléfono" aumentan la confianza de detección). Incluye 13 reconocedores específicos para Alemania: Steueridentifikationsnummer, Reisepass, Personalausweis, KFZ-Kennzeichen, y más. Para una audiencia europea, esta cobertura importa.
Esto No Es Magia
La detección de PII no es perfecta. Ningún sistema captura el 100% de los datos personales. PII dependiente del contexto — una dirección que no coincide con un patrón conocido, un apodo, un identificador indirecto — puede pasar desapercibido. Redakt se inclina hacia la sobre-detección (marcar algo que no es PII es mejor que pasar por alto algo que sí lo es), pero es una capa de protección, no una garantía.
Esto no hace que las herramientas de AI de tier gratuito sean cumplientes. Incluso con texto anonimizado, usar herramientas de tier gratuito para propósitos empresariales plantea otras preguntas de cumplimiento (términos de servicio, políticas de retención de datos, falta de controles empresariales). Redakt reduce el riesgo de datos personales, pero la configuración ideal sigue siendo: herramientas de tier empresarial con DPAs adecuados, más anonimización como una capa de defensa en profundidad.
La adopción conductual sigue siendo la parte difícil. La herramienta existe. Lograr que cada empleado la use antes de cada prompt es un desafío de gestión del cambio, no técnico. Pero tener una herramienta concreta y fácil de usar hace que esa conversación sea mucho más práctica que "simplemente ten cuidado con los datos personales."
Un Camino Hacia Adelante
El cumplimiento no se trata de restringir el uso de AI. Cada regulación que he trabajado como ingeniero de AI tiene la misma lógica subyacente: puedes usar estas herramientas, pero necesitas proteger a las personas cuyos datos estás procesando. Eso no es una petición irrazonable. Es lo mínimo.
El código está en GitHub. El post predecesor sobre shadow AI y la brecha de cumplimiento da el contexto regulatorio completo. Redakt es una herramienta para una parte de ese problema. Es código abierto porque las herramientas de cumplimiento no deberían ser un centro de ganancias, deberían ser infraestructura.