Redakt: Praktische GDPR-Compliance für AI-Teams
TL;DR
Mitarbeitern zu sagen „gebt keine personenbezogenen Daten in AI-Tools ein" funktioniert nicht, wenn man ihnen keinen Weg gibt, sich daran zu halten. Redakt ist ein Open-Source-PII-Anonymisierer, der auf Microsoft Presidio basiert und zwischen deinen Mitarbeitern und ihren AI-Tools sitzt. Text einfügen, anonymisierte Version mit Platzhaltern erhalten. Die Antwort der AI zurück einfügen, Originalwerte wiederherstellen. Der Server speichert niemals PII. Er läuft auf deiner Infrastruktur, in deinem Netzwerk. Keine zusätzlichen Auftragsverarbeitungsverträge nötig. Das Tool ist kostenlos, der Code ist offen.
Anfang dieses Monats habe ich über Shadow AI und die Compliance-Lücke geschrieben und darüber, wie Mitarbeiter, die nicht genehmigte AI-Tools mit personenbezogenen Daten nutzen, in ganz Europa stille GDPR-Haftungsrisiken schaffen — und wie die Kluft zwischen dem, was das Gesetz verlangt, und dem, was Unternehmen tatsächlich tun, jeden Tag größer wird.
Die Reaktionen haben eines klargemacht: Die Leute wissen, dass sie ein Problem haben. Aktuelle Maßnahmen fühlen sich an, als würden wir alle Whack-a-Mole spielen.
Der Ratschlag, mit dem dieser Beitrag endete, war ehrlich, aber unvollständig. Abteilungsspezifische Richtlinien, Listen genehmigter Tools, klarere Kommunikation — alles notwendig, alles unzureichend. Denn selbst mit perfekten Richtlinien hast du immer noch dasselbe grundlegende Problem: Ein Mitarbeiter sitzt vor ChatGPT mit einem Absatz Text, der den Namen, die E-Mail-Adresse und die Bestellhistorie eines Kunden enthält, und hat keine praktische Möglichkeit, diese Daten zu entfernen, bevor er auf Enter drückt.
Also habe ich etwas gebaut.
Ein Tool ist besser als eine Richtlinie
Ein Vertriebsmitarbeiter fügt den Namen, die E-Mail-Adresse und die Bestellhistorie eines Kunden in die kostenlose Version von ChatGPT ein — mit einem privaten Account — um eine Follow-up-E-Mail zu verfassen. Dreißig Sekunden später hat er ein poliertes Ergebnis. Er schickt es ab und denkt nie wieder daran. Diese dreißig Sekunden haben gerade eine potenzielle Datenschutzverletzung nach GDPR Artikel 4(12) erzeugt: personenbezogene Daten, die ohne DPA, ohne Rechtsgrundlage und ohne Wissen der betroffenen Person an einen Dritten übermittelt wurden. Die 72-Stunden-Meldefrist beginnt zu laufen, sobald das Unternehmen davon erfährt.
Der Vertriebsmitarbeiter ist nicht leichtsinnig. Er tut das, was ihm jeder Produktivitätsblog empfiehlt. Ich kann es ihm nicht verübeln. Der Druck, AI zu nutzen, ist real. Das Problem ist nicht die Motivation. Es ist, dass „anonymisier es einfach vorher" ein Ratschlag ohne Mechanismus ist.
Was bedeutet „anonymisieren" überhaupt für jemanden, der kein Datenschutzspezialist ist? Jeden Namen manuell finden und durch „Person A" ersetzen? Du kannst ein Verhaltensproblem nicht mit einem Richtliniendokument lösen. Du löst es mit einem Tool.
Redakt im Überblick
Redakt ist eine Open-Source-Webanwendung und REST API zur Erkennung und Anonymisierung von PII in Texten, bevor diese ein AI-Tool erreichen. Es umhüllt Microsoft Presidio, Microsofts bewährtes PII-Erkennungsframework, und fügt einen praktischen Workflow hinzu, der genau für das oben beschriebene Szenario entwickelt wurde.
So funktioniert es:
1. Füge deinen Text ein. Der Mitarbeiter nimmt den Text, den er an ein AI-Tool senden möchte, und fügt ihn in Redakts Weboberfläche ein.
2. Redakt erkennt und ersetzt PII. Namen werden zu <PERSON_1>, E-Mail-Adressen zu <EMAIL_1>, Telefonnummern zu <PHONE_1>. Jeder Entitätstyp bekommt einen nummerierten Platzhalter, der die Struktur und Bedeutung des Originaltexts bewahrt.
3. Kopiere den anonymisierten Text in dein AI-Tool. Die bereinigte Version geht in ChatGPT, Claude, DeepL oder was auch immer der Mitarbeiter bevorzugt. Die AI generiert ihre Antwort mit den Platzhaltern.
4. Füge die Antwort der AI zurück in Redakt ein. Die Antwort kommt mit <PERSON_1> und <EMAIL_1> zurück. Redakts Deanonymisierung stellt die Originalwerte wieder her und der Mitarbeiter hat ein fertiges, personalisiertes Ergebnis.
Das Mapping zwischen Platzhaltern und echten Werten lebt in der Browser-Session. Es berührt niemals den Server. Der Server verarbeitet Text, erkennt PII, liefert Ergebnisse und vergisst. Zustandslos by Design.
Das Compliance-Tool ist compliant
Jede Architekturentscheidung in Redakt wurde getroffen, um den Compliance-Aufwand des Tools selbst zu minimieren.
Keine PII im Ruhezustand. Der Server speichert niemals personenbezogene Daten. Er verarbeitet Text im Arbeitsspeicher und verwirft ihn. Das bedeutet, dass Redakt nicht zu einem weiteren System wird, für das du eine Datenschutzerklärung schreiben musst.
Kein zusätzlicher DPA erforderlich. Da Redakt auf deiner Infrastruktur läuft und keine Daten persistiert, brauchst du keinen Auftragsverarbeitungsvertrag mit irgendjemandem, um es zu nutzen. Vergleiche das mit dem Senden derselben Daten an einen cloudbasierten Anonymisierungsdienst, der selbst einen DPA, internationale Transfermechanismen und den gesamten Compliance-Overhead erfordern würde, den du eigentlich vermeiden willst.
Unternehmensinterner Einsatz. Ein docker compose up-Befehl und du hast den vollständigen Stack in deinem Netzwerk laufen. Deine Daten verlassen niemals deine Infrastruktur. Keine grenzüberschreitenden Transferprobleme. Keine Drittverarbeitung.
REST API für Automatisierung. Die gleichen Anonymisierungsfähigkeiten, die über die Web-UI verfügbar sind, werden als API-Endpunkte bereitgestellt. AI-Agenten und automatisierte Workflows können Redakt programmatisch aufrufen. Das wird wichtig, wenn Unternehmen von der individuellen AI-Tool-Nutzung zu agentischen Workflows übergehen, bei denen Prompts ohne menschliches Eingreifen generiert und gesendet werden.
Basiert auf Presidio. Das ist kein Regex-basiertes Spielzeug. Microsoft Presidio kombiniert Pattern Matching (für strukturierte PII wie E-Mail-Adressen, IBANs und Steuer-IDs), NLP-basierte Named Entity Recognition (für Personennamen, Orte und Organisationen) und kontextbezogenes Scoring (umgebende Wörter wie „E-Mail" oder „Telefon" erhöhen die Erkennungskonfidenz). Es liefert 13 deutschlandspezifische Recognizer mit: Steueridentifikationsnummer, Reisepass, Personalausweis, KFZ-Kennzeichen und mehr. Für ein europäisches Publikum ist diese Abdeckung entscheidend.
Das ist keine Magie
PII-Erkennung ist nicht perfekt. Kein System erfasst 100 % der personenbezogenen Daten. Kontextabhängige PII — eine Straßenadresse, die keinem bekannten Muster entspricht, ein Spitzname, ein indirekter Identifikator — kann durchrutschen. Redakt tendiert zur Übererkennung (etwas zu markieren, das keine PII ist, ist besser als etwas zu übersehen, das PII ist), aber es ist eine Schutzschicht, keine Garantie.
Das macht kostenlose AI-Tools nicht compliant. Selbst mit anonymisiertem Text wirft die Nutzung kostenloser Tools für geschäftliche Zwecke weitere Compliance-Fragen auf (Nutzungsbedingungen, Datenaufbewahrungsrichtlinien, fehlende Enterprise-Kontrollen). Redakt reduziert das Risiko personenbezogener Daten, aber das ideale Setup ist nach wie vor: Enterprise-Tools mit ordentlichen DPAs, plus Anonymisierung als Defense-in-Depth-Schicht.
Verhaltensadoption bleibt der schwierige Teil. Das Tool existiert. Jeden Mitarbeiter dazu zu bringen, es vor jedem Prompt zu nutzen, ist eine Change-Management-Herausforderung, keine technische. Aber ein konkretes, einfach zu nutzendes Tool macht dieses Gespräch deutlich praktischer als „sei einfach vorsichtig mit personenbezogenen Daten."
Ein Weg nach vorne
Compliance bedeutet nicht, die AI-Nutzung einzuschränken. Jede Regulierung, die ich als AI-Engineer durchgearbeitet habe, folgt derselben Grundlogik: Du darfst diese Tools nutzen, aber du musst die Menschen schützen, deren Daten du verarbeitest. Das ist keine unzumutbare Forderung. Es ist das Minimum.
Der Code ist auf GitHub. Der vorhergehende Beitrag über Shadow AI und die Compliance-Lücke liefert den vollständigen regulatorischen Kontext. Redakt ist ein Tool für einen Teil dieses Problems. Es ist Open Source, weil Compliance-Tooling kein Profitcenter sein sollte, sondern Infrastruktur.