Redakt:AI 团队的实用 GDPR 合规方案
太长不看版
告诉员工"不要在 AI 工具中输入个人数据"没有用——除非你给他们一个可以照做的方式。Redakt 是一款基于 Microsoft Presidio 构建的开源 PII 匿名化工具,位于你的员工和他们的 AI 工具之间。粘贴文本进去,得到一个用占位符替换后的匿名版本。把 AI 的回复粘贴回来,原始值就会被恢复。服务器从不存储 PII。它运行在你的基础设施上,在你的网络内部。不需要额外的数据处理协议。工具免费,代码开源。
本月早些时候,我写了一篇关于影子 AI 与合规缺口的文章,讨论了员工使用未经批准的 AI 工具处理个人数据如何在整个欧洲悄然制造 GDPR 责任,以及法律要求和企业实际做法之间的差距如何每天都在扩大。
读者的反馈说明了一件事:大家都知道自己有问题。现有的应对措施让人感觉像是在玩打地鼠游戏。
那篇文章最后给出的建议是诚实的,但不完整。部门级指导方针、批准的工具清单、更清晰的沟通——都是必要的,但都是不够的。因为即使政策完美无缺,你仍然面临同样的根本问题:一个员工坐在 ChatGPT 前面,面对一段包含客户姓名、邮箱和订单历史的文本,却没有任何实际方法在按下回车之前把这些信息剥离出来。
所以我做了一个工具。
工具胜过政策
一名销售代表把客户的姓名、邮箱和订单历史粘贴到 ChatGPT 免费版中,用个人账号起草一封跟进邮件。三十秒后,他们得到了一份精心打磨的结果。发送出去后就再也没想过这件事。然而这三十秒可能已经构成了 GDPR 第 4(12) 条下的潜在数据泄露:个人数据在没有 DPA、没有法律依据、且数据主体毫不知情的情况下被传输给了第三方。一旦公司发现,72 小时的通知时钟就开始倒计时。
这名销售代表并非不负责任。他们只是在做每篇生产力文章都建议他们做的事情。我无法责怪他们。采用 AI 的压力是真实的。问题不在于动机,而在于"先匿名化处理一下"只是一个没有执行机制的建议。
"匿名化"对一个不是数据保护专家的人来说到底意味着什么?手动找到每个名字然后替换成"某某人"?你无法用一份政策文件来解决行为问题。你需要用工具来解决。
Redakt 登场
Redakt 是一款开源 Web 应用和 REST API,用于在文本到达 AI 工具之前检测和匿名化其中的 PII。它封装了 Microsoft Presidio——Microsoft 成熟的 PII 检测框架,并添加了一套专门为上述场景设计的实用工作流。
它的工作方式如下:
1. 粘贴你的文本。 员工将想要发送给 AI 工具的文本粘贴到 Redakt 的 Web 界面中。
2. Redakt 检测并替换 PII。 姓名变成 <PERSON_1>,邮箱地址变成 <EMAIL_1>,电话号码变成 <PHONE_1>。每种实体类型都会得到一个编号的占位符,保留原始文本的结构和含义。
3. 将匿名化后的文本复制到你的 AI 工具中。 清理后的版本进入 ChatGPT、Claude、DeepL 或员工偏好的任何工具。AI 使用占位符生成回复。
4. 将 AI 的回复粘贴回 Redakt。 回复中带着完整的 <PERSON_1> 和 <EMAIL_1> 返回。Redakt 的去匿名化功能恢复原始值,员工就得到了一份完成的、个性化的结果。
占位符与真实值之间的映射保存在浏览器会话中,永远不会触及服务器。服务器处理文本、检测 PII、返回结果,然后遗忘。设计上就是无状态的。
合规工具本身也是合规的
Redakt 的每一个架构决策都是为了最小化工具本身的合规负担。
没有静态 PII 存储。 服务器从不存储个人数据。它在内存中处理文本然后丢弃。这意味着 Redakt 不会变成另一个你需要为之编写隐私政策的系统。
无需额外的 DPA。 因为 Redakt 运行在你的基础设施上且不持久化数据,你不需要与任何人签订数据处理协议(DPA)就可以使用它。相比之下,将同样的数据发送到基于云的匿名化服务,则本身就需要 DPA、国际数据传输机制,以及你正试图规避的所有合规开销。
企业内部部署。 一条 docker compose up 命令,你就能在自己的网络内运行完整的技术栈。你的数据永远不会离开你的基础设施。没有跨境传输的顾虑,没有第三方处理。
用于自动化的 REST API。 通过 Web UI 提供的匿名化能力同样以 API 端点的形式暴露。AI agent 和自动化工作流可以通过编程方式调用 Redakt。随着企业从个人使用 AI 工具转向 agentic 工作流——由程序生成和发送提示词、无需人工干预——这一点变得至关重要。
基于 Presidio 构建。 这不是一个基于正则表达式的玩具。Microsoft Presidio 结合了模式匹配(用于结构化 PII,如邮箱地址、IBAN 和税号)、基于 NLP 的命名实体识别(用于人名、地点和组织)以及上下文评分("email"或"phone"等周围词汇会提高检测置信度)。它内置了 13 个德国专用识别器:Steueridentifikationsnummer、Reisepass、Personalausweis、KFZ-Kennzeichen 等。对于欧洲用户来说,这种覆盖范围非常重要。
这不是魔法
PII 检测并非完美。 没有任何系统能捕获 100% 的个人数据。依赖上下文的 PII——不符合已知模式的街道地址、昵称、间接标识符——可能会漏掉。Redakt 倾向于过度检测(把不是 PII 的内容标记出来,总比遗漏真正的 PII 要好),但它是一层保护,不是一个保证。
这不会让免费版 AI 工具变得合规。 即使使用了匿名化文本,将免费版工具用于商业目的仍然会引发其他合规问题(服务条款、数据保留政策、缺乏企业级控制)。Redakt 降低了个人数据风险,但理想的方案仍然是:拥有正式 DPA 的企业版工具,加上匿名化作为纵深防御层。
行为习惯的养成仍然是最困难的部分。 工具已经存在了。让每个员工在每次提示之前都使用它,这是一个变革管理的挑战,而非技术挑战。但拥有一个具体的、易于使用的工具,会让这场对话比"小心处理个人数据"实际得多。
一条前进的道路
合规不是要限制 AI 的使用。作为一名 AI 工程师,我研究过的每一条法规都有相同的底层逻辑:你可以使用这些工具,但你需要保护那些数据正在被处理的人。这不是一个不合理的要求。这是底线。
代码在 GitHub 上。关于影子 AI 与合规缺口的前置文章提供了完整的监管背景。Redakt 是针对这个问题的一个局部的工具方案。它开源,因为合规工具不应该是一个利润中心,它应该是基础设施。