首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Presidio:文本与图像敏感数据脱敏框架

Presidio:文本与图像敏感数据脱敏框架

原创
作者头像
用户11764306
发布2026-06-07 07:06:09
发布2026-06-07 07:06:09
30
举报

Presidio:数据保护与去标识化SDK

这是一个上下文感知、可插拔且可定制的PII(个人敏感信息)去标识化服务,适用于文本和图像。

组件概览

组件

状态

Presidio Analyzer

Coverage

Presidio Anonymizer

Coverage

Presidio Image-Redactor

Coverage

Presidio Structured

Coverage

什么是Presidio?

Presidio(源自拉丁语praesidium,意为“保护、驻军”)有助于确保敏感数据得到妥善管理和治理。它提供快速识别和匿名化模块,用于处理文本中的私有实体,例如信用卡号、姓名、地点、社会安全号码、比特币钱包、美国电话号码、金融数据等。

主要链接:

项目目标

  • 通过普及去标识化技术并在决策中引入透明度,使组织能够更简单地保护隐私。
  • 支持针对特定业务需求的可扩展性和可定制性。
  • 在多个平台上促进完全自动化和半自动化的PII去标识化流程。

主要功能特性

  • 预定义或自定义的PII识别器:利用命名实体识别(NER)、正则表达式、基于规则的逻辑和校验和,支持多种语言的上下文关联。
  • 连接外部PII检测模型的选项。
  • 多种使用方式:从Python或PySpark工作负载,到通过Docker再到Kubernetes。
  • PII识别和去标识化的可定制性
  • 用于编辑图像中PII文本的模块(支持标准图像类型和DICOM医学图像)。

⚠️ 重要提示:Presidio 可以帮助识别非结构化/结构化文本中的敏感/PII数据。然而,由于它使用自动化检测机制,无法保证能找到所有敏感信息。因此,应部署额外的系统和保护措施。

安装与运行

安装方式:

  • 使用 pip
  • 使用 Docker
  • 从源码构建
  • 从V1版本迁移至V2

运行场景:

  • 文本中的PII去标识化
  • 图像中的PII去标识化
  • 使用示例和部署案例FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Presidio:数据保护与去标识化SDK
    • 组件概览
    • 什么是Presidio?
    • 项目目标
    • 主要功能特性
    • 安装与运行
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档