目录

一款支持差分隐私和去标识化的 SQL 查询代理

总体介绍

DPSQL (隐私保护 SQL 查询服务)-是位于数据库引擎(Hive、Clickhouse等)和应用系统之间的微服务中间件,提供透明的 SQL 查询结果脱敏能力,解决的核心问题是统计查询时因为差分攻击导致的个体用户隐私泄露,未来也计划支持明细查询的去标识化脱敏。可用于构建 privacy-by-design 应用,在多样的数据库环境中实现个人隐私保护。

概览

arch overview

主要特性

  • 支持 SQL 查询的自动化分析和应用差分隐私算法,不需要用户付出额外的 Sql 改造成本
  • 兼容多种数据源和 SQL 方言,目前已支持 ClickHouse、Hive,无缝、透明接入已有系统
  • 面向生产环境,提供完善的元数据管理、隐私预算管理能力,优化至毫秒级的查询性能开销
  • 支持主流的差分隐私算法:包括Laplace、Gaussian 加噪机制,高级组合机制,以及结果可用性计算等
  • 易于开发扩展:可快速扩展新的数据源类型、SQL 方言、差分隐私算法 项目特性

不足

项目是从内部项目剥离出来的,还处于早期阶段,目前主要存在以下问题:

  • 开源版本开发周期较短,未经严格测试,稳定性不能保证
  • 数据库引擎和 SQL 方言支持有限,仅支持 Hive、Clickhouse,可能不能满足大多数人的需求
  • SQL 复杂度支持有限,已经开源的部分只支持在查询结果上加噪,这样的方式对于嵌套查询不能很好的支持

快速使用

设计概览

感谢

本项目受到 opendp、google/differential-privacy、chorus 等项目启发,实现上也多有参考,这些都是非常 great 的项目,我们从中学习到了很多,感谢这些项目的开发者们。 感谢本项目成员,没有大家的共同努力,不会有这个项目的开源发布,希望能对隐私技术的应用推广做出一定的贡献。

License

Apache 2.0

邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号