数据库数据加密的 4 种常见思路的对比

  • 应用层加解密方案
  • 数据库前置处理方案
  • 磁盘存取环节:透明数据加密
  • DB 后置处理

最近由于工作需要,我对欧洲的通用数据保护条例做了调研和学习,其中有非常重要的一点,也是常识性的一条,就是需要对用户的个人隐私数据做好加密存储,避免用户隐私明文数据泄露。
方案分析
思考如何对用户隐私数据做好加密处理,可以先从分析典型的数据读写链路开始:

becdab5aedcf3b08fc970a0019771a8b.jpeg


按照此链路分析,可以按照数据加密的着手点,划分数据加密的 4 类解决方案:

  • 应用层加解密:由应用程序自行负责数据的加解密,这是最自由,但也是最繁琐的一种方案;
  • DB 前置处理:在数据库服务器开始服务之前嵌入加密逻辑,典型代表是数据库代理服务;
  • 磁盘存取环节:这种方案的基本思路则是绕到数据库的身后,在文件系统中注入钩子进程,这样可以在磁盘数据读写之前嵌入加密逻辑,一般
  • DB 后置处理:在数据库服务之后嵌入加密逻辑,依赖数据库提供的触发器以及函数定制功能等。

下面就这几类方案展开分析。
应用层加解密方案
采用这种方案的话,数据加解密对数据库无感知,由应用在存入数据前完成加密,在读取数据后完成解密。这种方案的优点是:

  • 迁移性好:因为不依赖任何数据库特性或者操作系统特性,只需要部署代码即可运行;
  • 实现灵活:逻辑放在应用层,各种定制或者扩展都非常方便进行,可以轻松实现按表/按列的加密存储。

当时,缺点也非常明显:

  • 影响使用数据库高级特性:比如数据库索引以及执行计划等;
  • 大幅影响数据库查询性能:比如 Like 的前缀查询以及 Where 的范围查询等,都会因为数据加密后而只能全表扫描;
  • 开发维护成本高:每次新增需要加解密数据时都需要对应完成开发调试与测试,开发人员在应用里既要关注核心业务逻辑,还要关注大量的数据加解密的逻辑,当有多个应用或者系统需要集成加解密功能时,每个应用或者系统都需要重复建设此能力。

在应用层实现加解密方案的话,实现上可以考虑结合各类 orm 的回调函数机制,如 golang 中流行的 ORM 框架 gorm 所提供的 Callbacks 机制,又或者是 Ruby on Rails 框架中 Active Record 的 Callbacks 机制,这些机制都能有效帮助我们将业务代码和控制代码进行相互隔离。
数据库前置处理方案
采用数据库前置处理方案,算是对应用层加解密方案的优化,本质思想是将加解密的关注点独立,从应用内部完全抽离,独立服务,同时实现加解密逻辑的复用性。
使用数据库前置处理,能够集成应用层加密方案的一些优点,同时解决了后者存在的一些问题:

  1. 灵活性:数据库代理同样具备较好的灵活性,可以实现列级的加解密;
  2. 复用性较好:多个应用或者系统不再需要重复建设,使用独立维护服务的数据库代理,能够实现快速的加解密功能的接入;
  3. 较高的透明度:应用开发人员无需在自身内部关注加解密逻辑,但是由于数据库代理的 SQL 兼容性下降,应用开发过程中不得不保持对 SQL 兼容性的理解。

数据库前置处理方案也有自身的一些缺陷:

  1. 稳定性下降,加大运维负担:因为整体架构引入了额外的服务节点,会给整体的服务成本以及问题排障场景增加负担,在遇到数据处理问题时,需要卷入数据库代理服务的维护人员一起排查故障;
  2. 无法利用数据库高级特性:和应用层数据加解密方案类似,此方案下,由于数据加密后经由数据库存储和索引,在查询场景中,涉及范围类型的数据检索都会导致扫表;
  3. 一致性问题:由于需要在数据库代理中维护业务数据表/或列的元信息,引入了代理层的配置信息和业务数据库设计的一致性问题。

磁盘存取环节:透明数据加密
目前各家云服务厂商基本都提供了这个方案的服务,简称透明数据加密(TDE)。这个方案的实现原理比较巧妙,它工作于操作系统层面,作用于数据库数据文件,通过 i/o 的钩子进程,在数据库存储引擎读写数据到文件系统的时候嵌入加解密逻辑,在写入数据前完成加密,而在数据读取后要返回给存储引擎进程之前执行解密,而整个过程对数据库存储引擎是完全透明的。
这个方案的优点诱人得多:

  • 透明性:因为方案在数据库服务器上发挥作用,所以对应用完全透明,应用仍旧直连数据库,而且完全不用担心 SQL 兼容性问题等;
  • 支持所有数据库高级特性:由于这套方案同时也是对数据库引擎完全透明,在数据库视角,是否加解密在数据检索逻辑以及执行计划优化、事务管理等各个方面都没有区别,所以这种方案能够完美保留数据库的高级特性;

当然,没有完美的方案,这个方案存在一定限制:

  • 仅能表级加密:由于这个方案是对数据文件进行的无感加解密,所以它最大的限制是无法实现指定数据表中部分列的加密,当然,如果你的业务里,能够设计出刚好全表或者几乎全部列需要加密的结构,这种限制完全不是问题;
  • 平台兼容性问题:由于依赖了操作系统层面的设计,所以这套方案可能只能运行于特定的平台之上;另外如果是云场景之下,还需要考虑不同公有云所提供的方案差异,特别是使用方式上的细节差异,这些都可能导致同一套系统在云厂商之间迁移时出现水土不服的问题。

在我自己的业务系统的设计方案中,我们引入了用户隐私域的概念,在设计上会将用户隐私数据和业务流程数据分离,天然实现用户隐私数据的集中存储,于是全表数据加密对我们是最合适的选择。
DB 后置处理
DB 后置处理是基于数据库的触发器和自定义函数功能等,在数据库服务器执行查询过程中触发自定义加解密逻辑的执行。这种方案可以说是解决了前面几个方案存在问题:

  • 透明性:DB 后置处理,对应用完全透明;
  • 数据库高级特性:完全兼容;
  • 灵活性:可以灵活实现列级数据加密等。

尽管这个方案看起来也很美,但是它依然不完美:

  • 反模式:我个人一直抗拒在数据库服务器上管理函数或者触发器等,因为这些东西都不易于管理,更不用说实现版本管理等;
  • 数据库兼容性问题:由于依赖数据库提供的特性,在不得不更换数据库等场景下,这套方案基本无法实现快速迁移。

汇总对比
说了这么多,对比下几套方案的差异:

95f754b0e99a9f31a1663486cce1b53a.jpeg

几种方案共存的问题
前面分析中始终没有去讨论的问题,是不管哪种方案都无法绕开的问题:

  • 性能开销:数据加解密过程的额外开销,数据加解密需要大量的计算过程,这个会带来不容忽视的性能开销,在加解密算法的选择上,需要在确保数据安全性的前提下,尽可能选择尽可能高效的加密算法;
  • 空间膨胀:除了性能开销会影响加密算法的选择,加密算法可能还会带来空间膨胀的问题,也就是密文比明文变长的问题,如果是空间膨胀,数据库列在各类长度的设计上还需要额外考虑列数据膨胀后的长度。我了解了下,AES 加密算法的 CTR 模式则能实现密文和明文长度一致;
  • 密钥管理问题:不管哪种加密方案,都需要想好密钥的私密存储以及定期轮换问题等,否则一旦密钥泄露,加密得再好的数据也可能被一锅端了。

总结数据存储安全是一个越来越重要,也是应用系统设计阶段必须提前考虑好的问题,因为它涉及的是服务质量和成本平衡的复杂问题。数据加密在业务合规以及隐私保护中正在逐步扮演常识性的地位,如同大家如今都知道密码不能明文存储一样,未来各类个人隐私数据加密也应该会成为系统中的标配设计。


转发自:https://blog.hackerpie.com/posts/architecture/data-encrpytion/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/391754.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Jetson下的i2c、spi、gpio、can、uart、485代码示例使用说明

适用于刚接触新设备的同学参考。 UART 演示代码 目前,这是一个简单的 Python 3 脚本,用于与 NVIDIA Jetson Nano 开发套件的 J41 头上的 UART 进行交互。当然只要是jetson都可以用,改一下程序里面的设备节点就行 JetsonHacks 上的原始文章&…

智能摄像头prv文件恢复案例

家用智能摄像头一般采用的是mp4或者mov视频方案,常见的是mp4,对于部分有开发能力的厂商可能会采用自定义方案(如360的bin文件),今天我们来看一个小厂的PRV自定义文件的恢复案例。 故障存储: 32G TF卡/fat32/ 簇(块)大…

stl~string

迭代器 typedef char* iterator;typedef const char* const_iterator;iterator begin(){return _str;}iterator end(){return _str _size;}const_iterator begin() const//左值const{return _str;}const_iterator end() const{return _str _size;} for(auto e : …

Nginx (window)2024版 笔记 下载 安装 配置

前言 Nginx (engine x) 是一款轻量级的 Web 服务器 、反向代理(Reverse Proxy)服务器及电子邮件(IMAP/POP3)代理服务器。 反向代理方式是指以代理服务器来接受 internet 上的连接请求,然后将请求转发给内部网络上的服…

【IO流】32.IO流

IO流 1. IO流1.1 概述1.2 作用1.3 分类1.4 注意事项 1. IO流 IO流:存储和读取数据的解决方案。 I:input O:output 流:像水流一样传输数据 1.1 概述 IO(Input/Output)流是计算机程序用于与外部设备进行数据…

ABC341 A-G

Toyota Programming Contest 2024#2(AtCoder Beginner Contest 341) - AtCoder B读不懂题卡了,F读假题卡了,开题开慢了rank了 A - Print 341 题意: 打印一串交替出现的包含N个0,N1个1的01串 代码&…

2024年【高处安装、维护、拆除】模拟考试题库及高处安装、维护、拆除实操考试视频

题库来源:安全生产模拟考试一点通公众号小程序 高处安装、维护、拆除模拟考试题库是安全生产模拟考试一点通生成的,高处安装、维护、拆除证模拟考试题库是根据高处安装、维护、拆除最新版教材汇编出高处安装、维护、拆除仿真模拟考试。2024年【高处安装…

【摸鱼日常】使用Docker部署RPG网页小游戏

一、本次实践介绍 1. 本次实践简介 本次实践部署环境为个人测试环境,快速使用docker部署RPG网页小游戏。 rootWellDone:/home/goodjob# uname -a Linux WellDone 6.5.0-14-generic #14~22.04.1-Ubuntu SMP PREEMPT_DYNAMIC Mon Nov 20 18:15:30 UTC 2 x86_64 x86_…

0风险开抖店,真的可以实现吗?多年电商运营告诉你答案!

大家好,我是电商糖果 普通人,手里存款不多,可以开抖店吗? 说实话2024年,不少朋友找糖果聊过这个问题。 手里没有那么资金,害怕风险太大,自己会陷进去。 但是这两年又没有特别好的轻资产创业…

精通C语言:打造高效便捷的通讯录管理系统

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:C语言项目 贝蒂的主页:Betty‘s blog 引言 在我们大致学习完C语言之后,我们就可以利用目前所学的知识去…

HarmonyOS一杯冰美式的时间 -- 验证码框

一、前言 像是短密码、验证码都有可能需要一个输入框,像是如下: 恰好在写HarmonyOS的时候也需要写一个验证码输入框,但是在实现的时候碰了几次灰,觉得有必要分享下,故有了此篇文章。 如果您有任何疑问、对文章写的不…

C++| VS+QT快速入门

VSQT C开发QT的方式VSQT和QT Creater的区别VSQT使用:入门案例——加法器创建项目UI文件运行项目编辑UI界面代码交互编写中文显示乱码 C开发QT的方式 C开发QT有两种方式,一种是VSQT,还有一种是QT Creater。 QT Creater的用法已经在C学习| QT…

Java Lambda表达式:简化编程,提高效率

Java Lambda表达式:简化编程,提高效率 1. 使用Lambda表达式进行集合遍历1.1 未使用Lambda表达式:1.2 使用Lambda表达式: 2. 使用Lambda表达式进行排序2.1 未使用Lambda表达式:2.2 使用Lambda表达式: 3. 使用…

Sora:将文本转化为视频的创新之旅

一.能力 我们正致力于让 AI 掌握理解和模拟物理世界动态的能力,旨在培养能够协助人们解决现实世界互动问题的模型。 介绍 Sora——我们开发的文本到视频转换模型。Sora 能够根据用户的输入提示,生成最长达一分钟的高质量视频内容。 目前,Sora…

MCU中断控制

目录 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 2、可屏蔽中断和不可屏蔽中断的区别 3、中断优先级 4、常见特殊中断 二、中断相关寄存器 三、中断使用步骤: 一、中断相关基础知识 1、NVIC:嵌套向量中断控制器 (1) 它是内核的…

1.8 NLP自然语言处理

NLP自然语言处理 更多内容,请关注: github:https://github.com/gotonote/Autopilot-Notes.git 一、简介 seq2seq(Sequence to Sequence)是一种输入不定长序列,产生不定长序列的模型,典型的处理任务是机器翻译&#…

2.15练习

选择题 1. B2. B3. C4. D5. A6. B7. C8. B9. D10. B11. A12. B 填空题 1. a b c 2.string s: I like it. String t:A like it. 3. 30 10 30 n Learning

【复合多尺度熵与特征提取】一文看懂“复合多尺度熵”——复合多尺度样本熵、模糊熵、排列熵、包络熵、功率谱熵、能量熵、奇异谱熵及其MATLAB实现

在上一篇文章中,我们讲了多尺度熵的原理及MATLAB实现。 本篇要讲的是多尺度熵的一个改进特征提取方法——复合多尺度熵(Composite Multiscale Entropy, CMSE)。复合多尺度熵方法不仅继承了多尺度熵在揭示时间序列多尺度复杂性方面的优势&…

力扣题目训练(12)

2024年2月5日力扣题目训练 2024年2月5日力扣题目训练476. 数字的补数482. 密钥格式化485. 最大连续 1 的个数148. 排序链表164. 最大间距 2024年2月5日力扣题目训练 2024年2月5日第十二天编程训练,今天主要是进行一些题训练,包括简单题3道、中等题2道和…

c高级day4作业

终端输入一个字符,判断是大写字母小写字母还是数字字符。 #!/bin/bash read -p "input字符--->" a case $a in[[:upper:]])echo 大写字母$a;;[[:lower:]])echo 小写字母$a;;[0-9])echo 数字字符$a;;*)echo "error" esac终端输入年月&#x…