基础数据结构
布隆过滤器:
modular bloom filter
减少布隆过滤器所需要的内存。参考文献:Mun, J. H., Zhu, Z., Raman, A., & Athanassoulis, M. (n.d.). LSM-Trees Under (Memory) Pressure.
基础算法
字符串压缩
FSST算法
利用向量化计算加速字符串压缩和解压缩,支持在压缩数据中定位某一个字符串,性能略好于lz4。Boncz, P., Neumann, T., & Leis, V. (2020). FSST. Proceedings of the VLDB Endowment, 13(12), 2649–2661. https://doi.org/10.14778/3407790.3407851
自适应压缩算法
BtrBlocks
采样部分数据,然后自动选择效率最高的压缩算法。Kuschewski, M., Sauerwein, D., Alhomssi, A., & Leis, V. (2023). BtrBlocks: Efficient Columnar Compression for Data Lakes. Proceedings of the ACM on Management of Data, 1(2), 1–26. https://doi.org/10.1145/3589263