1. 首页 > 头条

布隆过滤器揭秘 让URL黑名单存储从640GB缩小到35.88GB!

1.引言

大家好,我是小米,一个热爱分享技术的小伙伴。今天我们来聊一聊在实际工作中如何使用布隆过滤器(Bloom Filter)来处理大规模URL黑名单的存储和查询问题。

2.问题背景

假设我们有一个规模达到100亿的黑名单URL集合,每个URL的长度为64字节。如何高效地存储和查询这个黑名单呢?

3.散列表方法

我们先考虑一下常规的散列表方法。如果使用HashMap来存储这些URL:

显然,这样的存储需求是不可行的,因为它对内存的要求太高。

4.布隆过滤器介绍

这时候,我们可以引入布隆过滤器,它是一种高效的概率型数据结构,用于检测一个元素是否属于一个集合。布隆过滤器具有以下特点:

5.布隆过滤器原理

布隆过滤器由一个很长的二进制位数组和一系列随机映射函数(哈希函数)组成。

插入元素

当一个元素加入布隆过滤器时,执行以下步骤:

查询元素

查询一个元素是否在布隆过滤器中时,执行以下步骤:

6.计算布隆过滤器参数

为了更好地理解布隆过滤器的存储效率,我们需要计算以下参数:

假设我们允许的误判率为0.01%,我们可以使用以下公式来计算m和K:

其中,n是集合中的元素数量,p是允许的误判率。

具体计算如下:

代入公式:

通过计算,我们得出位数组的长度为287亿bit(约合35.88GB),需要20个哈希函数。这样,布隆过滤器的内存占用从原来的640GB大幅减少到了35.88GB,且具有较高的查询效率。

7.布隆过滤器的实现

下面是布隆过滤器的Java实现,包括初始化、添加元素和查询元素的代码。

代码说明

这个实现使用了MD5哈希函数,可以根据需求选择其他哈希函数。通过调整位数组大小和哈希函数数量,可以在存储效率和误判率之间取得平衡。

布隆过滤器作为一种高效的概率型数据结构,能够在大规模数据集上实现高效的存储和查询,特别适用于URL黑名单这样的场景。通过合理地选择位数组长度和哈希函数数量,我们可以在保证较低误判率的前提下,大幅减少内存使用。

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载者并注明出处:https://www.jmbhsh.com/toutiao/34188.html

联系我们

QQ号:***

微信号:***

工作日:9:30-18:30,节假日休息