大家平时刷抖音、视频号、快手时，几乎总能刷到最新的视频。那这里是怎么实现的呢？

上述场景，可以简单抽象为曝光去重，就是用户看过的 feeds1、feeds2、feeds3 ...... 等，如何保证在用户下次进入系统时不会再次出现呢？今天，我们就来探讨下几种实现方案吧。

方案一：Set

这个方案简单粗暴，就是每个用户用一个集合，存储看过的所有 feedsid。每次推荐系统要出新的 feeds 时，去 set 中 check 一下是否存在，如果存在的话，就过滤掉这条 feeds。

(资料图片仅供参考)

一般来说，像是短视频推荐的场景下，对 feeds 的实时性要求相对较高，一般会使用 Redis 作为曝光打击的载体。

不了解 Redis Set 的同学可以参考下：https://redis.io/commands/set/，简而言之就是一个字典。

这种方案的问题是，在海量用户的场景下，1是成本会很高(像 Redis 是纯内存数据库)；2是随着 feeds 数量越来越多，set 查询会随之变慢(像短视频的场景下，1晚上刷个上百条还是不成问题的)。

我们来简单试算一下，假设国民级 App 的日活跃用户在 3kw，每人每天平均刷 200 条视频 feeds，每条 feeds 的 id 长度为 32B。
如果以 Redis Set 的方案来计算：3kw * 200 * 32 * 1.5(Redis 数据结构自身存储) ~ 288G，每天需要消耗存储 288G，1个月呢？8.6T，1年呢？103T。以腾讯云 keewiDB 的持久内存来估计 64元/GB/月，1月成本大约 55w，有钱也不能这么造啊。

那有没有更优惠的实现方案呢？这就要说到本文的主角，布隆过滤器了。

方案二：Bloom Filter

布隆过滤器，本质上是一个高阶 Bitmap，最适合的场景就是海量数据的过滤了。

不了解 Bitmap 的同学可以参考 https://www.cnblogs.com/dragonsuc/p/10993938.html。

布隆过滤器介绍

布隆过滤器的结构如下图示：

bloom filter

简单说下它的使用：

1. 写入：对数据 data 进行 k 次 hash 运算(hash 函数可选择，本文不具体较少)，得到结果后，对 bit 数组相应位置置1。

2. 检查：对数据 data 同样进行 k 次 hash 运算，得到结果后，检测 bloom bit 数组中相应位置是否全为1，如全是1，则表示该 data 存在于 bloom 中；否则，表示该数据不在 bloom 中。

结合上述描述，我们可以得出如下结论：

1. bloom 中存的摘要，而不是原始数据 data，所以空间占用远远低于 set 的占用。

2. bloom 无法删除数据，如上图示 x、y 都对 bit 数组中 bits[2] 置1了，如果删除 x，则 bits[2]为0，y判定时，也判定失败了。

3. bloom 无法动态扩展大小，如上图示，bit 数组是固定的，如果 bits 数组长度调整了，那么同样的 x、y hash 后的 bits 索引也会发生变化。

4. bloom 存在误判的可能，例如 x、y hash 后得到的 bits 数组索引都是 1、3、5，那么即使 bloom 中只添加了 x，当 y 来判定时，也会判定为存在。

误判率计算公式

这里不细究它的推导过程了，感兴趣的同学可以自行研究。

布隆过滤器实现曝光打击

由上述布隆过滤器的特性所知：必须合理选择 bloom 过滤器的规格，bloom bit 数组太小，则误判率过高；bloom bit 数组太大，则过于浪费存储。

还是以相同的条件来试算，

假设国民级 App 的日活跃用户在 3kw，每人每天平均刷 200 条视频 feeds，每条 feeds 的 id 长度为 32B。
如果以 Redis bloom 的方案来计算：400B * 3kw ~ 12G，相比 set 方案的 288G，节约了 96% 的存储成本。1月可以节约 52.8w 成本，降本增效杠杠的。

当设置 bloom 容量为 200 时，每人每天1个key，可以保证当天看到不重复的 feeds，BF 规格如下：

采用 Redis Bloom 插件计算，https://redis.io/docs/stack/bloom/。

bloom filter 规格

进一步优化

上述场景下，Bloom 大小按照 200 计算，那活跃用户呢？总有一些高活用户，每天会刷大几百条视频，这部分用户不做特殊处理的话，体验会非常差，后面总是看到重复的视频。还有就是一些特殊场景，例如业务希望用户1月内都不要看到重复的 feeds。这种，如果仅仅以每天每人作为 bloom 的 key，那么实现1个月内不重复，1个用户要查询30个 bloom，有点夸张。

Redis 虽然能抗，但假设用户刷视频的频率是 10w/s，扩散后，对 Redis 的压力就是300w/s

怎么优化呢？有几种思路。

1. 最简单，让 Redis 抗，单机扛不住，分片还扛不住吗？分片扛不住，读写分离还扛不住吗？反正肯定能抗住。

2. 记录1个总数量的 bloom key，分级，递增设置容量。例如起始 bf0 容量是 1000，当 bf0 满了，新建一个 bf1，容量是 10000，bf1 满了，再新建一个 bf2，容量是 10w。这种方案有两个好处，1是递进的增加 bf 容量，减少 Redis 的 key 访问次数，减轻 Redis 的压力；2是不浪费存储，大部分用户都是非活跃用户，可能看到的 feeds 量在 1w 以内，只有真正活跃的用户才会分配 10w 以上的大 bf，精准的占用存储。

分级 BF

至此，本文就大体结束了，后面有时间了再开一篇布谷鸟过滤器的说明，先鸽一下。

方案一 ：Set

方案二：Bloom Filter

布隆过滤器介绍

布隆过滤器实现曝光打击

进一步优化

布隆过滤器在短视频 feeds 系统中的妙用

全球速读：Swoole - webSocket消息服务系统压力测试篇

时讯：我抱回了一只养不熟的猫

我们去大草原的湖边等候鸟飞回来等我们都长大了_我们去大草原的湖边等候鸟飞回来

信期贷怎么申请_信期贷怎么申请_世界信息

裘晓晨（裘晓晨）-即时看

官方：曼联主帅滕哈格当选英超2月最佳教练

环球观焦点：小微企业金融服务

环球即时：指纹机怎么导出考勤表（指纹机怎么导出考勤）

2023年北京马拉松什么时候开始报名？

世界微头条丨内存不足或word无法新增字体_内存或磁盘空间不足word无法显示字体

天天观察：立昂技术：公司的通信网络业务主要为客户提供新建4G、5G等通信网络基础设施

寒潮即将席卷国内大部分地区 东部海域有大雾|世界关注

环艺设计就业岗位_环艺设计就业前景|快看

环球速读：人工牛黄甲硝唑胶囊可以喝咖啡吗_人工牛黄甲硝唑胶囊可以长期吃吗

润和软件：公司暂未涉及相关业务

【应渊颜淡】归位日常63： 帝君嫁我 全球聚看点

环球看热讯：人为灾害事故_人为灾害

一彬科技盘中异动 上涨9.99%

入固定资产的金额标准_固定资产标准金额

26寸是多少厘米 长宽_26寸是多少厘米

安利中国

酒店回应到211大学招服务员具体详细内容是什么

阿格纳特C_阿格纳特c怎么打 焦点速看

苏州大学开放日参观需要哪些证件？-世界资讯

全国人大代表、重庆农商行董事长谢文辉：有必要将财富管理领域立法工作加快提上研究日程 环球新视野

中国海油（600938）3月9日主力资金净卖出9463.61万元 聚焦

天天观点：劳动合同与三方协议区别在哪儿_劳动合同与三方协议区别在哪

雨的四季导学案人教版（雨的四季导学案） 世界今头条

多措并举释放消费活力（融视点·小经跑两会）

黑芝麻：公司不从事动力电池的生产经营，拟投资的新能源项目为储能电池项目-最新快讯

嗯双胞胎的父皇是宠娃狂魔_父皇的双性皇儿_天天看点

大学四年挣百万:开挂人生的折腾旅途

电脑怎么做表格教程图_电脑怎么做表格教程

淘宝如何申请账号注册_淘宝注册账号申请

德国公开赛！连汗都没出，赵俊鹏2-0轻松横扫，晋级男单十六强！-环球关注

世界滚动:窦性心律失常

异界唐门毒圣_关于异界唐门毒圣的基本详情介绍

父亲去世留下千万豪宅，姐姐妄想独占，却不知10岁妹妹手段不一般

顺德职业技术学院的详细地址

世界看点：成都市中心是哪几个区_成都市中心是哪个区

世界快看：pdl

JBL BAR 1300X首发期间立减2000元 1170W总功率 全球热资讯

天天快资讯丨LOL:957爆料官方有大动作,评选LPL十大选手,粉丝无权参与

民族村_环球聚焦

作为民营中型企业的负责人，去年缴税2000万，感觉这些年有点难受

当前动态:评剧是我国哪个地方的主要戏曲

全球资讯：阿坝州新型冠状病毒肺炎疫情:3月8日阿坝州疫情最新消息今天数据统计情况通报

2月末我国外汇储备规模31332亿美元 连续4个月增持黄金

美式英语音标

欧冠最新夺冠排行榜！曼城第一 梅西巴黎第5 拜仁皇马利物浦笑了

博盈投资股票

天天最资讯丨上海这条网红马路要拆了？真相是……

雷锋精神在我心 禁毒宣传在行动

全球热议:战舰波将金号

哈尔斯：中国是全球不锈钢保温器皿最主要的制造中心，海外市场空间较大、增长稳健，该品类的国内消费也随着居民生活水平提高而呈现由“耐用品”向“消费品”变化的趋势

关于心很累的说说心情 新资讯

当前视点！安庆市公安局罗岭派出所：春意盎然田耕忙 禁毒反诈正当时

全球新动态：什么是可转债

当前关注：u型钢规格型号尺寸表_u型钢尺寸规格表

t35 11

通天箓_通天级人物

【时快讯】【偶像荣耀】特别剧情熟肉汇总贴（3.6更新）

南京市工商局 世界观点

张小东任中国银行副行长|世界今头条

每日资讯：松江青青旅游世界

图灵看市3.6晚-黄金底部成立、回踩等待机会

感觉身体没劲怎么回事_浑身没劲是怎么回事

电脑音响没有声音怎么办

三星手机助手电脑版_三星手机连接电脑助手

动态焦点:长春大学专科

当前速读：利拉德：我们迫切需要这场胜利 现在输一场可能排名会下降三位

观天下！美焚烧“毒列车”污染土壤引担忧，美前官员：计划“令人震惊”

环球新资讯：涠洲岛攻略

新动态：cdr抠图怎么抠图_cdr抠图怎么抠

方案一：Set

寒潮即将席卷国内大部分地区东部海域有大雾|世界关注

【应渊颜淡】归位日常63：帝君嫁我全球聚看点

一彬科技盘中异动上涨9.99%

26寸是多少厘米长宽_26寸是多少厘米

阿格纳特C_阿格纳特c怎么打焦点速看

全国人大代表、重庆农商行董事长谢文辉：有必要将财富管理领域立法工作加快提上研究日程环球新视野

中国海油（600938）3月9日主力资金净卖出9463.61万元聚焦

雨的四季导学案人教版（雨的四季导学案）世界今头条

JBL BAR 1300X首发期间立减2000元 1170W总功率全球热资讯

2月末我国外汇储备规模31332亿美元连续4个月增持黄金

欧冠最新夺冠排行榜！曼城第一梅西巴黎第5 拜仁皇马利物浦笑了

雷锋精神在我心禁毒宣传在行动

关于心很累的说说心情新资讯

当前视点！安庆市公安局罗岭派出所：春意盎然田耕忙禁毒反诈正当时

南京市工商局世界观点

当前速读：利拉德：我们迫切需要这场胜利现在输一场可能排名会下降三位

北京天际线

恩比德单场至少30分10助为约基奇后本赛季第二位达成此举的中锋

极氪001断电后手刹失灵溜坡车主推车7小时苦等救援|世界聚焦

热推荐：宝宝2岁扁桃体炎吃什么药好为你推荐三款临床常用药

百威亚太2022财年营收64.78亿美元中国渠道业绩滑坡-环球报道

涨停雷达：ST板块异动 *ST瑞德触及涨停今日视点

剧本台词丨金霏陈曦《周日晚综合症》相声稿实时