正确的数据库/方案/方法,可实现良好的广告系列管理

场景:我每天处理TB的数据,并通过创建动态文件夹结构(按日期)将其存储在s3中。

用例:基于处理后的数据,我们要启动活动(个性化,个性化广告等)。

为了处理原始数据,我们将spark用于ETL并对其进行分类,以更好地读取模式以进行预处理的候选片段(地理位置,兴趣,设备,平台,操作系统,人口统计学等)。

问题陈述:一个正确的数据库/架构/方法来存储活动候选者(用户属于设计的活动细分的标准),每个活动的候选者每天都会刷新,因为新数据会改变用户的行为),这里我们可能有很多活动同时运行,每个用户都有一个唯一的ID来标识。因此,一个用户可能有资格参加多个广告系列。活动可能会在任何时间点暂停,并且更改应该反映在数据库中,因为在为特定用户获取活动时,结果应该只有活动活动。

我的观察:我一直在寻找Hbase,但是更新(活动有效性)表会造成麻烦。

注意:请建议我应该记住哪个数据库/模式/方法以及可能的数据模型(模式),以记住一个广告系列的数百万个条目,并且有许多广告系列正在运行,性能是我不想妥协的关键。