如何有效地将Spark中的数据框与小文件目录连接在一起?

I have a dataframe (df1) with the columns id, date, type. I need to join it with a file /descriptions/{id}.txt. The result of the join should be a dataframe id, date, type, description for all entries in (df1) .

目标是使用此预处理的数据框进行进一步分析,因此我不再需要处理小文件。

值得注意的是:还有很多小的描述文件超出了我的需要(x1000),所以我认为某种“懒惰的连接”比先读取所有小文件然后再进行连接更为有效。

您将如何在Spark中构建它?我目前使用scala,但是如果您有一个python示例,我想我也可以使用。

评论