• 如何在Apache Spark应用程序中优化洗牌溢出

    我正在与2个工人一起运行Spark流应用程序。 应用程序具有联接和联合操作。 所有批次均已成功完成,但注意到混洗溢出度量标准与输入数据大小或输出数据大小不一致(溢出内存超过20倍)。 请在下图中找到火花阶段的详细信息: 经过研究,发现 当没有足够的内存来存储随机数据时,就会发生随机溢出。 Shuffle spill (memory) - size of the deserialized form of the data in memory at the time of spilling shuffle sp...
公众号
码农俱乐部
关注公众号订阅更多技术干货!