• 生产Spark代码开始在count()上生成空指针

    我有一个在生产环境中使用Spark在Hadoop(和Yarn)上运行的应用程序。最近,它在调用数据帧上的count()函数时开始崩溃。它给出了空指针异常错误。下面的session_frame数据帧是通过解析几个文本文件,然后将它们与Hive表中的数据连接起来而创建的。蜂巢表也每天单独更新一次。 该代码在下面的第1行工作正常,但在出现条件后在下面的第3行失败。到目前为止,一切正常。 line 1: session_frame.show(5) line 2: clsd_frame = sess_frame.wh...
  • ClickHouse免费送书福利

    预计阅读时间: 13分钟导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。从某种角度来看,以使用Hadoop生态为代表的这类非传统关系型数据库技术所实现的BI系统,可以称为现代BI系统。然而Hadoop技术也不是银弹,在现代BI系统的构建中仍然面临诸多挑战。Hadoop发展至今,早已上升成为大数据的代名词,仿佛一提到海量数据分析场景下的技术选型,就非Hadoop生态莫属。
  • Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快?那你就错了。

    本资料来自 Workday 的软件开发工程师 Jianneng Li 在 Spark Summit North America 2020 的 《On Improving Broadcast Joins in Spark SQL》议题的分享。TPC-H 测试在得出结论之前我们先来进行 TPC-H 测试,来看下是不是 Broadcast Join 一定要比 Shuffle Join 快。所以说由于当前 Broadcast Join 的运行机制,这就导致即使在 Broadcast Join 适用的情况下,Broadcast Join 不一定比 Shuffle Join 快。
  • ClickHouse免费送书福利

    预计阅读时间: 13分钟导读:一次机缘巧合,在研究BI产品技术选型的时候,我接触到了ClickHouse,瞬间就被其惊人的性能所折服。这款非Hadoop生态、简单、自成一体的技术组件引起了我极大的好奇。从某种角度来看,以使用Hadoop生态为代表的这类非传统关系型数据库技术所实现的BI系统,可以称为现代BI系统。然而Hadoop技术也不是银弹,在现代BI系统的构建中仍然面临诸多挑战。Hadoop发展至今,早已上升成为大数据的代名词,仿佛一提到海量数据分析场景下的技术选型,就非Hadoop生态莫属。
  • java.lang.OutOfMemoryError:无法创建新的本机线程和ulimit -u

    我有一个基于Scala的应用程序,可以从S3下载文件并将其写入HDFS。正在下载的文件数可能在8000-12000个文件范围内。 核心方法包装在Future中,为了执行上下文,我定义了30个线程的FixedThreadPool。我运行此代码的计算机的ulimit -u值具有16000(最大进程数)。 If I run two or more instances of the application then I am getting the java.lang.OutOfMemoryError: unabl...
  • 如何刷新HDFS路径?

    我正在jupyter笔记本电脑中运行sparksession。 I would got error sometime on a dataframe which is initial by spark.read.parquet(some_path) when files under that path have changed, even if I cache the dataframe . 例如 读取代码是 sp = spark.read.parquet(TB.STORE_PRODUCT) sp.cac...
  • 使用PySpark屏蔽信用卡号

    我是Spark的新手,我需要掩盖仅显示最后四位数字的数据框中存在的信用卡号。怎么做 ? 下面是我的桌子 +----------+------------+ |first_name| card| +----------+------------+ | abc|999999999999| | lmn|222222222222| 预期产量: +----------+------------+ |first_name| ...
  • 基于Hadoop的58同城离线计算平台设计与实践

    导读:58离线计算平台基于 Hadoop 生态体系打造,单集群4000+台服务器,数百 PB 存储,日40万计算任务,面临挑战极大。通常大数据平台通用基础能力包括:数据存储、实时计算、离线计算、数据查询分析,本次分享将聚焦大数据平台离线计算和大家一起系统的探讨58在离线计算平台建设实践的思路、方案和问题解决之道。Flume 每天的日志采集量 240T,Haddop 单集群服务器台数4000+,Flink 每天进行超过6000亿次的计算,Druid 已经构建超过 600亿条实时数据索引。下面我将给大家介绍在上述背景下,我们关于 Hadoop 平台建设以及优化的具体实践。
  • 免费!!3天跟5000人一起撸码的训练营+一套价值2699的录播视频+100道面试题

    免费套餐1《手撸 HDFS 和 MapReduce》训练营完全免费!!3 天,5000 人陪你在线直播撸码!!3 天纯干货训练营,免费参加与大家一起狂欢、一起成长2价值2699 的录播视频训练营报完名!还有一套免费的视频资料,详细讲解了、、、等各类干货。为了避免各位踩坑,特意总结了一份面试题集,希望能对大家有所帮助。Hadoop 1. HDFS 的架构设计是怎样的?从节点负责分摊集群的工作,主节点负责进行从节点的管理。
  • 免费!!3天跟5000人一起撸码的训练营+一套价值2699的录播视频+100道面试题

    免费套餐1《手撸 HDFS 和 MapReduce》训练营完全免费!!3 天,5000 人陪你在线直播撸码!!3 天纯干货训练营,免费参加与大家一起狂欢、一起成长2价值2699 的录播视频训练营报完名!还有一套免费的视频资料,详细讲解了、、、等各类干货。为了避免各位踩坑,特意总结了一份面试题集,希望能对大家有所帮助。Hadoop 1. HDFS 的架构设计是怎样的?从节点负责分摊集群的工作,主节点负责进行从节点的管理。
  • MapReduce计算出现的行数

    目前,我有一个user_follower.csv,例如: user follower a b a c a b b a b c 我正在尝试执行mapreduce,在应用mapreduce之后,我可以得到如下输出: user follower counts a b 2 a c 1 b a 1 b c 1 I am quit...
公告

《从零开始开发BBS》课程上线啦,快来跟着我一步步搭建属于你的BBS吧。

课程地址:https://www.shiyanlou.com/courses/1436
9折优惠邀请码: ZHwfIjb1

该课程会带领大家一步步的了解并熟悉Go语言开发,如果你是一个Go语言初学者,或者正准备学习Go语言,那么这个课程非常适合你。如果你熟练掌握了本课程中的知识点,相信你就已经入门Go语言开发,并能胜任日常的开发工作了。