• 浅析Hive/Spark SQL读文件时的输入任务划分

    Hive以及Spark SQL等大数据计算引擎为我们操作存储在HDFS上结构化数据提供了易于上手的SQL接口,大大降低了ETL等操作的门槛,也因此在实际生产中有着广泛的应用。而Hive和Spark SQL作为Map-Reduce模型的分布式执行引擎,其执行过程首先就涉及到如何将输入数据切分成一个个任务,分配给不同的Map任务。在本文中,我们就来讲解Hive和Spark SQL是如何切分输入路径的。Spark SQLSpark的表有两种:DataSource表和Hive表。因此,Spark SQL作业的任务切分关键在于底层RDD的partition如何切分。Data Source表Spark SQL的DataSource表在最终执行的RDD类为FileScanRDD,由FileSourceScanExec创建出来。Hive表Spark SQL中的Hive表底层的RDD类为HadoopRDD,由HadoopTableReader类实现。
  • 大数据人均月薪真的30K?深度揭秘成为大数据工程师需要具备哪些技能?

    疫情期间,大数据也在帮我们共度难关。想要成为大数据工程师你需要具备以下几项技能:1.大数据架构的工具与组件数据工程师更关注分析基础架构,因此所需的大部分技能都是以架构为中心的。如果你是想深入学习大数据,想要经过系统性训练,经历完善的项目实战,那么我一定给大家推荐下,七月在线的课程。通过一个个项目实战从头到尾掌握大数据的典型应用场景,从而练就大数据工业项目的全栈能力。2个半月挑战年薪30~50万。
  • 【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

    原文链接:https://databricks.com/blog/2020/03/04/how-to-monitor-data-stream-quality-using-spark-streaming-and-delta-lake.html在这个一切都需要进行加速的时代,流数据的使用变得越来越普遍。该顾客使用Databricks、Delta Lake以及Structured Streaming,实时高可用地处理和分析这些流式数据。Structured Streaming和Delta Lake非常适合用于数据获取和存储层,因为他们能够配合创造一个具有扩展性、容错性和类实时的系统,并且具有exactly-once处理保证。
  • Kylin使用Spark构建Cube

    Apache Kylin是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。123456789101112131415161718export HADOOP_HOME=/home/admin/hadoop-2.8.5export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport HBASE_HOME=/home/admin/hbase-1.4.10export PATH="$HBASE_HOME/bin:$HBASE_HOME/sbin:$PATH"export HIVE_HOME=/home/admin/hive-2.3.5export PATH="$HIVE_HOME/bin:$HIVE_HOME/sbin:$PATH"export HCAT_HOME=$HIVE_HOME/hcatalogexport KYLIN_HOME=/home/admin/kylin-2.6.3export KYLIN_CONF_HOME=$KYLIN_HOME/confexport CATALINA_HOME=$KYLIN_HOME/tomcatexport PATH=:$PATH:$KYLIN_HOME/bin:$CATALINE_HOME/binexport tomcat_root=$KYLIN_HOME/tomcatexport hive_dependency=$HIVE_HOME/conf:$HIVE_HOME/lib/*:$HCAT_HOME/share/hcatalog/hive-hcatalog-core-2.3.5.jar下载spark和上传spark的依赖包从v2.6.1开始, Kylin不再包含Spark二进制包;需要另外下载Spark,然后设置SPARK_HOME系统变量到Spark安装目录使用脚本下载Spark[下载后的目录位于$KYLIN_HOME/spark]:1$ $KYLIN_HOME/bin/download-spark.sh把Spark依赖的jars打包成一个jar上传到HDFS上面,这里参照官网,另外打包成zip也是可以的:123$ jar cv0f spark-libs.jar -C $KYLIN_HOME/spark/jars/ .$ hadoop fs -mkdir -p /kylin/spark/$ hadoop fs -put spark-libs.jar /kylin/spark/并在$KYLIN_HOME/conf/kylin.properties里面或者$KYLIN_HOME/spark/conf/spark-defaults.conf里面进行配置:分别是kylin.engine.spark-conf.spark.yarn.archive和spark.yarn.archive,配置其一即可。
  • Spark + AI Summit 2020 中文议题有奖征集

    本次调查问卷填写大约需要耗时3-5分钟,我们会在提交问卷的同学里随机抽取30名,寄送 Spark 社区T恤一件。问卷收集截止时间2020年5月28日,获奖同学名单将在截止时间后3个工作日内在本公众号中公示。阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区,定期推送精彩案例,技术专家直播,问答区近万人Spark技术同学在线提问答疑,只为营造纯粹的Spark氛围,欢迎钉钉扫码加入!对开源大数据和感兴趣的同学可以加小编微信进入技术交流微信群。Apache Spark技术交流社区公众号,微信扫一扫关注
  • Hadoop社区比 Ozone 更重要的事情

    Ozone 是很不错,也很有用;但从我作为一个社区参与者的角度来看,它救不了 Hadoop,就这个项目的前后十年来说,Hadoop 社区有远比它更重要的挑战需要去解决。Hadoop 社区最近几年,在它的核心支撑点存储上面,应该最主要的工作就是开发 Ozone。Hadoop 比较合适的用户定位应该是中大规模部署,小到几十个节点几 PB 数据规模,大到上千节点上百 PB 数据这种。微软在 Hadoop 社区的领导者 Chris 做过这方面的努力,支持了把 Azure Blob 挂载到 HDFS 映射到 DataNode 上的一个 tier,可惜功亏一篑,最终只是个半成品。在存储系统层面,Hadoop 利用 HDFS 多备份和数据本地化把大数据分析处理
  • EMR Spark-SQL性能极致优化揭秘 概览篇

    作者:林学维,阿里云智能EMR团队技术专家,目前主要专注于EMR产品中开源计算引擎的优化工作引子最近阿里云 E-MapReduce 团队在 TPCDS-Perf 榜单中提交了最新成绩,相比第二名,无论从性能还有性价比都取得了 2 倍+的优秀成绩!因为在 Perf 页面中,最终 TPCDS 关注的指标有两个,一个是性能指标一个是性价比指标。
  • 扎心!天天写代码,方向真的对吗?

    拿我职业生涯开始阶段学习的 Hadoop 为例。而随着互联网技术的发展,数据量与日俱增,处理海量数据的能力迫在眉睫。Hadoop 的诞生正好解决了这一燃眉之急。Spark 远超过 Hadoop 的计算性能以及极其优雅简单的 API 迎合了当时用户的需求,受到了广大大数据工程师的热捧。Flink 的以 Stream 为核心的架构是业界独一无二的,由此而产生的性能优越,高扩展性,端到端 Exactly Once 等特性,更是使得 Flink 在流计算领域是当之无愧的王者。目前主流的流计算引擎有 3 个:Flink、Storm 和 SparkStreaming 。但作为趋势,我们更关注的是其变化曲线,实际影响应该不大。下半场战斗的重点讲从底层走向上层,走向生态。
  • Hadoop社区比 Ozone 更重要的事情

    Ozone 是很不错,也很有用;但从我作为一个社区参与者的角度来看,它救不了 Hadoop,就这个项目的前后十年来说,Hadoop 社区有远比它更重要的挑战需要去解决。Hadoop 社区最近几年,在它的核心支撑点存储上面,应该最主要的工作就是开发 Ozone。Hadoop 比较合适的用户定位应该是中大规模部署,小到几十个节点几 PB 数据规模,大到上千节点上百 PB 数据这种。微软在 Hadoop 社区的领导者 Chris 做过这方面的努力,支持了把 Azure Blob 挂载到 HDFS 映射到 DataNode 上的一个 tier,可惜功亏一篑,最终只是个半成品。在存储系统层面,Hadoop 利用 HDFS 多备份和数据本地化把大数据分析处理
  • 一个月面试近20家,拿下阿里Offer !

    我是年前离职的,没想到这个突如其来的疫情,完全将面试升级为地狱难度,焦虑、烦躁、失眠,是过去一个月的主旋律。因此,对于flume的性能调优,就是对这三部分及影响因素调优。ACK 机制 、 设置分区、关闭 unclean leader 选举等等。副本数据同步策略、ISR、OSR、Leader 选举机制。
  • 基于XGB单机训练VS基于SPARK并行预测(XGBoost4j-spark无痛人流解决方案)

    理解本文需要有一定的技术基础,包括对于Xgboost的基本理解以及使用经验,基本的Spark开发能力,如果对于Xgboost4j-spark有一定的了解就更好了。首先我们确定我们需要做的事情,那就是尝试在Python单机的环境下训练模型,获取到模型文件,然后加载在Spark环境中做并行预测,涉及到并行预测会用到XGBoost4j-spark框架。为什么不直接在XGBoost4j-spark上做Train以及Predict?关于这一点,我们在后面拆解XGBoost4j-spark源码的时候再来进一步说明。既然如此般配,那么可以直接Python版的XGB训练好的Model,直接丢到XGBoost4j-spark中load,然后愉快的预测呢?说好的XGBoost4j-spark是Xgboost的分支项目的呢,这也不像亲儿子啊。
  • 我为什么要用HBase热点和Spark自定义外部数据源?

    对于大数据行业的从业者和未来从业者来说,HBase热点和Spark自定义外部数据源你可能都听过,但是你真的了解它吗?#什么是HBase热点?##它会造成什么问题?##数据源相关三大核心是什么?#3月27日(本周五)晚8点,为你邀请到李科老师,深度讲解HBase热点和Spark自定义外部数据源的那些事儿。Java、大数据多年实战经验的大咖导师HBase热点和Spark自定义外部数据源实战案例详解原价299,限时9.8,仅限前100人赶紧长按二维码加入学习群吧↓ ↓ ↓更多大数据工程师成长规划、BAT大厂面试技巧等干货,直播等你来聊!
  • Spark Executor内存管理

    由于 Driver 的内存管理相对来说较为简单,本文主要对 Executor 的内存管理进行分析,下文中的 Spark 内存均特指 Executor 的内存。另外,Spark 1.6 之前使用的是静态内存管理 机制,StaticMemoryManager 也是 Spark 1.6 之前唯一的内存管理器。整个Executor内存区域分为两块:1. JVM堆外内存大小由 spark.yarn.executor.memoryOverhead 参数指定。默认大小为 executorMemory * 0.10, with minimum of 384m。此部分为用户代码及Spark 不可操作的内存,不足时可通过调整参数解决。内存占比为 UsableMemory * spark.memory.fraction * spark.memory.storageFraction,Spark 2+ 中,默认初始状态下 Storage Memory 和 Execution Memory 均约占系统总内存的30%。执行内存 主要用于存放 Shuffle、Join、Sort、Aggregation 等计算过程中的临时数据。
  • pyspark-在Windows中安装时出现异常

    I installed anaconda, java, spark, pyspark, and set the environment variables too. But whenever I run pyspark in anaconda shell, the exception I get is the following- Exception: Java gateway process exited before sending its port number
  • 不可不知的Spark调优点

    在利用Spark处理数据时,如果数据量不大,那么Spark的默认配置基本就能满足实际的业务场景。如果batchDuration设置过短,会导致SparkStreaming频繁提交job。如果每个batchDuration所产生的job不能在这个时间内完成处理,就会造成job不断堆积,最终导致SparkStreaming发生阻塞,甚至程序宕掉。需要根据不同的应用场景和硬件配置等确定,可以根据SparkStreaming的可视化监控界面,观察Total Delay等指标来进行batchDuration的调整。Apache Spark技术交流社区公众号,微信扫一扫关注
  • Flink 状态(State)管理在推荐场景中的应用

    导语Flink 提供了灵活丰富的状态管理,可轻松解决数据之间的关联性。本文介绍了Flink 状态管理在推荐场景中的应用,大家结合自己的应用场景与业务逻辑,选择合适的状态管理。而Flink的State状态管理,更是让Flink在实时计算领域,更胜一筹。通过对Flink State状态的灵活妙用,可以完美实现大数据下的实时数仓,实时画像和实时数据监控等功能。并且Flink对数据流也是逐条处理,在低延时上明显优于Spark Streaming。最重要的,Flink在公司内部有专门的WStream平台,并由专业的团队维护。
  • 火花输出回到网页

    我们正在运行其参数来自网页的作业,这些作业在Spark集群上的大文件上执行。经过处理后,我们想将数据显示回来,使用 rdd.saveAsTextFile(path) 我们有一个会话ID,它是输出文件夹的公共根。这意味着它是一个随机文件夹,但链接到用户会话ID。 跟踪不同文件的指针并将页面发送回前端的好方法是什么? 这意味着我们可以拥有文件列表,并将结果发送回监视(摘要)和显示文件内容的详细信息页面。
公告

《从零开始开发BBS》课程上线啦,快来跟着我一步步搭建属于你的BBS吧。

课程地址:https://www.shiyanlou.com/courses/1436
9折优惠邀请码: ZHwfIjb1

该课程会带领大家一步步的了解并熟悉Go语言开发,如果你是一个Go语言初学者,或者正准备学习Go语言,那么这个课程非常适合你。如果你熟练掌握了本课程中的知识点,相信你就已经入门Go语言开发,并能胜任日常的开发工作了。