• 修改代码150万行!Apache Flink 1.9.0做了这些重大修改!
    8月22日,Apache Flink 1.9.0 正式发布。早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎 Blink 进行开源并向 Apache Flink 贡献代码。此次版本在结构上有重大变更,修改代码达 150 万行,接下来,我们一起梳理 Flink 1.9.0 中非常值得关注的重要功能与特性。Blink 以分支的形式开源,即开源后会成为 Apache Flink 项目下的一个分支。半年的时间过去了,随着 Flink 1.9.0 版本的发布,在此我们可以骄傲的宣布:Blink 团队已经实现了之前的诺言!从修改的代码行数来看,达到了惊人的 150 万行。因此 Flink 1.9 版本中,Table 模块顺理成章的成为了架构调整后第一个吃螃蟹的人。
  • 修改代码150万行!Apache Flink 1.9.0做了这些重大修改!
    导读:8月22日,Apache Flink 1.9.0 正式发布。早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。此次版本在结构上有重大变更,修改代码达150万行,接下来,我们一起梳理 Flink 1.9.0 中非常值得关注的重要功能与特性。Blink 以分支的形式开源,即开源后会成为 Apache Flink项目下的一个分支。半年的时间过去了,随着 Flink 1.9.0 版本的发布,在此我们可以骄傲的宣布:Blink 团队已经实现了之前的诺言!从修改的代码行数来看,达到了惊人的150 万行。因此 Flink 1.9 版本中,Table 模块顺理成章的成为了架构调整后第一个吃螃蟹的人。
  • 来了来了它来了!Apache Flink Meetup · 上海站
    9 月 7 日,Apache Flink Meetup 上海站,来自阿里巴巴、intel、趣头条等技术专家,携众多技术干货如 Zeppelin 中玩转 Flink 与 Hive、TensorFlow 与 Flink 的应用实践、Flink 性能优化、趣头条的应用案例等与你相约魔都!本次分享主要介绍 DCPMM 的工作模式以及怎样在 Flink 中使用 DCPMM。通过结合两者,可以实现在 Flink 集群中运行离线或准实时的机器学习训练和预测,完善 Flink 在机器学习领域的生态。# 惊喜剧透#本次 Meetup 我们为大家准备了超级多社区周边!首届 Apache Flink 极客挑战赛,10W 奖金等你拿!
  • 如何在 Flink 1.9 中使用 Hive?
    Apache Flink 从 1.9.0 版本开始增加了与 Hive 集成的功能,用户可以通过 Flink 来访问 Hive 的元数据,以及读写 Hive 中的表。目前 Catalog 有两个实现,GenericInMemoryCatalog 和 HiveCatalog。其中 GenericInMemoryCatalog 保持了原有的 Flink 元数据管理机制,将所有元数据保存在内存中。另一方面,HiveCatalog 也可以用来处理 Flink 自身的元数据,在这种场景下,HiveCatalog 仅将 Hive Metastore 作为持久化存储使用,写入 Hive Metastore 中的元数据并不一定是 Hive 所支持的格式。项目进展Flink 与 Hive 集成的功能会在 1.9.0 版本中作为试用功能发布,用户可以通过 Table API 或者 SQL Client 的模式与 Hive 进行交互。如何应用1.添加依赖使用 Flink 与 Hive 集成的功能,用户首先需要添加相应的依赖。
  • Hive中排除SELECT查询列
    如果我们想要表中所有列,毫无疑问我们可以使用SELECT *。在这种情况下,之前都是手动的添加SELECT查询中的所有列名。由于列数很多,比较啰嗦。因此,我们希望能在 Hive 中从 SELECT 查询中排除某些列。如果要使用正则表达式,需要将属性hive.support.quoted.identifiers设置为none。下面是我们的样本数据。此表中一共有100多列,如下图所示:如果我们不想要event_ts这一列。+.+` FROM <table>;上面语句等价于:SELECT user_id, event_tm, os, os_version, app_version, ..., prov, cityFROM <table>;如果我们不想要event_ts和event_tm两列。
  • 告别“纷纷扰扰”—小米OLAP服务架构演进
    本文从元数据和权限管理两方面介绍了小米OLAP服务的架构演进。>>>>OldArchitecture & Drawbacks图1. OLAP 1.0元数据与权限管理过去究竟有哪些“纷纷扰扰”呢,让我们先从 OLAP1.0 版本的元数据与权限管理图说起。在 OLAP 服务端,我们对原有权限相关的操作进行了重构。总结与展望>>>>小结经过元数据与权限的整合,OLAP 服务的元数据范围和权限范围都扩大了,同时意味着查询的范围也扩大了。
  • 如何在 Kylin 中优雅地使用 Spark
    前言Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢、构建节点不稳定的问题。在最新的 Apache Kylin 3.0 版本中,Kylin 加入了通过 Apache Livy 递交 Spark 任务的新功能[KYLIN-3795],特此感谢滴滴靳国卫同学对此功能的贡献。提交 Java、Scala、Python 所编写的 Spark 作业到远端的 Spark 集群上执行。同时 Gateway 节点的故障会带来单点问题,造成 Spark 程序的失败。Livy 具有如下功能:通过 Livy session 实时提交代码片段与 Spark 的 REPL 进行交互。我们可以看到 Kylin 单独开了一个线程在本地向 Spark 客户端发送来 job 请求并且循环获取结果,额外增加了节点系统压力。
  • 修改代码150万行!与 Blink 合并后的 Apache Flink 1.9.0 究竟有哪些重大变更?
    8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。当前 Flink 1.9.0是阿里内部版本 Blink 合并入 Flink 后的首次发版,修改代码150万行,此次发版不仅在结构上有重大变更,在功能特性上也更加强大与完善。本文将为大家介绍 Flink 1.9.0 有哪些重大变更与新增功能特性。Blink 开源的目标不是希望成为另一个活跃的项目,而是将 Flink 做的更好。虽然受一些模块重构以及 Blink merge 等因素的影响,但不可否认的是,1.9.0 版本一定是 Flink 有史以来开发者们最活跃的版本。Table API & SQL在开源 Blink 时,Blink 的 Table 模块已经使用了 Flink 未来设想的新架构。
  • 玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源
    本文为玩转阿里云EMR系列最终篇,第一篇文章为基础介绍和样例实战,可以查看玩转阿里云EMR三部曲-入门篇,第二篇文章为集成自有服务于EMR,可以查看玩转阿里云EMR三部曲-集成篇多样化的数据需求随着数据越来越多,商务和运营同学们需求更多的数据开发和维护,但是研发同学忙于产品线,没有足够的资源可以持续满足日益增多的数据开发。
  • 如何在 Kylin 中优雅地使用 Spark
    前言Kylin 用户在使用 Spark的过程中,经常会遇到任务提交缓慢、构建节点不稳定的问题。在最新的 Apache Kylin 3.0 版本中,Kylin 加入了通过 Apache Livy 递交 Spark 任务的新功能[KYLIN-3795],特此感谢滴滴靳国卫同学对此功能的贡献。提交 Java、Scala、Python 所编写的 Spark 作业到远端的 Spark 集群上执行。同时 Gateway 节点的故障会带来单点问题,造成 Spark 程序的失败。Livy 具有如下功能:通过 Livy session 实时提交代码片段与 Spark 的 REPL 进行交互。我们可以看到 Kylin 单独开了一个线程在本地向 Spark 客户端发送来 job 请求并且循环获取结果,额外增加了节点系统压力。
  • HIVE优化浅谈
    引言随着商务/运营同学执行的HQL越来越多,整体HIVE执行效率变低,本文从HIVE切入,分析HQL面临的问题和待优化部分,结合其他大数据框架来解决实际问题。以下内容没有针对业务代码提供优化建议.常见的HQLselect型设置hive.fetch.task.conversion=none会以集群模式运行,无论是否有limit。将部分join放入离线计算任务,减少业务join的时间更多思考文件压缩后仍然很大:可以使用GZIP压缩代替SNAPPY,但是性能比SNAPPY差很多HQL队列拥挤:可以参考队列抢占式资源调度策略,对小任务支持更好HIVE作为数据仓库/交互式查询的优秀手段之一,是否有更好的计算框架可以替代:EMR SparkSQL可以替代大部分HIVE应用场景,并且3.22版本relatio
  • 【360开源】XSQL——低门槛、易部署、更稳定的多数据源分布式查询引擎
    为了解决这些痛点,360统一计算团队开发了一个低门槛、易部署、更稳定的多数据源分布式查询引擎——XSQL。XSQL将致力于降低数据使用的门槛;另一方面, XSQL将致力于提供更加稳定的分布式查询服务。XSQL介绍XSQL是一款低门槛、更稳定、多数据源的分布式查询引擎。XSQL可以通过下推、并行计算、迭代计算等底层支撑技术,对各种数据源的查询加速。XSQL的特点与特性 XSQL的主要特点XSQL的主要特点包括:低门槛、更稳定、增效节能及数据联邦。数据联邦XSQL支持对多种异构数据源的关联查询。XSQL通过缓存与实时获取元数据相结合的方式,避免了元数据管理的臃肿。
  • 算力提升117%,资源使用下降50%,打开集群优化正确姿势
    目前美图技术团队针对大数据集群做了系列的优化,通过对计算引擎进行改造而达到算力的提升,通过对集群的不断优化提升稳定性的同时规范集群使用。Hadoop 集群主要是用于离线报表计算, Spark 集群主要用于用户个性化推荐、反作弊相关等。Hive on Spark 引擎改造上线后,效果显著,整体效果如图三所示。整体来看,优化前集群资源使用率高,有些天近乎打满了,优化后集群资源的使用率下降明显。经计算,任务性能提升117.8%,计算资源下降40%~50%,任务时效提前2~3h。图三引擎改造后效果图对比在对计算力提升后,我们认为资源使用上还可以有较大的节约,于是进行集群资源
  • 阿里资深技术专家的 10 年感悟;微服务分布式一致性模式;HIVE 优化浅谈
    点击链接或图片即可阅读喜欢请分享到朋友圈哦开发者头条阿里资深技术专家的 10 年感悟2019 年的上半年,我密集地写了 tbbpm idea 插件,终于比较圆满地解决 idea 插件的开发问题。(无相)更多「阿里」热门文章微服务分布式一致性模式微服务拆分后遇到的一个麻烦是分布后的一致性问题(吴雪峰)更多「微服务」热门文章HIVE 优化浅谈本文从 HIVE 切入,分析 HQL 面临的问题和待优化部分,结合其他大数据框架来解决实际问题。(邓力)更多「HIVE」热门文章头条君邀请您加入开发者头条读者交流群微信号:toutiaoio007
  • 剑谱总纲 | 大数据方向学习面试知识图谱
    大纲本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,这些公司更希望面试者具备哪些技能。JVMJVM 内存结构class 文件格式、运行时数据区:堆、栈、方法区、直接内存、运行时常量池堆和栈区别Java 中的对象一定在堆上分配吗?
  • 回顾 | Apache Flink Meetup ·上海站
    9 月 7 日,Apache Flink Meetup 上海站,上海的同学再次演绎了站无虚席的爆满场面。现场来自阿里巴巴、intel、趣头条的技术专家们分享了 Zeppelin 中玩转 Flink 与 Hive、趣头条的应用实践、Flink 性能优化、TensorFlow 与 Flink 的应用实践等众多干货内容,并有 Demo 演示环节。▼ PPT 下载▼Apache Flink Meetup · 上海站,嘉宾分享的 PPT 下载请在后台回复关键字“0907PPT”领取。Modes and PopulationHow to use it in Flink workload?BackgroundTensorFlow On FlinkMachine Learning On FlinkFuture感谢上海同学对 Flink 社区 Meetup 的爱与支持,甚至有小伙伴中午 12 点钟就早早到场,笔芯大家。点击「阅读原文」可直接报名北京站 Meetup~▼ Flink 社区推荐▼▼不容错过!
  • 八家国企大数据面经(干货,详细答案)
    转自:大数据肌肉猿谢安生(化名),末流985本科,非科班。18年10月零基础学的大数据,错过了秋招,但在春招拿了招商银行,光大银行,浪潮等国企大数据开发offer。一次计算各时区的DAU假设有最近48小时的数据,如何一次性计算24个时区各自的DAU,而不是计算24次。类比mysql的mycat,利用中间件对过于庞大的数据进行维护等操作。在MySQL数据库中,支持上面四种隔离级别,默认的为Repeatable read ;而在Oracle数据库中,只支持Serializable (串行化)级别和Read committed 这两种级别,其中默认的为Read committed级别。
  • 赠书福利 | 聊聊Apache Kylin在美团点评的应用
    在使用Kylin之前,实际上美团采取了一些方案,但效果并不理想。2接入Apache Kylin的解决方案针对上述问题,经过大量的尝试和验证,目前主要的解决方案有以下几点。截至2018年8月,ApacheKylin在美团点评的服务几乎覆盖了所有业务线,Cube数量近1000个,摄入数据量8.9万亿,Cube存储971TB,每日查询量380万次,50%的查询的完成时间在200毫秒内,90%的查询完成时间在1.2秒内。以上内容摘自《Apache Kylin权威指南(第2版)》,经出版方授权发布。
  • 美团 MySQL 数据实时同步到 Hive 的架构与实践
    对于业务DB数据来说,从MySQL等关系型数据库的业务数据进行采集,然后导入到Hive中,是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中?Binlog是MySQL的二进制日志,记录了MySQL中发生的所有数据变更,MySQL集群自身的主从同步就是基于Binlog做的。无论从性能上还是对MySQL的访问压力上,都会有明显地改善。这是因为Binlog的产生是以MySQL实例为粒度的。离线还原MySQL数据完成Binlog采集后,下一步就是利用Binlog来还原业务数据。而Merge任务的启动必须要严格依赖小时Kafka2Hive任务的完成。
  • 大规模集群故障处理,能抗住这3个灵魂拷问算你赢
    下面通过自我的三个灵魂拷问来分享一下自己对于大规模集群治理的经验及总结。对于集群突发的故障,平台应具备全面及时的监控告警,做到分钟级发现告警故障,推送告警通知,这是快速解决故障的前提保障。下面将针对上面的9个集群问题或故障逐一解答如何解决。
活跃用户
《科技日报》是富有鲜明科技特色的综合性日报,是面向国内外公开发行的中央主流新闻媒体,是党和国家在科技领域的重要舆论前沿,是广大读者依靠科技创造财富、提升文明、刷新生活的服务平台,是中国科技界面向社会、连接世界的明亮窗口。
《中国银行保险报》是中国银行保险监督管理委员会主管唯一工作日报。
数字生活家,手机新娱乐
专业的中文 IT 技术社区,与千万技术人共成长。
数字公民的糖
腾讯新闻旗下腾讯科技官方账号,在这里读懂科技!
凤凰科技频道官方账号,带你直击真相。
TechWeb专注于互联网消费领域,每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。
从思考,到创造
让创业者不再孤独@i黑马
《环球科学》杂志官方帐号 www.huanqiukexue.com
用极客视角,追踪你最不可错过的科技圈。有快闻、也有洞见;有脑洞、也有思考。
雷锋网,读懂智能&amp;未来。
36氪是中国领先的新商业媒体,提供新锐深度的商业报道。我们强调趋势与价值,我们的slogan是:让一部分人先看到未来。
最好的中文人物报道
笑谈开发轶事,品味程序人生。
可能是最会用故事讲解技术本质的公众号!
以通俗易懂的方式讲解数据结构与算法、计算机网络,计算机基础等编程知识。
程序员职业规划:职场晋升之路;探讨程序员转化转管理之路。程序员学习管理之道:团队管理、项目管理、管理工具的推荐和使用经验。
促进软件测试领域知识的传播