• ELK Stack日志分析系统架构
  “基本提到日志分析架构都会提到ELK Stack,基本上已经成为最长使用的日志分析架构。在日常的日志分析领域,简单的数据分析,数据BI等进行支持。”ELK Stack架构与组件ELK Stack可能有些同学非常熟悉,很多公司的日志分析系统都是采用的该架构。为什么会先把ELK Stack拿出来呢?ElasticSearch前面大概的讲了一下,这次主要是把ELK Stack拿出来或者说ElasticSearch当前比较常用的场景拿出来交流。ELK Stack可以由上面的图看出,ELK Stack由三个组件组成,ElasticSearch、Logstash与Kibana。其依赖于ElasticSearch直接对数据日志进行分析。
 • ElasticSearch起源、发展与安装
  “ ElasticSearch是一个基于Lucene的搜索引擎,ElasticSearch同样是采用Java编写的。Lucene与ElasticSearch之间的关系类似于发动机与汽车。Lucene为ElasticSearch提供基础的组件支撑。那么今天大致了解一下ElasticSearch的诞生与原理。”ElasticSearch的诞生   ElasticSearch的创始人期初是为了能够为妻子开发一个菜谱搜索应用而接触的Lucene。之前的几篇文章提到了Lucene是一个Java编写的开源的全文检索引擎...
 • Lucene的不同搜索类型及其作用
  “ Lucene对于查询的方式较多,可以实现TermQuery、BooleanQuery、PhraseQuery、 TermRangeQuery等一系列的基于不同类型的词组的检索。在进行查询的时候可以选择合适的查询方式对文档进行查询。例如数值类型可以采用TermRangeQuery进行查询。”查询方式大览TermQuery(词条搜索) 词条搜索,根据单个单词进行查找的方式进行检索,Term表示的是一个个的单词,而在中文环境下则表示的是一个个的词语(分词后的词语)。例如查询标题中包含PHP的文档。Query ...
 • Lucene查询过程介绍
  “ Lucene索引过程与相关的简介上一篇<Lucene简介与索引过程介绍>我们已经了解过,本篇我们来讲解Lucene查询过程。查询是用户把查询条件获取到目标文档的一个过程。通过用户输入的词Lucene负责匹配相关度最高的文档给予渲染输出。”Lucene的索引建立完成后就可以让用户基于条件进行相关的文档检索,用户输入关键词从索引中获取所需的文档列表,或通过其他的条件对文档进行过滤与排序等。 例如咱们开篇中在百度中搜索的PHP是世界上最好的语言,百度基于我们的搜索词汇在全网中获取相关的文档列表给予返回。并且我...
 • Apache Flink基本编程模型
  “前一篇文章中<一文了解Flink数据-有界数据与无界数据>大致讲解了Apache Flink数据的形态问题。Apache Flink实现分布式集合数据集转换、抽取、分组、统计等。根据数据源的类型,即为有界数据与无界数据,提供了DataSet与DataStream的基础API。”DataSet与DataStream根据数据源的类型,即为有界数据与无界数据。Apache Flink提供可以编写流处理与批处理的程序。其中DataSet API用于批处理,DataStream API用于流式处理。对于DataSe...
 • 致歉声明,Kafka数据中转传输
  致歉声明本人CainGao,在这里深深的为之前的一篇文章<记一次海外数据进行中转传输到Kafka集群的过程>的错误进行道歉。在之前那期的文章中,本人说实现producer节点的数据通过nginx节点发送到Kafka集群中是错误的。需求起源由于某些海外节点的数据发送到Kafka的上海集群会产生较高的延迟,因为公网访问的时候数据可能会进行多次中转,而导致网络延迟较高。所以增加了一个地区中转,该地区的网络情况到所有的节点的网络情况较好(厂商推荐)。所以想把数据通过该地区做一次中转,再发送到上海。这样来看整体时延约...
 • 学习Apache Flink能用来做什么?
  Apache Flink这么火,我们学完了可以用来做什么?Apache Flink是近几年大火的数据处理引擎。受到各大厂商的推崇并且已经应用与实际的业务场景中。很多公司在进行选型的时候都会选择Apache Flink作为选型的对象。那么Apache Flink对于企业来说能够做什么?在实际的生产过程中有大量的数据实时性分析需求,例如实时推荐,异常告警,传感器信令分析等需求。随着技术的不断发展对于实施指标的需求也越来越多,而且时效性要求越来越高。使用传统的技术方案等待数据落地后再进行分析那么就无法保证数据的时...
个人资料

奋斗在数据行业一线的物种,喝咖啡产代码的废物,提数猿