Spark Driver : Is DRIVER_HOST_ADDRESS hostname or ip？

发表于 2020-01-03

字数统计 1.1k 字 | 阅读时长 5 分钟

问题发现在集群外spark-client模式提交spark作业，driver会把自己的hostname或者ip发送给AM，但到底什么时候是hostname，什么时候是ip呢？注：DRIVER_HOST_ADDRESS是hostname或ip问题重大，关乎到Spark Application是否可以成 ...

阅读全文 »

基于回归模型的Spark任务性能分析方法

发表于 2018-11-05

字数统计 922 字 | 阅读时长 3 分钟

引言本文主要介绍了一种Spark作业的性能评估方法，首先对作业进行分类，主要分为IO型和非IO型；之后对不同的作业类型采取不同的分量权重进行打分，由分数高低来评价作业性能。评估的数据来源分为集群资源消耗和Spark作业运行效率。前者使用Ganglia进 ...

阅读全文 »

Spark Performance Monitor Tool Dr.Elephant

发表于 2018-10-30

字数统计 1.6k 字 | 阅读时长 6 分钟

引言目前Spark的应用非常广泛，但由于Spark推出的时间不是很长，针对Spark的优化往往靠开发人员的经验，公司内部为了帮助开发人员了解和优化他们的流程，不得不组织培训来告诉他们如何优化自己的任务，但 ...

阅读全文 »

Java方法泛型化在avro序列化与反序列化的应用

发表于 2018-01-26

字数统计 1.4k 字 | 阅读时长 5 分钟

项目中需要做到对不同流量和日志实现序列化和反序列化，每种流量和日志格式都定义为一种java bean对象类型，通常我们在序列化和反序列时会针对不同的对象写一对特定的序列化和反序列化方法，但这样重复代码太多，故考虑将序列化和反序列化方法泛型化。基本知识 ...

阅读全文 »

Spark内存管理总结

发表于 2018-01-04

字数统计 1.4k 字 | 阅读时长 5 分钟

本文主要总结Spark 2.X的内存管理，Spark自从1.6以后，提出了一个新的内存管理模型Unified Memory Management。 ...

阅读全文 »

flume自定义拦截器

发表于 2017-12-26

字数统计 921 字 | 阅读时长 4 分钟

最近由于项目需要，将以前的数据流整合，以前提取日志文件采取java程序+kafka+flume+hive的方式对日志实施解析和实时存储，这种方式实现起来太不优雅，故现在将日志解析模块由flume 拦截器来做，使数据管道只需要从flume+hive即可。开发环境 Java 1.8 Intelij I ...

阅读全文 »

从开发层面上优化Spark作业

发表于 2017-12-20

字数统计 5.4k 字 | 阅读时长 19 分钟

概述当开发人员通过Spark官方文档上的API来编写Spark作业时，将会遇到transformation, action和RDD这样的单词。对于开发人员，理解这种级别的Spark概念是至关重要的。比方说 ...

阅读全文 »

基于GC的Spark应用程序优化

发表于 2017-12-18

字数统计 3.5k 字 | 阅读时长 12 分钟

概述Apache Spark 由于其卓越的性能，丰富的分析和计算库，得到学术界和工业界的广泛使用。与大数据生态圈其他工具一样，Spark也是基于JVM。由于Spark会存储大量的数据在内存中，它主要依靠Java的内存管理和GC。当然Spark在未来也会通过像Tungsten 这样的产品来对内存进行简 ...

阅读全文 »

安装sandbox-hdp Docker问题总结

发表于 2017-10-31

字数统计 509 字 | 阅读时长 2 分钟

Hortonworks Sandbox是一个集成了HDP产品，它里面包含了所有HDP组件，并且已经部署完成。通过使用Hortonworks的Sandbox docker容器，可以非常方便快捷的完成大数据平台的部署，时间从过去的几天缩短为几分钟。在部署过程中遇到的问题，下面做个总结，其他简要的步骤省 ...

阅读全文 »

Spark SQL Source Code Analyse

发表于 2017-10-29

字数统计 71 字 | 阅读时长 1 分钟

Spark SQL源码分析文档，基于HDP Spark 1.6.3。文章分析思路从Spark SQL基本框架，SQLParser、分析器、优化器、物理计划以及执行部分。当然学习Spark SQL最好的入门是看Spark 创始人的论文Spark SQL: Relational Data Proces ...

阅读全文 »

Tianxiong Wu

There is no royal road to learning.

GitHub FB Page StackOverflow Weibo