Yezhiwei Blog

平时多流汗,战时少流血!

Kafka基础知识

如有不当之处请指出,我后续逐步完善更正

Spark快速入门-6-Spark算子的选择

知识点 https://www.cnblogs.com/arachis/p/Spark_API.html 使用reduceByKey/aggregateByKey替代groupByKey 使用mapPartitions替代普通map 使用foreachPartitions替代foreach 使用filter之后进行coalesce操作 使用repartitionAndSortWithinP...

Spark快速入门-5-Spark性能优化指南-高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证S...

Spark快速入门-4-Spark性能优化指南-基础篇

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速...

Spark快速入门-3-Spark的算子总结

Spark的算子的分类 Transformation 变换/转换算子:这类算子操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。这种变换并不触发提交作业,完成作业中间过程处理。 Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业,并将数据输出 Spark 系统。 ...

Spark快速入门-2-Spark的编程模型

准备 2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2.0架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) 相关概念 2018-01-15-Spark快速入门-1-Spark-on...

Spark快速入门-1-Spark on Yarn Job的执行流程简介

准备 2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) 相关概念 在介绍一个典型的 Spark Job 是如何被调度执行前,先了解以...

Scala快速入门-11-常用集合操作

知识点 所有的集合都扩展自Iterable特质 集合有三大类,分别为序列、集和映射 几乎所有集合类,Scala都同时提供了可变和不可变的版本 Scala列表要么是空的,要么拥有一头一尾,其中尾部本身又是一个表列 集是无先后次序的集合 用LinkedHashSet来保留插入顺序,或用SortedSet来按顺序进行迭代 +将元素添加到无先后次序的集合中;+:和:+向前或向后追加到序列;++将两...

Scala快速入门-10-模式匹配与样例类

知识点 mathch表达式是一个更好的switch,不会有穿透到下一个分支的问题 如果没有模式能够匹配,会抛出MatchError,可以用case _ 模式来避免,相当于Java中的default 模式可以包含一个随意定义的条件,称做守卫 可以匹配数组、列表、元组等模式,然后将匹配到不同部分绑定到变量 样例类及密封类的模式匹配 用Option来存放可能存在也可能不存在的值,比null更安全...

Scala快速入门-9-高阶函数

知识点 作为值的函数 创建匿名函数 带函数参数的函数 闭包 柯里化 函数 在Scala中,函数是“头等公民”,可以在变量中存放函数 scala> def fun(msg: String) {println(msg)} fun: (msg: String)Unit scala> val f = fun <console>:8: error: missing a...