Yezhiwei Blog

平时多流汗,战时少流血!

MySQL索引及注意事项

索引规范 自增列或全局ID做InnoDB主键,推荐用独立于业务的 AUTO_INCREMENT 列或全局ID生成器做代理主键 非唯一索引命名默认为 idx_字段名 来命名 唯一索引使用 uk_字段名 来命名 主键索引 pk_ 来命名 单张表索引数量建议控制在5个以内 合理添加索引可以改善查询,但会减慢更新,并不是索引越多越好,索引字段数最好不超过表字段的20% 字符字段必须建前缀索引, l...

MySQL使用规范

赶集网MySQL36条军规 58到家MySQL军规升级版 阿里巴巴Java开发手册(终极版).pdf 参考以上内容及工作中的一些总结 表结构设计规范 不在数据库做运算,复杂运算移动到程序端,节省数据库服务CPU等资源,同时运算的字段也无法使用索引 控制单表数据量,纯 INT 不超过1000W行,含 CHAR 不超过500W行 合理分表,如按用户USERID,日期,地区等 建议单库不超过...

Spark编程基础

准备知识 2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2.0架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) Spark快速入门 Spark快速入门-1-Spark on Yar...

Kafka进阶

内容为将要在公司分享Kafka的PPT,推荐在wifi环境下阅读 本次分享内容包括 1.Message delivery guarantee 分场景进行可能性的描述 2.Partition的重要性及在什么情况下会Rebalance 3.Kafka Stream介绍 4.运行一下Kafka Stream WordCount的demo ...

Kafka基础知识

如有不当之处请指出,我后续逐步完善更正

Spark快速入门-6-Spark算子的选择

知识点 https://www.cnblogs.com/arachis/p/Spark_API.html 使用reduceByKey/aggregateByKey替代groupByKey 使用mapPartitions替代普通map 使用foreachPartitions替代foreach 使用filter之后进行coalesce操作 使用repartitionAndSortWithinP...

Spark快速入门-5-Spark性能优化指南-高级篇

前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。 数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证S...

Spark快速入门-4-Spark性能优化指南-基础篇

前言 在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速...

Spark快速入门-3-Spark的算子总结

Spark的算子的分类 Transformation 变换/转换算子:这类算子操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。这种变换并不触发提交作业,完成作业中间过程处理。 Action 行动算子:这类算子会触发 SparkContext 提交 Job 作业,并将数据输出 Spark 系统。 ...

Spark快速入门-2-Spark的编程模型

准备 2017-12-19-Hadoop2.0架构及HA集群配置(1) 2017-12-24-Hadoop2.0架构及HA集群配置(2) 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) 相关概念 2018-01-15-Spark快速入门-1-Spark-on...