Yezhiwei Blog

平时多流汗，战时少流血！

MySQL索引及注意事项

索引规范自增列或全局ID做InnoDB主键，推荐用独立于业务的 AUTO_INCREMENT 列或全局ID生成器做代理主键非唯一索引命名默认为 idx_字段名来命名唯一索引使用 uk_字段名来命名主键索引 pk_ 来命名单张表索引数量建议控制在5个以内合理添加索引可以改善查询，但会减慢更新，并不是索引越多越好，索引字段数最好不超过表字段的20% 字符字段必须建前缀索引， l...

Posted by Yezhiwei on April 8, 2018

MySQL使用规范

赶集网MySQL36条军规 58到家MySQL军规升级版阿里巴巴Java开发手册（终极版）.pdf 参考以上内容及工作中的一些总结表结构设计规范不在数据库做运算，复杂运算移动到程序端，节省数据库服务CPU等资源，同时运算的字段也无法使用索引控制单表数据量，纯 INT 不超过1000W行，含 CHAR 不超过500W行合理分表，如按用户USERID，日期，地区等建议单库不超过...

Posted by Yezhiwei on April 2, 2018

Spark编程基础

准备知识 2017-12-19-Hadoop2.0架构及HA集群配置（1） 2017-12-24-Hadoop2.0架构及HA集群配置（2） 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) Spark快速入门 Spark快速入门-1-Spark on Yar...

Posted by Yezhiwei on March 9, 2018

Kafka进阶

内容为将要在公司分享Kafka的PPT，推荐在wifi环境下阅读本次分享内容包括 1.Message delivery guarantee 分场景进行可能性的描述 2.Partition的重要性及在什么情况下会Rebalance 3.Kafka Stream介绍 4.运行一下Kafka Stream WordCount的demo ...

Posted by Yezhiwei on February 22, 2018

Kafka基础知识

如有不当之处请指出，我后续逐步完善更正

Posted by Yezhiwei on February 8, 2018

Spark快速入门-6-Spark算子的选择

知识点 https://www.cnblogs.com/arachis/p/Spark_API.html 使用reduceByKey/aggregateByKey替代groupByKey 使用mapPartitions替代普通map 使用foreachPartitions替代foreach 使用filter之后进行coalesce操作使用repartitionAndSortWithinP...

Posted by Yezhiwei on January 20, 2018

Spark快速入门-5-Spark性能优化指南-高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证S...

Posted by Yezhiwei on January 19, 2018

Spark快速入门-4-Spark性能优化指南-基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速...

Posted by Yezhiwei on January 18, 2018

Spark快速入门-3-Spark的算子总结

Spark的算子的分类 Transformation 变换/转换算子：这类算子操作是延迟计算的，也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触发运算。这种变换并不触发提交作业，完成作业中间过程处理。 Action 行动算子：这类算子会触发 SparkContext 提交 Job 作业，并将数据输出 Spark 系统。 ...

Posted by Yezhiwei on January 17, 2018

Spark快速入门-2-Spark的编程模型

准备 2017-12-19-Hadoop2.0架构及HA集群配置（1） 2017-12-24-Hadoop2.0架构及HA集群配置（2） 2017-12-25-Spark集群搭建 2017-12-29-Hadoop和Spark的异同 2017-12-28-Spark-HelloWorld(Spark开发环境搭建) 相关概念 2018-01-15-Spark快速入门-1-Spark-on...

Posted by Yezhiwei on January 16, 2018