JKSJ 吴磊 Spark 性能调优实战

2022年2月22日 62条评论 6,432次阅读

资源简介

文章目录

目前，Spark 已然成为分布式数据处理技术的事实标准，也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说，Spark 开发都是一项必备技能；而想要进入大厂，就更得有丰富的 Spark 性能调优经验。

可现实情况是，我们想要快速上手开发应用很容易，把握应用的执行性能却总也找不到头绪，比如：

明明都是内存计算，为什么我用了 RDD/DataFrame Cache，性能反而更差了？

网上吹得神乎其神的调优手段，为啥到了我这就不好使呢？

并行度设置得也不低，为啥我的 CPU 利用率还是上不去？

节点内存几乎全都划给 Spark 用了，为啥我的应用还是 OOM？

为此，我们特意邀请到了吴磊老师，他根据自己多年的数据处理经验，梳理出了一套关于性能调优的方法论，帮助你在有效加速 Spark 作业执行性能的同时，也建立起以性能为导向的开发习惯。

除此之外，他还会手把手教你打造一个分布式应用，带你从不同角度洞察汽油车摇号的趋势和走向，让你对性能调优技巧和思路的把控有一个“质的飞跃”。

资源目录

——/计算机教程/02极客时间/100073401-专栏课-吴磊-Spark 性能调优实战（完结）/
├──01-课前必学 (3讲)  
|   ├──01丨性能调优的必要性：Spark本身就很快，为啥还需要我调优？.m4a  5.86M
|   ├──01丨性能调优的必要性：Spark本身就很快，为啥还需要我调优？.pdf  2.03M
|   ├──02丨性能调优的本质：调优的手段五花八门，该从哪里入手？.m4a  6.45M
|   ├──02丨性能调优的本质：调优的手段五花八门，该从哪里入手？.pdf  2.16M
|   ├──开篇词丨Spark性能调优，你该掌握这些“套路”.m4a  5.08M
|   └──开篇词丨Spark性能调优，你该掌握这些“套路”.pdf  6.10M
├──02-原理篇 (5讲)  
|   ├──03丨RDD：为什么你必须要理解弹性分布式数据集？.m4a  7.06M
|   ├──03丨RDD：为什么你必须要理解弹性分布式数据集？.pdf  5.44M
|   ├──04丨DAG与流水线：到底啥叫“内存计算”？.m4a  7.47M
|   ├──04丨DAG与流水线：到底啥叫“内存计算”？.pdf  2.23M
|   ├──05丨调度系统：“数据不动代码动”到底是什么意思？.m4a  11.54M
|   ├──05丨调度系统：“数据不动代码动”到底是什么意思？.pdf  8.93M
|   ├──06丨存储系统：空间换时间，还是时间换空间？.m4a  8.84M
|   ├──06丨存储系统：空间换时间，还是时间换空间？.pdf  2.60M
|   ├──07丨内存管理基础：Spark如何高效利用有限的内存空间？.m4a  9.25M
|   └──07丨内存管理基础：Spark如何高效利用有限的内存空间？.pdf  2.69M
├──03-通用性能调优篇 (12讲)  
|   ├──08丨应用开发三原则：如何拓展自己的开发边界？.m4a  10.91M
|   ├──08丨应用开发三原则：如何拓展自己的开发边界？.pdf  1.92M
|   ├──09丨调优一筹莫展，配置项速查手册让你事半功倍！（上）.m4a  11.22M
|   ├──09丨调优一筹莫展，配置项速查手册让你事半功倍！（上）.pdf  1.96M
|   ├──10丨调优一筹莫展，配置项速查手册让你事半功倍！（下）.m4a  9.22M
|   ├──10丨调优一筹莫展，配置项速查手册让你事半功倍！（下）.pdf  5.18M
|   ├──11丨Shuffle的工作原理：为什么说Shuffle是一时无两的性能杀手？.m4a  9.69M
|   ├──11丨Shuffle的工作原理：为什么说Shuffle是一时无两的性能杀手？.pdf  23.40M
|   ├──12丨广播变量（一）：克制Shuffle，如何一招制胜！.m4a  7.24M
|   ├──12丨广播变量（一）：克制Shuffle，如何一招制胜！.pdf  4.13M
|   ├──13丨广播变量（二）：有哪些途径让SparkSQL选择BroadcastJoins？.m4a  7.40M
|   ├──13丨广播变量（二）：有哪些途径让SparkSQL选择BroadcastJoins？.pdf  1.50M
|   ├──14丨CPU视角：如何高效地利用CPU？.m4a  10.31M
|   ├──14丨CPU视角：如何高效地利用CPU？.pdf  7.18M
|   ├──15丨内存视角（一）：如何最大化内存的使用效率？.m4a  8.48M
|   ├──15丨内存视角（一）：如何最大化内存的使用效率？.pdf  1.48M
|   ├──16丨内存视角（二）：如何有效避免Cache滥用？.m4a  10.61M
|   ├──16丨内存视角（二）：如何有效避免Cache滥用？.pdf  3.83M
|   ├──17丨内存视角（三）：OOM都是谁的锅？怎么破？.m4a  8.14M
|   ├──17丨内存视角（三）：OOM都是谁的锅？怎么破？.pdf  4.50M
|   ├──18丨磁盘视角：如果内存无限大，磁盘还有用武之地吗？.m4a  7.58M
|   ├──18丨磁盘视角：如果内存无限大，磁盘还有用武之地吗？.pdf  4.60M
|   ├──19丨网络视角：如何有效降低网络开销？.m4a  7.23M
|   └──19丨网络视角：如何有效降低网络开销？.pdf  2.53M
├──04-Spark SQL 性能调优篇 (4讲)  
|   ├──20丨RDD和DataFrame：既生瑜、何生亮.m4a  7.22M
|   ├──20丨RDD和DataFrame：既生瑜、何生亮.pdf  5.25M
|   ├──21丨Catalyst逻辑计划：你的SQL语句是怎么被优化的？（上）.m4a  8.52M
|   ├──21丨Catalyst逻辑计划：你的SQL语句是怎么被优化的？（上）.pdf  5.10M
|   ├──22丨Catalyst物理计划：你的SQL语句是怎么被优化的（下）？.m4a  8.07M
|   ├──22丨Catalyst物理计划：你的SQL语句是怎么被优化的（下）？.pdf  8.33M
|   ├──23丨钨丝计划：Tungsten给开发者带来了哪些福报？.m4a  10.00M
|   ├──23丨钨丝计划：Tungsten给开发者带来了哪些福报？.pdf  5.78M
|   ├──24丨Spark3.m4a  13.35M
|   ├──24丨Spark3.pdf  5.41M
|   ├──25丨Spark3.m4a  10.14M
|   ├──25丨Spark3.pdf  3.51M
|   ├──26丨JoinHints指南：不同场景下，如何选择Join策略？.m4a  14.02M
|   ├──26丨JoinHints指南：不同场景下，如何选择Join策略？.pdf  7.06M
|   ├──27丨大表Join小表：广播变量容不下小表怎么办？.m4a  15.11M
|   ├──27丨大表Join小表：广播变量容不下小表怎么办？.pdf  3.91M
|   ├──28丨大表Join大表（一）：什么是“分而治之”的调优思路？.m4a  11.33M
|   ├──28丨大表Join大表（一）：什么是“分而治之”的调优思路？.pdf  4.30M
|   ├──29丨大表Join大表（二）：什么是负隅顽抗的调优思路？.m4a  12.61M
|   ├──29丨大表Join大表（二）：什么是负隅顽抗的调优思路？.pdf  6.19M
|   ├──30丨应用开发：北京市小客车（汽油车）摇号趋势分析.m4a  13.82M
|   ├──30丨应用开发：北京市小客车（汽油车）摇号趋势分析.pdf  3.92M
|   ├──31丨性能调优：手把手带你提升应用的执行性能.m4a  19.84M
|   └──31丨性能调优：手把手带你提升应用的执行性能.pdf  6.63M
└──05-结束语(2讲)  
|   ├──结束语丨在时间面前，做一个笃定学习的人.m4a  8.56M
|   └──结束语丨在时间面前，做一个笃定学习的人.pdf  3.33M