JKSJ 吴磊零基础入门 Spark（完结）

2022年2月22日 109条评论 8,921次阅读

资源简介

文章目录

说到学习 Spark，如果你对“Spark 还有那么火吗？会不会已经过时了？”这个问题感到困惑，那大可不必。

因为经过十多年的发展，Spark 已经由当初的“大数据新秀”成长为数据应用领域的中流砥柱，早已成为各大头部互联网公司的标配。比如，字节跳动、美团、Netflix 等公司基于 Spark 构建的应用，在为公司旗下的核心产品提供服务。

这也就意味着，对于数据应用领域的任何一名工程师来说，Spark 开发都是一项必备技能。

虽然 Spark 好用，而且是大数据从业者的一门必修课，但对于入门这件事儿，却也面临着这样一些难题：

学习资料多且杂，自己根本就梳理不出脉络，更甭提要构建结构化的知识体系了。
学习 Spark，一定要先学 Scala 吗？新学一门编程语言，真不是件容易的事儿。
Spark 的开发算子太多，记不住，来了新的业务需求，又不知道该从哪里下手。
……

那么，该如何解决这些问题，从而打开 Spark 应用开发的大门呢？

为此，我们邀请到了吴磊老师。他会结合自己这些年学习、应用和实战 Spark 的丰富经验，为你梳理一套零基础入门 Spark 的“三步走”方法论：熟悉 Spark 开发 API 与常用算子、吃透 Spark 核心原理、玩转 Spark 计算子框架，从而帮助你零基础上手 Spark 。

这个“三步走”方法论再配合 4 个不同场景的小项目，吴磊老师会从基本原理到项目落地，带你深入浅出玩转 Spark。

资源目录

——/计算机教程/02极客时间/100090001-专栏课-吴磊-零基础入门 Spark（完结）/
├──01-开篇词(1讲)  
|   ├──开篇词丨入门Spark，你需要学会“三步走”.html  3.21M
|   ├──开篇词丨入门Spark，你需要学会“三步走”.m4a  12.37M
|   └──开篇词丨入门Spark，你需要学会“三步走”.pdf  3.53M
├──02-基础知识(1讲)  
|   ├──01丨Spark：从“大数据的HelloWorld”开始.html  4.82M
|   ├──01丨Spark：从“大数据的HelloWorld”开始.m4a  14.48M
|   ├──01丨Spark：从“大数据的HelloWorld”开始.pdf  4.97M
|   ├──02丨RDD与编程模型：延迟计算是怎么回事？.html  2.63M
|   ├──02丨RDD与编程模型：延迟计算是怎么回事？.m4a  13.81M
|   ├──02丨RDD与编程模型：延迟计算是怎么回事？.pdf  4.03M
|   ├──03丨RDD常用算子（一）：RDD内部的数据转换.html  2.47M
|   ├──03丨RDD常用算子（一）：RDD内部的数据转换.m4a  15.87M
|   ├──03丨RDD常用算子（一）：RDD内部的数据转换.pdf  3.65M
|   ├──04丨进程模型与分布式部署：分布式计算是怎么回事？.html  2.51M
|   ├──04丨进程模型与分布式部署：分布式计算是怎么回事？.m4a  13.54M
|   ├──04丨进程模型与分布式部署：分布式计算是怎么回事？.pdf  3.41M
|   ├──05丨调度系统：DAG、Stages与分布式任务.html  3.08M
|   ├──05丨调度系统：DAG、Stages与分布式任务.m4a  18.67M
|   ├──05丨调度系统：DAG、Stages与分布式任务.pdf  5.19M
|   ├──06丨Shuffle管理：为什么Shuffle是性能瓶颈？.html  2.38M
|   ├──06丨Shuffle管理：为什么Shuffle是性能瓶颈？.m4a  14.41M
|   ├──06丨Shuffle管理：为什么Shuffle是性能瓶颈？.pdf  3.73M
|   ├──07丨RDD常用算子（二）：Spark如何实现数据聚合？.html  2.50M
|   ├──07丨RDD常用算子（二）：Spark如何实现数据聚合？.m4a  13.55M
|   ├──07丨RDD常用算子（二）：Spark如何实现数据聚合？.pdf  4.11M
|   ├──08丨内存管理：Spark如何使用内存？.html  3.04M
|   ├──08丨内存管理：Spark如何使用内存？.m4a  13.43M
|   ├──08丨内存管理：Spark如何使用内存？.pdf  4.24M
|   ├──09丨RDD常用算子（三）：数据的准备、重分布与持久化.html  2.81M
|   ├──09丨RDD常用算子（三）：数据的准备、重分布与持久化.m4a  16.93M
|   ├──09丨RDD常用算子（三）：数据的准备、重分布与持久化.pdf  4.42M
|   ├──10丨广播变量&累加器：共享变量是用来做什么的？.m4a  11.77M
|   ├──10丨广播变量-累加器：共享变量是用来做什么的？.html  2.04M
|   ├──10丨广播变量-累加器：共享变量是用来做什么的？.pdf  2.73M
|   ├──11丨存储系统：数据到底都存哪儿了？.html  2.86M
|   ├──11丨存储系统：数据到底都存哪儿了？.m4a  10.79M
|   ├──11丨存储系统：数据到底都存哪儿了？.pdf  5.19M
|   ├──12丨基础配置详解：有哪些配置项是你必须要关注的？.html  2.13M
|   ├──12丨基础配置详解：有哪些配置项是你必须要关注的？.m4a  15.29M
|   └──12丨基础配置详解：有哪些配置项是你必须要关注的？.pdf  2.43M
├──03-Spark SQL (4讲)  
|   ├──13丨让我们从《小汽车摇号分析》开始.html  2.89M
|   ├──13丨让我们从《小汽车摇号分析》开始.m4a  12.60M
|   ├──13丨让我们从《小汽车摇号分析》开始.pdf  4.40M
|   ├──14丨DataFrame与SparkSQL的由来.html  3.44M
|   ├──14丨DataFrame与SparkSQL的由来.m4a  14.88M
|   ├──14丨DataFrame与SparkSQL的由来.pdf  5.70M
|   ├──15丨数据源与数据格式：DataFrame从何而来？.html  3.11M
|   ├──15丨数据源与数据格式：DataFrame从何而来？.m4a  18.06M
|   ├──15丨数据源与数据格式：DataFrame从何而来？.pdf  4.46M
|   ├──16丨数据转换：如何在DataFrame之上做数据处理？.html  3.35M
|   ├──16丨数据转换：如何在DataFrame之上做数据处理？.m4a  17.13M
|   ├──16丨数据转换：如何在DataFrame之上做数据处理？.pdf  4.52M
|   ├──17丨数据关联：不同的关联形式与实现机制该怎么选？.html  2.49M
|   ├──17丨数据关联：不同的关联形式与实现机制该怎么选？.m4a  14.48M
|   ├──17丨数据关联：不同的关联形式与实现机制该怎么选？.pdf  3.66M
|   ├──18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.html  3.14M
|   ├──18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.m4a  12.28M
|   ├──18丨数据关联优化：都有哪些Join策略，开发者该如何取舍？.pdf  4.18M
|   ├──19丨配置项详解：哪些参数会影响应用程序执行性能？.html  3.61M
|   ├──19丨配置项详解：哪些参数会影响应用程序执行性能？.m4a  14.33M
|   ├──19丨配置项详解：哪些参数会影响应用程序执行性能？.pdf  3.73M
|   ├──20丨Hive+Spark强强联合：分布式数仓的不二之选.html  3.34M
|   ├──20丨Hive+Spark强强联合：分布式数仓的不二之选.m4a  17.36M
|   ├──20丨Hive+Spark强强联合：分布式数仓的不二之选.pdf  4.99M
|   ├──21丨SparkUI（上）：如何高效地定位性能问题？.html  5.55M
|   ├──21丨SparkUI（上）：如何高效地定位性能问题？.m4a  11.45M
|   ├──21丨SparkUI（上）：如何高效地定位性能问题？.pdf  6.46M
|   ├──22丨SparkUI（下）：如何高效地定位性能问题？.html  5.78M
|   ├──22丨SparkUI（下）：如何高效地定位性能问题？.m4a  13.07M
|   └──22丨SparkUI（下）：如何高效地定位性能问题？.pdf  6.61M
├──04-SparkMLlib(2讲)  
|   ├──23丨SparkMLlib：从“房价预测”开始.html  3.16M
|   ├──23丨SparkMLlib：从“房价预测”开始.m4a  14.82M
|   ├──23丨SparkMLlib：从“房价预测”开始.pdf  4.80M
|   ├──24丨特征工程（上）：有哪些常用的特征处理函数？.html  3.72M
|   ├──24丨特征工程（上）：有哪些常用的特征处理函数？.m4a  15.84M
|   ├──24丨特征工程（上）：有哪些常用的特征处理函数？.pdf  4.63M
|   ├──25丨特征工程（下）：有哪些常用的特征处理函数？.html  3.06M
|   ├──25丨特征工程（下）：有哪些常用的特征处理函数？.m4a  11.64M
|   ├──25丨特征工程（下）：有哪些常用的特征处理函数？.pdf  5.21M
|   ├──26丨模型训练（上）：决策树系列算法详解.html  2.41M
|   ├──26丨模型训练（上）：决策树系列算法详解.m4a  11.77M
|   ├──26丨模型训练（上）：决策树系列算法详解.pdf  4.73M
|   ├──27丨模型训练（中）：回归、分类和聚类算法详解.html  2.41M
|   ├──27丨模型训练（中）：回归、分类和聚类算法详解.m4a  10.44M
|   ├──27丨模型训练（中）：回归、分类和聚类算法详解.pdf  3.79M
|   ├──28丨模型训练（下）：协同过滤与频繁项集算法详解.html  2.72M
|   ├──28丨模型训练（下）：协同过滤与频繁项集算法详解.m4a  10.26M
|   ├──28丨模型训练（下）：协同过滤与频繁项集算法详解.pdf  4.34M
|   ├──29丨SparkMLlibPipeline：高效开发机器学习应用.html  2.19M
|   ├──29丨SparkMLlibPipeline：高效开发机器学习应用.m4a  12.80M
|   └──29丨SparkMLlibPipeline：高效开发机器学习应用.pdf  2.06M
├──05-特别放送(1讲)  
|   ├──用户故事丨小王：保持空杯心态，不做井底之蛙.html  4.78M
|   ├──用户故事丨小王：保持空杯心态，不做井底之蛙.m4a  6.24M
|   └──用户故事丨小王：保持空杯心态，不做井底之蛙.pdf  12.05M
├──06-StructuredStreaming(1讲)  
|   ├──30丨StructuredStreaming：从“流动的WordCount”开始.html  3.31M
|   ├──30丨StructuredStreaming：从“流动的WordCount”开始.m4a  11.57M
|   ├──30丨StructuredStreaming：从“流动的WordCount”开始.pdf  4.01M
|   ├──31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.html  3.70M
|   ├──31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.m4a  11.03M
|   ├──31丨新一代流处理框架：Batchmode和Continuousmode哪家强？.pdf  5.17M
|   ├──32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.html  2.97M
|   ├──32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.m4a  13.20M
|   ├──32丨Window操作&Watermark：流处理引擎提供了哪些优秀机制？.pdf  4.73M
|   ├──33丨流计算中的数据关联：流与流、流与批.html  1.95M
|   ├──33丨流计算中的数据关联：流与流、流与批.m4a  13.56M
|   ├──33丨流计算中的数据关联：流与流、流与批.pdf  2.85M
|   ├──34丨Spark+Kafka：流计算中的“万金油”.html  2.49M
|   ├──34丨Spark+Kafka：流计算中的“万金油”.m4a  13.21M
|   └──34丨Spark+Kafka：流计算中的“万金油”.pdf  4.08M
├──08-特别放送(1讲)  
|   ├──用户故事丨小王：保持空杯心态，不做井底之蛙.html  4.03M
|   ├──用户故事丨小王：保持空杯心态，不做井底之蛙.m4a  6.24M
|   └──用户故事丨小王：保持空杯心态，不做井底之蛙.pdf  11.94M
└──09-结束语(2讲)  
|   ├──结束语丨进入时间裂缝，持续学习.html  2.52M
|   ├──结束语丨进入时间裂缝，持续学习.m4a  6.60M
|   └──结束语丨进入时间裂缝，持续学习.pdf  3.87M