拉勾教育-大数据运维实战给大数据工程师的运维修炼手册

2022年2月6日 58条评论 4,914次阅读

资源简介

文章目录

课程背景
大数据在这个互联网时代的重要意义，已经无需再多赘述。阿里、腾讯、美团等几乎你听过名字的公司，都有自己的大数据平台。

过去我们都关注大数据开发，随着大数据平台的逐渐完善，如何保障数据的安全、高效，如何保证系统架构的平稳运行，都成为各数据平台的“心病”。

于是，大数据运维这个岗位一跃成为大数据领域的热词。很多公司会让开发来兼大数据运维的工作，这对开发人员来说也是不小的挑战。

相比大数据开发，大数据运维方向需要更多的经验积累，比如什么架构才能支撑这个数据量、什么资源配置才能满足分析需求，这需要你实际接触过、操作过才能给出答案，而不是靠理论或者猜测。

专栏解读
专栏共七大模块， 26 个课时，引用大量大数据运维的实战案例，来讲述大数据平台的架构设计与部署、大数据平台的监控告警、性能调优，涵盖了大数据运维工作的全方位技能点。

模块一：Hadoop 大数据平台的规划与部署，主要讲解 Hadoop 大数据平台的搭建与基础配置；

模块二：Hadoop 分布式架构解析，主要讲解分布式文件系统 HDFS 和分布式资源管理器 Yarn 的运行机制以及内部实现细节；

模块三：Hadoop 外围应用整合实战，主要讲解大数据平台下如何整合一些外围应用，主要是 Spark、Flink 与 Yarn 的整合应用，以及 HBase 集群的部署；

模块四：Hadoop 大数据平台数据收集应用实践，主要讲解数据收集方法以及如何实现快速查询，Filebeat 、 Logstash、Elasticsearch ；

模块五：大数据平台日志传输与可视化应用实践，主要讲解海量数据环境中如何实现数据的实时传输，并实现可视化展示；

模块六：大数据平台运维监控体系的构建，主要讲解如何对大数据平台下每个组件的运行状态、服务状态进行监控；

模块七：大数据平台性能调优与运维经验汇总，主要讲解大数据运维中常见的故障处理方法、集群扩缩容、集群调度策略选型等。

老师简介
高俊峰（南非蚂蚁）：前新浪资深运维专家
专业运维专家、系统架构师、DBA 和技术顾问，曾就职于新浪、阿里云、新好耶等企业，从事 Linux/Unix 服务器系统的架构、运维和管理工作。他负责设计并运维过 PB 数量级、日百亿量的大数据平台，擅长大规模服务器集群的运维和管理，在故障诊断与排除、自动化运维、安全运维、性能调优、虚拟化等方面有丰富的实战经验。目前，他任国内某创业公司 CTO，主要从事基于 Hadoop 的云平台，以及 Hadoop 相关生态系统的运维、监控与优化等技术研究工作。

此外，他还著有畅销书《循序渐进Linux》和《高性能Linux服务器构建实战：运维监控、性能调优与集群应用》等书，其中后者是 Linux 运维领域公认的经典著作。

资源目录

——/计算机教程/07拉勾/074-144-大数据运维实战/
├──文档  
|   ├──[3075] 开篇词：掌握大数据，把握未来.md  14.53kb
|   ├──[3076] 第01讲：大话 Hadoop 生态圈.md  28.60kb
|   ├──[3077] 第02讲：Hadoop 发行版选型和伪分布式平台的构建.md  39.75kb
|   ├──[3078] 第03讲：自动化运维工具 Anible 在部署大数据平台下的应用（上）.md  24.75kb
|   ├──[3079] 第05讲：手动模式构建双 Namenode+Yarn 的 Hadoop 集群（上）.md  32.81kb
|   ├──[3080] 第07讲：通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用（上）.md  38.33kb
|   ├──[3081] 第09讲：如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发（上）.md  24.28kb
|   ├──[3082] 第11讲：HDFS 组件运行机制剖析及 HDFS Shell 的使用.md  23.70kb
|   ├──[3083] 第12讲：Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析.md  21.71kb
|   ├──[3084] 第13讲：Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合.md  26.17kb
|   ├──[3085] 第14讲：HBae 与 Hadoop 的整合应用实践.md  43.58kb
|   ├──[3086] 第15讲：Flink Standalone、Flink on Yarn 集群构建与应用场景.md  28.55kb
|   ├──[3087] 第16讲：轻量级日志收集工具 Filebeat 应用案例.md  16.50kb
|   ├──[3088] 第17讲：日志收集、分析过滤工具 Logtah 应用实战.md  43.41kb
|   ├──[3089] 第18讲：Elaticearch 应用架构的实现与调优.md  32.93kb
|   ├──[3090] 第19讲：Kafka 应用场景、集群容量规划、架构设计应用案例.md  21.21kb
|   ├──[3091] 第20讲：日均数据量 30 亿的 Filebeat+Kafka+Mirrormaker 跨机房实时日志传送案例.md  20.69kb
|   ├──[3092] 第21讲：Filebeat+Kafka+Logtah+Elaticearch 构建可视化日志分析系统.md  29.08kb
|   ├──[3093] 第22讲：通过 Ganglia 实现对 HDFS、Yarn、Spark 运行状态监控.md  42.78kb
|   ├──[3094] 第23讲：Namenode、Datanode、Nodemanager 等服务状态监控策略.md  28.60kb
|   ├──[3095] 第24讲：通过 Kafka Eagle 实现对 Kafka 消息队列的监控.md  17.60kb
|   ├──[3096] 第25讲：Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型.md  29.42kb
|   ├──[3097] 第26讲：HDFS 存储权限 ACL 控制策略以及与系统权限整合应用.md  20.01kb
|   ├──[3098] 第27讲：Yarn、HDFS、Kafka 内存调优策略以及性能瓶颈.md  27.52kb
|   ├──[3099] 第28讲：Hadoop 平台常见故障汇总以及操作系统性能调优.md  22.63kb
|   ├──[3100] 第29讲：大数据平台的硬件规划、网络调优、架构设计、节点规划.md  22.04kb
|   ├──[3101] 第30讲：Hadoop 跨集群数据迁移应用实践.md  12.81kb
|   ├──[3163] 第04讲：自动化运维工具 Anible 在部署大数据平台下的应用（下）.md  35.71kb
|   ├──[3208] 第06讲：手动模式构建双 Namenode+Yarn 的 Hadoop 集群（下）.md  40.68kb
|   ├──[3337] 第08讲：通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用（下）.md  18.95kb
|   ├──[3338] 第10讲：如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发（下）.md  30.73kb
|   └──[4445] 结语：大数据运维，大有作为.md  6.53kb
├──第01讲：大话 Hadoop 生态圈.mp4  337.37M
├──第02讲：Hadoop 发行版选型和伪分布式平台的构建.mp4  426.04M
├──第03讲：自动化运维工具 Anible 在部署大数据平台下的应用（上）.mp4  191.25M
├──第04讲：自动化运维工具 Anible 在部署大数据平台下的应用（下）.mp4  275.70M
├──第05讲：手动模式构建双 Namenode+Yarn 的 Hadoop 集群（上）.mp4  278.21M
├──第06讲：手动模式构建双 Namenode+Yarn 的 Hadoop 集群（下）.mp4  200.90M
├──第07讲：通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用（上）.mp4  335.39M
├──第08讲：通过 Ambari 工具自动化构建 Hadoop 大数据平台和外围应用（下）.mp4  227.42M
├──第09讲：如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发（上）.mp4  228.52M
├──第10讲：如何通过 Hivetez 与 Hadoop 的整合快速实现大数据开发（下）.mp4  202.97M
├──第11讲：HDFS 组件运行机制剖析及 HDFS Shell 的使用.mp4  336.93M
├──第12讲：Hadoop 分布式资源管理器 Yarn、MR 运行机制剖析.mp4  185.15M
├──第13讲：Spark Standalone 模式的构建以及 Spark 与 Yarn 的整合.mp4  243.97M
├──第14讲：HBae 与 Hadoop 的整合应用实践.mp4  319.00M
├──第15讲：Flink Standalone、Flink on Yarn 集群构建与应用场景.mp4  218.69M
├──第16讲：轻量级日志收集工具 Filebeat 应用案例.mp4  170.86M
├──第17讲：日志收集、分析过滤工具 Logtah 应用实战.mp4  235.38M
├──第18讲：Elaticearch 应用架构的实现与调优.mp4  263.93M
├──第19讲：Kafka 应用场景、集群容量规划、架构设计应用案例.mp4  243.73M
├──第20讲：日均数据量 30 亿的 Filebeat+Kafka+Mirrormaker 跨机房实时日志传送案例.mp4  211.99M
├──第21讲：Filebeat+Kafka+Logtah+Elaticearch 构建可视化日志分析系统.mp4  169.78M
├──第22讲：通过 Ganglia 实现对 HDFS、Yarn、Spark 运行状态监控.mp4  192.90M
├──第23讲：Namenode、Datanode、Nodemanager 等服务状态监控策略.mp4  260.26M
├──第24讲：通过 Kafka Eagle 实现对 Kafka 消息队列的监控.mp4  129.00M
├──第25讲：Yarn 资源调度 Fair Schedule 与 Capacity Scheduler 配置选型.mp4  167.56M
├──第26讲：HDFS 存储权限 ACL 控制策略以及与系统权限整合应用.mp4  150.62M
├──第27讲：Yarn、HDFS、Kafka 内存调优策略以及性能瓶颈.mp4  214.17M
├──第28讲：Hadoop 平台常见故障汇总以及操作系统性能调优.mp4  166.18M
├──第29讲：大数据平台的硬件规划、网络调优、架构设计、节点规划.mp4  192.53M
├──第30讲：Hadoop 跨集群数据迁移应用实践.mp4  121.51M
├──结语：大数据运维，大有作为.mp4  57.05M
└──开篇词：掌握大数据，把握未来.mp4  131.16M