第二章:Yarn资源协调者
讲解Hadoop2.x新特性资源协调框架,了解资源协调框架的作用和实现方式,并且将Yarn配置到集群中监控任务的执行
共 6 节
乐字节教育2021年大数据课程,具备Java及数据库基础即可学习,为你架好大数据工程师阶梯。【购买说明】此商品为虚拟商品,一经购买,概不退款。
难度: 进阶 时长:790小时 学习人数:45333人 随到随学答疑辅导配套教辅
本章内容首先捋顺MapReduce计算的流程,先掌握理论后实践。从数据最开始跟踪整个数据流,顺藤摸瓜解决所有难题
共 10 节
讲解Hadoop2.x新特性资源协调框架,了解资源协调框架的作用和实现方式,并且将Yarn配置到集群中监控任务的执行
共 6 节
本章比较重要也比较难,因为开始对源码进行分析,这需要大家提前掌握好前面的理论知识,前面所有的流程都会在源码中一一呈现,为将来提升自己与面试加分
共 11 节
Hadoop的重要性在大数据的学习中是无用质疑的,我们花费一章的时间重新复习Hadoop的技术架构,发现第一次学习中遗忘的知识点,从新的角度发掘大数据的魅力,并且重新用新案例验证我们的学习成果
共 19 节
首先简历Hadoop的大数据思维,但是好多同学的基础偏弱,补充大数据学员常识性知识10大排序算法,了解算法的复杂度,为后续设计大数据算法也提供算法效率判定提供理论基础
共 10 节
本章内容为大数据学习底层Block组成和架构,如何从大数据的思维去存放数据,只有数据存放的好才能进行高效的计算
共 13 节
本章主要内容为大数据存储策略,如果用更高效的速度去读取数据,如何使用更安全的方式去读取数据都是大数据开发人员必须要要掌握的技能
共 12 节
本章讲解大数据2.x和3.x的技术升级,突出的就是高可用与联邦机制,通过这个地方的学习也是对数据一致性学习的补充
共 22 节
本章主要讲述数据一致性的概念,为后续的Zookeeper提供理论的基础,而且可以推广到后续的集群环境
共 11 节
搭建Zookeeper环境,进行常见命令和架构的学习,主要内容是命令和监听机制,为以后的Hadoop环境搭建提供支撑
共 9 节
本章内容是对Linux知识的扩充学习,基于Linux之上搭建Nginx环境,了解负载均衡和反向代理的意义,而且可以为以后的项目中也会用到Nginx做日志收集服务器
共 14 节
本章主要介绍企业级项目的架构以及需求分析,卡口信息。状态分析
共 8 节
本章主要介绍kylin作为一款olap引擎如何应用,以及数仓相应概念的复习与拓展。kylin安装、系统架构与环境搭建
共 6 节
本章主要讲述Spark作为第三代计算引擎的介绍,以及相应技术的纵向对比,掌握基本的RDD算子开发,最终掌握WordCount的编写。
共 13 节
本章主要讲述Scala编程语言的特点,与Java的差异,在掌握JAVA的基础下,进行对比学习,学完本章内容可以进行简单的程序逻辑开发。
共 37 节
ClickHouse系统架构、环境搭建、数据类型
共 9 节
Storm
共 18 节
Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。它已经应用到各个公司的平台
共 6 节
正向索引与倒排索引
共 5 节
本章开始讲解Redis的环境安装,运行环境和常见命令,在单机环境下体验Redis的高性能与缓存特性
共 5 节
系统架构和数据处理分析
共 5 节
本章讲解的Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。
共 2 节
本章讲解的Azkaban是在LinkedIn(领英)上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。
共 6 节
本章讲解的Datax主要功能是数据迁移,DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。
共 7 节
Ganglia
共 2 节
讲解Flume新版本的相关信息,比如Flume如何实现高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统的?Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力
共 13 节
DataWarehouse
共 25 节
Apache Phoenix
共 7 节
本章主要讲解: 计算机系统结构是计算机的机器语言程序员或编译程序编写者所看到的外特性。这节课从基础开始讲起让大家对后期程序运行过程有一个较底层的了解。
共 11 节
学习大数据中第一种分布式非关系型数据库,体验亿级数据的秒查询,搭建HBase环境,讲解Hbase架构,练习基础型的命令,以实践掌握知识
共 10 节
比对MapReduce和Hive优缺点,整理Hive的系统架构,搭建Hive运行环境,为后续的学习准备环境
共 6 节
Flink编程模型
共 20 节
本章主要介绍了离线实时两部分业务代码的开发,结合具体的数据在rdd,sql,stream三种开发模式中选择最佳开发模型进行选择。
共 19 节
本章主要介绍kylin的使用,从curl到webUI,理解kylin如何通过接口进行数据交互访问。在WebUI上体会kylin亚秒级查询的魅力。最终根据企业实际问题进行cube优化,
共 12 节
Spark集群架构、多文件转换算子
共 14 节
本章主要讲述Scala重要的函数特性以及函数的使用和编写。
共 9 节
ES软件简介与集群搭建
共 4 节
电商日志分析项目的架构搭建,数据流转、表分类以及按天划分,在展示项目。
共 9 节
数据迁移Sqoop
共 7 节
本章主要讲解: 本章开始讲解Linux的系统分支,安装Linux的产品Centos,为后续的学习准备好环境。并且结合阿里云腾讯云等系统讲解虚拟化服务,将Linux环境安装运行到VM上。
共 11 节
本章开始Hbase技巧性的学习,Hbase数据访问方式
共 7 节
DDL语句
共 17 节
机器学习之数据转换、聚类
共 6 节
Flink架构模型和并行度
共 14 节
本章主要介绍Spark核心概念Stage以及相应shuffle产生的原因。通过学习与stage关联性强的算子来加深这个阶段的理解。
共 12 节
MergeTree、MergeTreeFamily
共 19 节
共 3 节
ES数据存储的结构、RESTFUL风格命令、ES的Mapping
共 4 节
Redis持久化
共 4 节
MapReduce计算活跃用户
共 11 节
HBase系统架构
共 10 节
本章主要讲解: 本章主要讲述Linux的命令使用方式,告诉同学们命令大概的执行过程和命令的书写格式。
共 4 节
Flink窗口机制
共 18 节
本章主要讲解案例编写巩固之前的算子基础再通过代码打包到集群的方式来深入理解任务提交参数的选择以及webUi上能给我们提供帮助的内容。
共 6 节
生产者和消费者数据安全
共 12 节
Redis主从与哨兵、一致性Hash原理与数据倾斜
共 8 节
ETL/Analysis代码梳理
共 6 节
本章主要讲解: 本章课开始讲解Linux的文件系统,也是Linux最主要的部分,文件的创建删除剪切复制日常操作都在里面体现。
共 18 节
Flink状态
共 13 节
本章主要讲解Spark分布式计算引擎在分布式计算中对于共享变量使用的讲解,核心的shuffle及其种类,以及spark基于内存计算的内存详解。
共 7 节
Kafka常见面试题、Kafka与Flume、KafkaEagle
共 4 节
Redis集群与练习
共 5 节
新增用户业务分析和代码实现
共 2 节
HBase设计案例
共 7 节
本章主要讲解: 本章主要讲解Linux的网络,多个电脑通过网络系统进行数据的传递,最主要的还是三种加密算法和主机间的相互免秘钥的访问。
共 11 节
共 9 节
本章主要讲解Spark核心源码,从资源申请到任务调度。在本章的最后对RDD核心部分做总结。
共 5 节
本章主要讲解: 本章主要讲述用户组权限,什么用户可以操作什么类型的文件,应对多用户模式下权限的执行情况。
共 8 节
第七章:CEP和反压机制
共 15 节
本章主要讲解SparkSql及其应用,在掌握RDD的基础上,通过dataFrame学习更加方便的离线计算代码编写。
共 16 节
本章主要讲解: 本章主要讲述Linux环境下软件的安装方式,并以Java和Tomcat和Mysql为主进行案例练习。
共 6 节
本章主要讲解SparkStreaming准实时计算引擎,理解窗口以及state这些核心的流式计算的相关概念,并且最后结合kafka,贴近企业实际开发需要,解决实际出现的计算问题。
共 26 节
三剑客
共 4 节
本章主要讲解: 本章主要讲述Linux常见的脚本执行方式,相当于Java的基础语法,由浅入深逐渐掌握Liunx语法。
共 3 节
本章主要讲解: 本章主要在上一章的基础上进行扩容,对执行逻辑语句、函数和计算机运行原理进行进阶型学习,以后工作中即使遇到在复杂的问题也能轻松解决。
共 7 节
01Linux
02Nginx
03Zookeeper
04Hadoop-HDFS
05Hadoop-MapReduce
06Hive
07HBase
08Flume
09DataX
10Azkaban
11Tez
12电商日志分析
13Redis
14Kafka
15Scala
16Spark
17Spark优化
18车流量分析
19Kylin
20Flink
21机器学习
优化了课程体系和讲解内容,新增了用户权限管理、网络管理等模块,添加了Linux的脚本编程
Linux体系结构、文件系统、权限管理、Linux的系统分支、Linux的命令使用方式、Linux的文件系统、软件安装、权限管理、shell编程入门和提升
每个程序员岗位,都要求掌握Linux。在步入大数据殿堂之前,先带领大家快速掌握大数据的必备技能,以便更好地学习Hadoop, HDFS, MapReduce, Hive, HBase, Spark,Flink等众多课程。
冯诺依曼体系硬件组成五大模块、Linux系统版本选择、Linux命令学习策略、Linux文件系统、Linux网络命令、Linux用户组权限、Linux软件安装、Linux脚本编程、Linux脚本编程进阶
详细讲解Nginx作为反向代理进行负载均衡的实现,基于具体场景为后续大数据项目数据采集提供支持。
做静态资源服务器,做反向代理服务器,做负载均衡服务器各方面的理论和应用讲解
作为Web服务器,Nginx处理静态文件、索引文件,自动索引的效率非常高,作为代理服务器,Nginx可以实现无缓存的反向代理加速,提高网站运行速度
在性能方面,最大可以支持对5万个并发连接数的响应.在稳定性方面,Nginx采取了分阶段资源分配技术,在高可用性方面,Nginx支持热部署,启动速度特别迅速
服务的管理端口统一,允许延迟事务日志刷新,ZooKeeper服务器中的审核日志记录
主要讲解了Paxos算法原理、ZooKeeper具体的应用场景、ZNode数据结构、事件监听原理刨铣、广播模式刨铣、集群搭建实战、分布式协调实战等知识
基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式
数据一致性的概念,搭建Zookeeper环境,熟悉命令和监听机制
Hadoop3.x技术引用、分布式集群搭建、底层源码讲解
Hadoop的大数据思维,10大排序算法,底层Block组成和架构,大数据存储策略,Hadoop的高可用和联邦机制
在企业中搭建集群环境,深入了解hdfs底层原理,例如数据存储,数据安全,数据迁移等常用功能。为以后的大数据学习提供基础
HDFS分布式文件存储架构、HDFS格式化NameNode两次的解救方案、NameNode基于内存存储数据安全策略、ZKFC节点功能介绍与脑裂预防策略
使用的Hadoop3.x框架,从源码出发打通所有mapreduce流程
捋顺MapReduce计算的流程、Hadoop2.x新特性资源协调框架、源码进行分析、用新案例验证MapReduce计算能力
MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce。它采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任务并行处理
MapReduce思想之分12阶段介绍、MapReduce思想之流程分析、数据流转监控,MapReduce源码分析
增加大量项目案例,引用电影top250数据分析
整理Hive的系统架构,搭建Hive运行环境、学习Hql语句,学习UDAF,比如开窗函数
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Hive与传统数据库的对比、Hive环境搭建与三种连接方式、Hive数据类型与创建表、Hive数据分区思想、Hive排序开窗函数、Hive的企业级优化
引用最稳定的Hbase版本,增加业务分析学习
分布式非关系型数据库、Hbase技巧性的学习,如何设计表结构,如何基于Hbase的四维寻址设计RowKey、Habse性能的优化
HBase作为面向列的数据库运行在HDFS之上,HDFS缺乏随即读写操作,HBase正是为此而出现。HBase以以键值对的形式存储。它的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。
HBase架构模型、HBase读写流程、HBase操作命令、Hbase单表多表数据设计、HBase常用优化
增加热门技术,增加技术课时比重
讲解Flume新版本的相关信息,比如Flume如何实现高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力
Flume组件详解、Flume安装、Flume特性,有点,执行流程,推送和拉取过程、案例
自定义的编程优化,增加热门数据库
本章讲解的Datax主要功能是数据迁移,DataX本身作为数据同步框架
将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。
DataX安装、DataX—web安装、mysql-HDFS数据迁移、ORACLE-Hive的数据的传输
增加热门技术,增加技术课时比重
Azkaban是在LinkedIn(领英)上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。
多个任务单元之间往往有着强依赖关系,上游任务执行并成功,下游任务才可以执行
调度工具对比、Azkaban架构、Azkaban三种部署模式、集群搭建 、实战案例
增加热门技术、增加技术课时比重
Tez是Apache最新的支持DAG作业的开源计算框架,它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。
有很多用例需要近乎实时的查询处理性能。还有一些工作则不太适合MapReduce,例如机器学习。Tez的目的就是帮助Hadoop处理这些用例场景。
Tez概述、Tez编译、Tez 安装、Hive on Tez 、Tez参数、Tez优化
编程优化,增加热门技术,增加技术课时比重、增加热门业务
项目以某电商网站真实的业务数据架构为基础,将数据从收集到使用通过前端应用程序,后端程序,数据分析,平台部署等多方位的闭环的业务实现。形成了一套符合教学体系的电商日志分析项目,主要通过离线技术来实现项目。
用户基本信息分析、浏览器信息分析、地域信息分析、用户浏览深度分析、外链信息分析、订单信息分析、事件分析
项目系统架构、项目数据流程、PC端JS和SDK事件、项目数据模型、NginxLog文件服务、Flume-ng、Sqoop 、Hive和HBase的整合、Hive on Tez 、Oozie搭建、DataX 3安装、Azkaban 3 集群搭建 、数据采集、数据消费、Mysql表结构设计、Transformer代码编写、Transformer打包测试、Hive数仓代码代码编写、Hive数仓代码验证、母婴消费洞察、任务调度、服务器调优、代码调优
增加热门技术,精讲技术
讲解Redis的环境安装,运行环境和常见命令,在单机环境下体验Redis的高性能与缓存特性
它可以用作数据库、缓存和消息中间件
缓存Cache、Redis的介绍、Redis的命令、Redis的事务机制、数据的持久化、主从复制集群、Redis的哨兵、Redis的高可用、一致性Hash、搭建集群环境
编程优化,增加热门技术、精讲技术
主要讲述大数据中的消息中间件如何工作和如何搭建环境,另外afka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。它已经应用到各个公司的平台
以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能、高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条消息的传输、同时支持离线数据处理和实时数据处理
异步通信原理、消息系统原理、Kafka简介、Kafka系统架构、Kafka环境搭建、Kafka数据检索机制、数据的安全性、JavaAPI、Kafka优化、Flume+Kafka集成
Scala语言编程优化,增加scala核心功能应用,提升spark应用课程内容占比。
面向对象 函数式编程 集合操作 模式匹配 特征特质
在掌握java语言的基础下快速掌握scala开发,为后续spark应用的开发做准备。
掌握Scala程序基础数据类型 掌握开发中常用集合、字符串等操作 掌握scala函数式编程 掌握隐式转换操作
RDD篇编程进阶多样化,SQL篇自定义函数实操,SparkStreaming提供7*24不间断运行思路及考量
Spark的入门安装部署、Spark Core部分的基本API使用熟练、编程进阶、自定义累加器和广播变量的使用和原理掌握、SparkSQL的编程掌握和如何自定义函数、SparkSreaming的应用解析、Spark的内核源码详解(包括部署、启动、任务划分调度、内存管理等)
累加器广播变量的实操、不同数据源不同的处理思路,背压机制
sparkRDD编程,SQL中dataFrame的具体应用对应后期机器学习,sparkStreaming准实时计算初识。
企业级调优版本升级
资源调优 并行度调优 代码调优 数据本地化 内存调优 数据倾斜问题解决
提供企业级spark任务调优的通用解决方案。
Spark的企业级调优策略在实际的任务提交等操作下进行实操调整。
多语言spark开发
卡扣流量分析模块 随机抽取车辆信息等topN业务
topN常见业务场景处理 自定义累加器实际应用
针对项目熟悉数据流程,代码操作流程,开发流程。强化spark应用程序的代码编写。
Kylin核心思想加深对数仓的理解
Kylin的安装部署 对接数据源构建模型
实际工作中模型的构建以及对于模型构建的不同层级剪枝优化。
增量cube构建,cube的cuboid剪枝优化。
flink table api和sql重构新功能以及自身架构变化详解
流批api 集群架构 window窗口机制 时间类型 水印 各类连接器 容错机制 CEP复杂事件编程
熟练使用Flink框架分析计算各种指标
熟练掌握Flink的基本架构以及流式数据处理思想,熟练使用Flink多种Soure、Sink处理数据,熟练使用基本API、Window API 、状态函数、Flink SQL、Flink CEP复杂事件处理等
SparkMlib随着spark版本迁移所带来的api的变化。
线性回归 贝叶斯分类 Kmeans聚类 关联规则 决策树 随机森林 混淆矩阵 ROC&AOC
运行现有机器学习算法,对现有数据训练处模型,进行相应结果的预测(分类等)
掌握常用的回归、分类、聚类算法的具体原理。理解算法的使用意义。