大数据开发架构师-乐字节-IT在线教育培训机构-一样的教育，不一样的品质

第一阶段：Linux操作系统

第一章：计算机体系结构

本章主要讲解：计算机系统结构是计算机的机器语言程序员或编译程序编写者所看到的外特性。这节课从基础开始讲起让大家对后期程序运行过程有一个较底层的了解。

课程安排：

Linux01-常用软件介绍
Linux02-学习小组与学习方法
Linux03-大数据学习路线
Linux04-计算机体系结构之冯诺依曼架构
Linux05-计算机体系结构之冯诺依曼硬件分类
Linux06-计算机体系结构之机械硬盘与固态硬盘工作原理
Linux07-计算机体系结构之计算机网络组成
Linux08-计算机体系结构之DNS域名服务
Linux09-计算机体系结构之计算机端口
Linux10-计算机体系结构之虚拟机四种网络连接方式
Linux11-计算机体系结构之计算机软件分类

第二章：Linux环境搭建

本章主要讲解：本章开始讲解Linux的系统分支，安装Linux的产品Centos,为后续的学习准备好环境。并且结合阿里云腾讯云等系统讲解虚拟化服务，将Linux环境安装运行到VM上。

课程安排：

Linux12-环境搭建之Linux操作系统由来
Linux13-环境搭建之Linux官网与下载
Linux14-环境搭建之虚拟化技术
Linux15-环境搭建之安装VMWare151
Linux16-环境搭建之创建Linux虚拟机
Linux17-环境搭建之安装Linux操作系统
Linux18-环境搭建之配置Linux虚拟机网络
Linux19-环境搭建之配置Linux防火墙
Linux20-环境搭建之配置Linux软件安装限制
Linux21-环境搭建之Linux系统快照与克隆
Linux22-环境搭建之Linux系统连接工具XShell

第三章：Liunx常见命令

本章主要讲解：本章主要讲述Linux的命令使用方式，告诉同学们命令大概的执行过程和命令的书写格式。

课程安排：

Linux23-基础命令之命令学习方法
Linux24-基础命令之常用命令
Linux25-基础命令之特殊符号
Linux26-基础命令之Linux系统概述

第四章：Linux文件系统

本章主要讲解：本章课开始讲解Linux的文件系统，也是Linux最主要的部分，文件的创建删除剪切复制日常操作都在里面体现。

课程安排：

Linux27-文件系统之Linux文件系统概述
Linux28-文件系统之二级文件目录介绍
Linux29-文件系统之文件夹操作mkdir rmdir
Linux30-文件系统之文件拷贝cp
Linux31-文件系统之文件剪切与重命名mv
Linux32-文件系统之文件删除rm
Linux33-文件系统之文件状态stat
Linux34-文件系统之文件创建touch
Linux35-文件系统之文件软硬链接ln
Linux36-文件系统之查看文件内容 cat more less head tail
Linux37-文件系统之查找文件find
Linux38-文件系统之vi打开文件
Linux39-文件系统之vi三种模式切换
Linux40-文件系统之vi编辑模式快捷键
Linux41-文件系统之vi末行模式命令
Linux42-文件系统之不同系统文件拷贝
Linux43-文件系统之文件压缩与解压缩
Linux44-文件系统之SWAP区工作原理

第五章：Linux网络系统

本章主要讲解：本章主要讲解Linux的网络，多个电脑通过网络系统进行数据的传递，最主要的还是三种加密算法和主机间的相互免秘钥的访问。

课程安排：

Linux45-网络系统之配置域名与主机名映射
Linux46-网络系统之常见网络命令 ifconfig ping telnet
Linux47-网络系统之防火墙
Linux48-网络系统之不可逆加密算法
Linux49-网络系统之对称加密算法
Linux50-网络系统之非对称加密算法
Linux51-网络系统之主机间相互免秘钥三步实现
Linux52-网络系统之免秘钥验证流程
Linux53-网络系统之known_hosts对免秘钥影响
Linux54-时间系统之网络时间同步机制
Linux55-时间系统之本地时间同步机制

第六章：Linux用户组权限

本章主要讲解：本章主要讲述用户组权限，什么用户可以操作什么类型的文件，应对多用户模式下权限的执行情况。

课程安排：

Linux56-用户组权限之用户
Linux57-用户组权限之组
Linux58-用户组权限之权限
Linux59-用户组权限之权限赋予
Linux60-系统进程之数据重定向
Linux61-系统进程之管道
Linux62-系统进程之父子进程关系分析
Linux63-系统进程之后台进程与销毁进程

第七章：Linux软件体系

本章主要讲解：本章主要讲述Linux环境下软件的安装方式，并以Java和Tomcat和Mysql为主进行案例练习。

课程安排：

Linux64-软件系统之环境变量作用
Linux65-软件系统之Linux软件安装方式
Linux66-软件系统之RMP方式安装jdk8
Linux67-软件系统之解压缩方式安装Tomcat
Linux68-软件系统之更换YUM源
Linux69-软件系统之安装Mysql数据库

第八章：Linux三剑客

三剑客

课程安排：

Linux70-三剑客之普通剑客 cut sort wc
Linux71-三剑客之查询grep
Linux72-三剑客之增删改查sed
Linux73-三剑客之编程语言awk

第九章：Linux脚本编程（shell）

本章主要讲解：本章主要讲述Linux常见的脚本执行方式，相当于Java的基础语法，由浅入深逐渐掌握Liunx语法。

课程安排：

Shell01-Kernel与Shell
Shell02-Shell的三种执行方式与export关键字
Shell03-Shell语言的基础入门

第十章：Linux脚本编程高级进阶

本章主要讲解：本章主要在上一章的基础上进行扩容，对执行逻辑语句、函数和计算机运行原理进行进阶型学习，以后工作中即使遇到在复杂的问题也能轻松解决。

课程安排：

Shell04-Shell语言的高级进阶
Shell05-Linux系统启动流程
Shell06-Linux软件脚本开机自启动
Shell07-Linux软件脚本定时执行
Shell08-Linux初始化脚本解释
Shell09-Linux执行脚本初始化过程
Shell10-Linux三台服务器相互免秘钥

第二阶段：Nginx服务器

第一章：Nginx负载均衡

本章内容是对Linux知识的扩充学习，基于Linux之上搭建Nginx环境，了解负载均衡和反向代理的意义，而且可以为以后的项目中也会用到Nginx做日志收集服务器

课程安排：

Nginx01-软件介绍
Nginx02-Nginx负载均衡
Nginx03-Nginx反向代理
Nginx04-Nginx的应用场景
Nginx05-Nginx源码安装
Nginx06-Nginx文件目录与命令介绍
Nginx07-Nginx负载均衡环境搭建
Nginx08-Nginx负载均衡策略
Nginx09-Nginx静态资源服务器
Nginx10-Linux搭建多Tomcat服务器
Nginx11-Nginx虚拟主机服务
Nginx12-Nginx搭建基于IP的虚拟主机
Nginx13-Nginx搭建基于端口的虚拟主机
Nginx14-Nginx实现Session一致性服务

第三阶段：任务调度Zookeeper

第一章：数据一致性理论

本章主要讲述数据一致性的概念，为后续的Zookeeper提供理论的基础，而且可以推广到后续的集群环境

课程安排：

Zookeeper01-文件存储的困境
Zookeeper02-磁盘阵列raid0-6
Zookeeper03-CAP原则
Zookeeper04-数据一致性
Zookeeper05-最终一致性的特例
Zookeeper06-paxos算法理解上
Zookeeper07-paxos算法理解中
Zookeeper08-paxos算法理解下
Zookeeper09-Raft算法理解
Zookeeper10-Raft数据流程
Zookeeper11-ZAB协议介绍

第二章：Zookeeper实战

搭建Zookeeper环境，进行常见命令和架构的学习，主要内容是命令和监听机制，为以后的Hadoop环境搭建提供支撑

课程安排：

Zookeeper12-Zookeeper介绍
Zookeeper13-Zookeeper环境搭建
Zookeeper14-Zookeeper客户端命令
Zookeeper15-Znode数据项介绍
Zookeeper16-Zookeeper节点分类
Zookeeper17-Zookeeper监听机制
Zookeeper18-Zookeeper权限控制
Zookeeper19-Zookeeper四字命令
Zookeeper20-Zookeeper的JavaAPI

第四阶段：Hadoop生态之HDFS存储

第一章：算法与大数据思维

首先简历Hadoop的大数据思维，但是好多同学的基础偏弱，补充大数据学员常识性知识10大排序算法，了解算法的复杂度，为后续设计大数据算法也提供算法效率判定提供理论基础

课程安排：

HDFS01-算法复杂度
HDFS02-百鸡百钱与雉兔同笼
HDFS03-十大排序算法之冒泡插入选择希尔
HDFS04-十大排序算法之快速
HDFS05-十大排序算法之归并
HDFS06-十大排序算法之计数桶
HDFS07-十大排序算法之基数
HDFS08-大数据思维之查重与排序
HDFS09-大数据思维之查重思路
HDFS10-大数据思维之排序思路

第二章：HDFS架构模型

本章内容为大数据学习底层Block组成和架构，如何从大数据的思维去存放数据，只有数据存放的好才能进行高效的计算

课程安排：

HDFS11-Hadoop生态圈介绍
HDFS12-Hadoop官网介绍
HDFS13-分布式系统架构之文件存储切分
HDFS14-分布式系统架构之文件Block
HDFS15-分布式系统架构之数据存储的效率与安全
HDFS16-分布式系统架构之文件与块的管理
HDFS17-分布式文件系统小结
HDFS18-Hadoop完全分布式系统搭建
HDFS19-Hadoop完全分布式系统搭建常见错误
HDFS20-HDFS之文件的数据类型
HDFS21-HDFS之服务器节点的分类
HDFS22-HDFS之NameNode节点功能
HDFS23-HDFS之DataNode节点功能

第三章：HDFS数据读写流程

本章主要内容为大数据存储策略，如果用更高效的速度去读取数据，如何使用更安全的方式去读取数据都是大数据开发人员必须要要掌握的技能

课程安排：

HDFS24-HDFS之NameNode工作方式与日志存储
HDFS25-HDFS之SecondaryDataNode节点功能
HDFS26-HDFS之fsimage与edits合并流程
HDFS27-HDFS之借助fsimage与edits恢复数据
HDFS28-HDFS之安全模式
HDFS29-HDFS之权限管理
HDFS30-HDFS之机架感知策略
HDFS31-HDFS之写入数据的宏观流程
HDFS32-HDFS之写入数据的宏观流程补充
HDFS33-HDFS之写入数据的微观流程
HDFS34-HDFS之写入数据的微观流程补充
HDFS35-HDFS之读取数据的流程

第四章：HDFS的高可用与联邦机制

本章讲解大数据2.x和3.x的技术升级，突出的就是高可用与联邦机制，通过这个地方的学习也是对数据一致性学习的补充

课程安排：

HDFS36-HDFS之1.x的困境
HDFS37-HDFS之2.x的架构和节点介绍
HDFS38-HDFS之2.x主备NameNode节点介绍
HDFS39-HDFS之2.xDataNode节点介绍
HDFS40-HDFS之2.xJournalNode节点介绍
HDFS41-HDFS之2.xFailover Controller节点介绍
HDFS42-HDFS之2.xZookeeper节点介绍
HDFS43-HDFS之2.xQJM工作流程
HDFS44-HDFS之2.xZKFC工作流程
HDFS45-HDFS之2.x防止NameNode脑裂
HDFS46-HDFS之2.x防止多NameNode发送指令
HDFS47-HDFS之2.xFederation机制
HDFS48-HDFS之2.xFederation机制补充
HDFS49-Hadoop高可用分布式系统搭建
HDFS50-使用JavaAPI访问Hadoop集群
HDFS51-使用IDEA插件访问Hadoop集群
HDFS52-Hadoop3.x新特性之Erasure Encoding
HDFS53-Hadoop3.x新特性之多NameNode节点
HDFS54-Hadoop3.x新特性之服务器端口
HDFS55-Hadoop3.x新特性之DataNode数据自平衡
HDFS56-Hadoop3.x新特性之蚊子腿
HDFS57-扑克牌问题

第五阶段：MapReduce计算

第一章：MapReduce思想

本章内容首先捋顺MapReduce计算的流程，先掌握理论后实践。从数据最开始跟踪整个数据流，顺藤摸瓜解决所有难题

课程安排：

MapReduce01-入门介绍
MapReduce02-计算流程推导
MapReduce03-计算流程图解(上)
MapReduce04-计算流程图解(下)
MapReduce05-计算流程整体回顾
MapReduce06-计算流程Split-Map
MapReduce07-计算流程KvBuffer-Partitioner-Sort-Spill-Merge
MapReduce08-计算流程Fetch-Merge-Reduce-Output
MapReduce09-哈利波特WordCount
MapReduce10-MR流程回顾

第二章：Yarn资源协调者

讲解Hadoop2.x新特性资源协调框架，了解资源协调框架的作用和实现方式，并且将Yarn配置到集群中监控任务的执行

课程安排：

MapReduce11-MR1.x系统架构
MapReduce12-MR2.x的Yarn的作用
MapReduce13-MR2.x的Yarn的架构
MapReduce14-MR2.x的Yarn的节点的作用
MapReduce15-Hadoop搭建Yarn集群
MapReduce16-第一个MapReduce的Job实现

第三章：MapReduce源码分析

本章比较重要也比较难，因为开始对源码进行分析，这需要大家提前掌握好前面的理论知识，前面所有的流程都会在源码中一一呈现，为将来提升自己与面试加分

课程安排：

MapReduce17-Map和Reduce泛型参数
MapReduce18-WordCount实现与Jar包执行
MapReduce19-射雕英雄传字词统计与Jar包执行
MapReduce20-源码分析之前置讲解
MapReduce21-源码分析之Split切片相关
MapReduce22-源码分析之Map数据读取相关
MapReduce23-源码分析之KvBuffer-Partitioner-Sort-Spill-Merge
MapReduce24-源码分析之Fetch-Merge-Reduce
MapReduce25-源码分析之Reduce
MapReduce26-源码分析之output
MapReduce27-源码分析之整体回顾

第四章：MapReduce案例

Hadoop的重要性在大数据的学习中是无用质疑的，我们花费一章的时间重新复习Hadoop的技术架构，发现第一次学习中遗忘的知识点，从新的角度发掘大数据的魅力，并且重新用新案例验证我们的学习成果

课程安排：

MapReduce28-案例之天气处理Text
MapReduce29-案例之天气处理WritableComparable
MapReduce30-案例之当前Reduce数据会被下一个Reduce跑完
MapReduce31-案例之好友推荐理论推导
MapReduce32-案例之好友推荐代码实现
MapReduce33-案例之好友推荐将结果输出到Mysql
MapReduce34-案例之PageRank理论
MapReduce35-案例之PageRank推导
MapReduce36-案例之PageRank算法优化
MapReduce37-案例之PageRank数据模拟
MapReduce38-案例之PageRank代码实现
MapReduce39-案例之TFIDF算法介绍
MapReduce40-案例之TFIDF理论推导
MapReduce41-案例之TFIDF数据模拟
MapReduce42-案例之TFIDF计算TF
MapReduce43-案例之TFIDF计算IDF
MapReduce44-案例之TFIDF计算TFIDF上
MapReduce45-案例之TFIDF计算TFIDF下
MapReduce46-课后练习

第六阶段：ETL数仓之Hive

第一章：Hive介绍与环境搭建

比对MapReduce和Hive优缺点，整理Hive的系统架构，搭建Hive运行环境，为后续的学习准备环境

课程安排：

Hive01-技术介绍
Hive02-技术优缺点
Hive03-系统架构
Hive04-环境安装
Hive05-客户端连接的三种方式
Hive06-元数据的表结构

第二章：DDL语句

DDL语句

课程安排：

Hive07-DDL语句之数据库创建删除修改
Hive08-DDL语句之数据类型
Hive09-DDL语句之创建表的语法
Hive10-DDL语句之创建简单结构的表
Hive11-DDL语句之创建复杂结构的表
Hive12-DDL语句之表的修改和删除
Hive13-DDL语句之内部表与外部表
Hive14-DDL语句之向表中载入数据
Hive15-DDL语句之将表中的数据导出
Hive16-DDL语句之创建静态单分区的表并载入数据
Hive17-DDL语句之创建静态多分区的表并载入数据
Hive18-DDL语句之创建动态多分区的表并载入数据
Hive19-DDL语句之分桶表概念
Hive20-DDL语句之创建分桶表并导入数据
Hive21-DDL语句之数据抽样算法-数据块抽样
Hive22-DDL语句之数据抽样算法-桶表抽样
Hive23-DDL语句之数据抽样算法-随机抽样

第三章：DQL语句

DQL语句

课程安排：

Hive24-DQL语句之内置函数和分类
Hive25-DQL语句之UDTF函数
Hive26-DQL语句之UDAF函数
Hive27-DQL语句之开窗函数
Hive28-DQL语句之全局排序函数
Hive29-DQL语句之局部排序函数
Hive30-DQL语句之自定义UDF函数
Hive31-DQL语句之自定义UDAF函数
Hive32-DQL语句之自定义UDTF函数

第四章：案例和Hive优化

案例和Hive优化

课程安排：

Hive33-案例之WordCount
Hive34-案例之好友推荐
Hive35-Hive文件存储格式
Hive36-Hive文件行式存储格式Text Sequence Block
Hive37-Hive文件列式存储格式RCFile ORC
Hive38-Hive文件存储案例1
Hive39-Hive文件存储案例2
Hive40-Hive同比环比练习
Hive41-Hive优化
Hive42-Hive优化
Hive43-Hive可视化工具DataGrid
Hive44-Hive配置参数
Hive45-Hive数据倾斜

第七阶段：Hbase分布式数据库

第一章：Hbase架构模型

学习大数据中第一种分布式非关系型数据库，体验亿级数据的秒查询，搭建HBase环境，讲解Hbase架构,练习基础型的命令，以实践掌握知识

课程安排：

DBeaver01-安装软件并配置MySql数据库
DBeaver02-配置Hive数据库
HBase01-概念介绍
HBase02-简介与优缺点
HBase03-四维数据存储模型
HBase04-数据存储结构划分
HBase05-数据存储结构-namespace table rowkey
HBase06-数据存储结构-column family qualifer
HBase07-数据存储结构-version cell
HBase08-分布式环境搭建

第二章：Hbase数据访问方式

本章开始Hbase技巧性的学习，Hbase数据访问方式

课程安排：

HBase09-数据访问方式之HBase shell DQL
HBase10-数据访问方式之HBase shell DML
HBase11-数据访问方式之HBase shell DDL
HBase12-数据访问方式之HBase shell Region
HBase13-数据访问方式之Java DDL
HBase14-数据访问方式之Java DML
HBase15-数据访问方式之Java DQL和案例

第三章：HBase系统架构

HBase系统架构

课程安排：

HBase16-HBase系统架构Client
HBase17-HBase系统架构HMaster
HBase18-HBase系统架构HRegionServer
HBase19-HBase系统架构HRegion
HBase20-HBase系统架构Store
HBase21-HBase系统架构HLog
HBase22-HBase系统架构Zookeeper
HBase23-HBase系统架构memstore和storefile
HBase24-HBase0.96前数据定位方式meta与root
HBase25-HBase0.96后数据定位方式meta

第四章：HBase读取写入数据

HBase读取写入数据

课程安排：

HBase26-HBase读取数据流程
HBase27-HBase写入数据流程
HBase28-HBase写入数据之刷写数据的时机
HBase29-HBase写入数据之刷写数据的策略
HBase30-HBase写入数据之刷写数据的流程
HBase31-HBase写入数据之合并数据的方式
HBase32-HBase写入数据之合并数据的时机
HBase33-HBase写入数据之合并数据的策略
HBase34-HBase写入数据之切分数据的时机
HBase35-HBase写入数据之切分数据的流程

第五章：HBase设计案例

HBase设计案例

课程安排：

HBase36-RowKey设计原则
HBase37-列族设计原则
HBase38-HBase设计案例之单表
HBase39-HBase设计案例之京东订单
HBase40-HBase设计案例之多表
HBase41-HBase设计案例之多表练习
HBase42-HBase设计案例之微博关注与被关注数

第六章：HBase的优化策略

HBase的各种优化策略与整合。

课程安排：

HBase43-HBase表的优化策略
HBase44-HBase写入的优化策略
HBase45-HBase读取的优化策略
HBase46-HBase缓存的优化策略
HBase47-HBase与MapReduce相互读写之tohbase
HBase48-HBase与MapReduce相互读写之tohdfs
HBase49-HBase与Hive整合
HBase50-protobuf数据压缩工具原理
HBase51-protobuf安装与应用

第八阶段：Apache Phoenix

第一章：Apache Phoenix

Apache Phoenix

课程安排：

Phoenix01-简单介绍
Phoenix02-特性介绍
Phoenix03-下载安装
Phoenix04-DBeaver连接Phoenix
Phoenix05-系统架构
Phoenix06-数据模型
Phoenix07-常用命令

第九阶段：数据仓库DataWarehouse

第一章：DataWarehouse

DataWarehouse

课程安排：

数据仓库01-OLAP与OLTP介绍
数据仓库02-OLAP与OLTP特点
数据仓库03-OLAP的常见操作
数据仓库04-数据建模的定义
数据仓库05-关系建模
数据仓库06-维度建模的定义
数据仓库07-维度建模的分类
数据仓库08-维度建模的维度表设计原则
数据仓库09-维度建模的事实表设计原则
数据仓库10-维度建模分类之星型雪花星座
数据仓库11-数据仓库特点之面向主题
数据仓库12-数据仓库特点之集成性
数据仓库13-数据仓库特点之不可更新与时变性
数据仓库14-数据仓库分层的原因与好处
数据仓库15-数据仓库分层ods dw ads
数据仓库16-数据仓库阿里五层分层
数据仓库17-数据仓库分层的命名规范与流程
数据仓库18-常见名词介绍之数据仓库数据集市
数据仓库19-常见名词介绍之数据孤岛
数据仓库20-常见名词介绍之数据湖
数据仓库21-常见名词介绍之数据中台
数据仓库22-常见名词介绍之宽窄表
数据仓库23-ETL介绍
数据仓库24-ETL常见工具对比
数据仓库25-ETL常见加载策略

第十阶段：Flume数据采集中间件

第一章：Flume数据收集

讲解Flume新版本的相关信息，比如Flume如何实现高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统的？Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力

课程安排：

Flume01-数据收集工具的意义
Flume02-体系结构介绍
Flume03-体系结构各组件的作用
Flume04-软件特性
Flume05-执行流程
Flume06-事务机制
Flume07-软件安装
Flume08-案例之netcat2logger
Flume09-案例之avro2avro
Flume10-案例之taildir2logger
Flume11-案例之netcat2hdfs
Flume12-案例之interceptor
Flume13-监控之Json Reporting

第十一阶段：数据迁移Sqoop

第一章：Ganglia

Ganglia

课程安排：

Ganglia01-监控介绍
Ganglia02-安装成功

第二章：数据迁移Sqoop

数据迁移Sqoop

课程安排：

Sqoop01-数据迁移介绍
Sqoop02-系统架构
Sqoop03-数据导入导出流程
Sqoop04-软件安装
Sqoop05-导入练习
Sqoop06-导出练习
Sqoop07-脚本打包练习

第十二阶段：数据同步框架DataX

第一章：DataX数据迁移

本章讲解的Datax主要功能是数据迁移，DataX本身作为数据同步框架，将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。

课程安排：

Datax01-软件介绍
Datax02-软件架构
Datax03-核心模块
Datax04-软件安装
Datax05-案例mysql2hdfs
Datax06-案例mysql2hbase
Datax07-DataxWeb安装与应用

第十三阶段：任务调度工具Azkaban

第一章：Azkaban任务调度

本章讲解的Azkaban是在LinkedIn（领英）上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题，并提供易于使用的Web用户界面来维护和跟踪您的工作流程。

课程安排：

Azkaban01-软件介绍
Azkaban02-调度工具对比
Azkaban03-软件架构
Azkaban04-软件安装与应用
Azkaban05-案例Job的相互依赖
Azkaban06-案例MapReduce Hive HBase 任务调度

第十四阶段：计算工具Tez

第一章：Tez计算优化

本章讲解的Tez是Apache最新的支持DAG作业的开源计算框架，它可以将多个有依赖的作业转换为一个作业从而大幅提升DAG作业的性能。Tez并不直接面向最终用户——事实上它允许开发者为最终用户构建性能更快、扩展性更好的应用程序。Hadoop传统上是一个大量数据批处理平台。

课程安排：

Tez01-计算引擎的定义
Tez02-计算流程分析

第十五阶段：电商日志分析

第一章：系统架构和数据处理分析

系统架构和数据处理分析

课程安排：

电商日志分析01-项目系统架构
电商日志分析02-数据处理流程
电商日志分析03-数据分析维度
电商日志分析04-数据分析的事件和参数
电商日志分析05-数据分析的事件产生流程

第二章：搭建项目

电商日志分析项目的架构搭建，数据流转、表分类以及按天划分，在展示项目。

课程安排：

电商日志分析06-搭建电商Web项目
电商日志分析07-埋点源码分析
电商日志分析08-搭建Nginx日志服务器
电商日志分析09-搭建Flume日志采集工具
电商日志分析10-实现Flume采集脚本
电商日志分析11-通过MapReduce实现ETL日志数据
电商日志分析12-工具流代码说明
电商日志分析13-维度与指标
电商日志分析14-维度类介绍

第三章：MapReduce计算活跃用户

MapReduce计算活跃用户

课程安排：

电商日志分析15-MapReduce计算活跃用户
电商日志分析16-MapReduce计算活跃用户
电商日志分析17-MapReduce计算活跃用户(脏数据导致Exception)
电商日志分析18-MapReduce计算活跃用户
电商日志分析19-项目总结
电商日志分析20-ETL代码梳理
电商日志分析21-Analysis代码梳理Mapper
电商日志分析22-Analysis代码梳理Reducer
电商日志分析23-Analysis代码梳理RecordWriter
电商日志分析24-Analysis代码梳理Converter
电商日志分析25-Analysis代码梳理Test

第四章：ETL/Analysis代码梳理

ETL/Analysis代码梳理

课程安排：

电商日志分析20-ETL代码梳理
电商日志分析21-Analysis代码梳理Mapper
电商日志分析22-Analysis代码梳理Reducer
电商日志分析23-Analysis代码梳理RecordWriter
电商日志分析24-Analysis代码梳理Converter
电商日志分析25-Analysis代码梳理Test

第五章：新增用户业务分析和代码实现

新增用户业务分析和代码实现

课程安排：

电商日志分析26-新增用户业务分析
电商日志分析27-新增用户代码实现

第十六阶段：NoSQL数据库Redis

第一章：Redis理论与应用

本章开始讲解Redis的环境安装，运行环境和常见命令，在单机环境下体验Redis的高性能与缓存特性

课程安排：

Redis01-缓存的作用
Redis02-缓存的雪崩击穿穿透一致性问题
Redis03-布隆过滤器
Redis04-Redis简介
Redis05-Redis安装(Single Node)

第二章：Redis操作

Redis操作

课程安排：

Redis06-Redis操作之Keys
Redis07-Redis操作之String
Redis08-Redis操作之Hash
Redis09-Redis操作之List
Redis10-Redis操作之Set
Redis11-Redis操作之Sorted Set
Redis12-Redis操作之namespace
Redis13-Redis操作之数据失效
Redis14-Redis操作之事务机制

第三章：Redis持久化

Redis持久化

课程安排：

Redis15-Redis持久化之RDB存储原理
Redis16-Redis持久化之RDB存储方式 save bgsave
Redis17-Redis持久化之RDB存储方式定时存储
Redis18-Redis持久化之AOF存储原理

第四章：Redis主从与哨兵、一致性

Redis主从与哨兵、一致性Hash原理与数据倾斜

课程安排：

Redis19-Redis主从模式
Redis20-Redis安装(主从)
Redis21-Redis主从模式下数据同步方式-全量-增量
Redis22-Redis哨兵节点的作用
Redis23-Redis哨兵节点工作流程
Redis24-Redis安装(哨兵)
Redis25-一致性Hash原理
Redis26-一致性Hash与数据倾斜

第五章：Redis集群与练习

Redis集群与练习

课程安排：

Redis27-Redis集群的Slot槽
Redis28-Redis安装(集群)
Redis29-Redis的集群与分片
Redis30-Redis练习之发帖控制
Redis31-Redis练习之斗鱼日榜与小说热销榜

第十七阶段：分布式搜索引擎Elasticsearch

第一章：正向索引与倒排索引

正向索引与倒排索引

课程安排：

ElasticSearch01-正向索引
ElasticSearch02-倒排索引
ElasticSearch03-倒排索引的组成方式
ElasticSearch04-倒排索引的更新策略
ElasticSearch05-倒排索引的索引重建的四种方式

第二章：ES软件简介与集群搭建

ES软件简介与集群搭建

课程安排：

ElasticSearch06-分词器
ElasticSearch07-ES软件简介
ElasticSearch08-ES集群搭建
ElasticSearch09-古诗词飞花令

第三章：ES数据存储的结构、ES的Mapping

ES数据存储的结构、RESTFUL风格命令、ES的Mapping

课程安排：

ElasticSearch10-ES数据存储的结构
ElasticSearch11-ES的RESTFUL风格命令
ElasticSearch12-ES的Mapping普通类型
ElasticSearch13-ES的Mapping特殊类型

第四章：ES的插件安装与使用

ES的插件安装与使用

课程安排：

ElasticSearch14-ES的head插件安装
ElasticSearch15-ES的head插件使用
ElasticSearch16-ES的Ik分词器插件安装
ElasticSearch17-ES的Ik分词器插件使用
ElasticSearch18-Kibana软件安装
ElasticSearch19-Kibana软件使用
ElasticSearch20-数据的分片shard与备份replication

第五章：ES系统架构与访问API

ES系统架构与JAVA访问API

课程安排：

ElasticSearch21-ES系统架构
ElasticSearch22-ES架构write数据流程
ElasticSearch23-ES架构delete数据流程
ElasticSearch24-ES架构update数据流程
ElasticSearch25-ES架构write数据完整流程A
ElasticSearch26-ES架构write数据完整流程B
ElasticSearch27-ES的Java访问API

第十八阶段：消息中间件Kafka

第一章：消息中间件、消息传递

Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。它已经应用到各个公司的平台

课程安排：

Kafka01-消息中间件的意义
Kafka02-观察者模式
Kafka03-生产者消费者模式
Kafka04-生产者消费者模式意义
Kafka05-点对点消息传递
Kafka06-发布订阅消息传递

第二章：Kafka系统架构

Kafka系统架构

课程安排：

Kafka07-Kafka官网介绍
Kafka08-Kafka系统架构 Broker Topic
Kafka09-Kafka系统架构 Partation
Kafka10-Kafka系统架构 Relication
Kafka11-Kafka系统架构 Producer
Kafka12-Kafka系统架构 Consumer
Kafka13-Kafka系统架构 Offset
Kafka14-Kafka系统架构 Zookeeper

第三章：Kafka集群搭建与数据存储策略

课程安排：

Kafka15-Kafka集群搭建
Kafka16-Kafka数据存储策略
Kafka17-Kafka索引的分类

第四章：生产者和消费者数据安全

生产者和消费者数据安全

课程安排：

Kafka18-生产者数据安全之分区分片
Kafka19-生产者数据安全之ISR机制
Kafka20-生产者数据安全之ACK机制
Kafka21-生产者数据安全之HW与LEO
Kafka22-生产者数据安全之Exactly Once
Kafka23-消费者数据安全之数据拉取
Kafka24-消费者数据安全之数据分配策略
Kafka25-消费者数据安全之Offset管理
Kafka26-消费者数据安全之CheckPoint
Kafka27-消费者数据安全之Consumer重置
Kafka28-数据安全之Kafka的幂等性
Kafka29-数据安全之Kafka的事务

第五章：常见面试题、Kafka与Flume、KafkaEagle

Kafka常见面试题、Kafka与Flume、KafkaEagle

课程安排：

Kafka30-Kafka的常见面试题
Kafka31-Kafka与Flume的关系
Kafka32-Kafka集成Flume
Kafka33-KafkaEagle软件介绍与安装

第十九阶段：实时处理框架Storm

第一章：Storm

Storm

课程安排：

Storm01-DAG有向无环图
Storm02-DAG拓扑关系
Storm03-Storm计算数据的方式
Storm04-Storm的系统架构
Storm05-Storm的并行机制
Storm06-Storm的Topology拓扑关系
Storm07-第一个Storm代码实现
Storm08-Storm代码实现WordCount
Storm09-上下游数据传输Shuffle
Storm10-上下游数据传输All
Storm11-上下游数据传输之Direct
Storm12-上下游数据传输之Direct
Storm13-Storm代码实现WordCount
Storm14-Storm集群搭建
Storm15-Storm集群搭建
Storm16-Storm消息发送原理
Storm17-Storm消息的完整性
Storm18-Storm消息的安全性

第二十阶段：ClickHouse

第一章：系统架构、环境搭建、数据类型

ClickHouse系统架构、环境搭建、数据类型

课程安排：

ClickHouse01-软件介绍
ClickHouse02-系统架构之列式存储
ClickHouse03-系统架构之从底层到顶层剖析
ClickHouse04-环境搭建
ClickHouse05-数据类型之基本数据类型
ClickHouse06-数据类型之字符串
ClickHouse07-数据类型之日期类型
ClickHouse08-数据类型之符合类型
ClickHouse09-数据类型之其他类型

第二章：DDL

DDL

课程安排：

ClickHouse10-DDL之数据库操作
ClickHouse11-DDL之创建表
ClickHouse12-DDL之删除表和临时表
ClickHouse13-DDL之分区表
ClickHouse14-DDL之表字段操作
ClickHouse15-DDL之视图操作
ClickHouse16-DML之CRUD数据

第三章：MergeTree、MergeTreeFamily

MergeTree、MergeTreeFamily

课程安排：

ClickHouse17-MergeTree之创建表
ClickHouse18-MergeTree之存储方式
ClickHouse19-MergeTree之数据分区规则
ClickHouse20-MergeTree之数据分区命名与合并
ClickHouse21-MergeTree之一级索引
ClickHouse22-MergeTree之梳理数据存储与一级索引
ClickHouse23-MergeTree之二级索引
ClickHouse24-MergeTree之列式存储与数据压缩
ClickHouse25-MergeTree之数据标记生成规则
ClickHouse26-MergeTree之数据标记使用方式
ClickHouse27-MergeTree之梳理一级索引与数据标记
ClickHouse28-MergeTree之数据读写流程
ClickHouse29-MergeTree之数据标记与数据压缩
ClickHouse30-MergeTreeFamily之多路径存储
ClickHouse31-MergeTreeFamily之ReplacingMergeTree去重
ClickHouse32-MergeTreeFamily之SummingMergeTree求和
ClickHouse33-MergeTreeFamily之AggregatingMergeTree聚合
ClickHouse34-MergeTreeFamily之CollapsingMergeTree折叠
ClickHouse35-MergeTreeFamily之VersionCollapsingMergeTree版本折叠

第四章：Engine

课程安排：

ClickHouse36-Engine之HDFS
ClickHouse37-Engine之Mysql
ClickHouse38-Engine之Kafka
ClickHouse39-Engine之File
ClickHouse40-Engine之Memory
ClickHouse41-Engine之Set
ClickHouse42-Engine之Join
ClickHouse44-Engine之Log
ClickHouse45-Engine之Merge

第五章：数据查询

数据查询

课程安排：

ClickHouse46-数据查询
ClickHouse47-数据查询之With
ClickHouse48-数据查询之From
ClickHouse49-数据查询之Sample
ClickHouse50-数据查询之ArrayJoin
ClickHouse51-数据查询之Join精度
ClickHouse52-数据查询之Join类型
ClickHouse53-数据查询之Where和Prewhere
ClickHouse54-数据查询之Having
ClickHouse55-数据查询之Limit

第二十一阶段：Scala语言开发

第一章：Scala基础语法

本章主要讲述Scala编程语言的特点，与Java的差异，在掌握JAVA的基础下，进行对比学习，学完本章内容可以进行简单的程序逻辑开发。

课程安排：

Scala01-语言介绍
Scala02-六大特性
Scala03-版本选择与软件安装
Scala04-常识性问题解答
Scala05-基础语法之标识符
Scala06-基础语法之数据类型
Scala07-基础语法之变量
Scala08-基础语法之语法糖
Scala09-基础语法之算数运算符
Scala10-基础语法之逻辑运算符
Scala11-基础语法之位运算符
Scala12-基础语法之赋值运算符
Scala13-基础语法之逻辑语句IF
Scala14-基础语法之循环语句Range
Scala15-基础语法之循环语句For
Scala16-基础语法之循环语句For百鸡百钱
Scala17-基础语法之循环语句For之Yield收集
Scala18-基础语法之Lambda表达式
Scala19-基础语法之方法的定义
Scala20-基础语法之函数的定义
Scala21-基础语法之方法与函数
Scala22-基础语法之闭包
Scala23-基础语法之字符串
Scala24-基础语法之数组
Scala25-基础语法之数组的复杂操作
Scala26-基础语法之数组的map与flatmap
Scala27-基础语法之创建Scala的maven项目
Scala28-基础语法之对象的属性方法构造器
Scala29-基础语法之Object类
Scala30-基础语法之class的源码解析
Scala31-基础语法之类的继承与方法的重写
Scala32-基础语法之抽象类
Scala33-基础语法之Trait特征
Scala34-基础语法之修饰符与Scope
Scala35-基础语法之工具类Stdin
Scala36-基础语法之传值调用与传名调用
Scala37-基础语法之参数代码实现

第二章：Scala函数深化

本章主要讲述Scala重要的函数特性以及函数的使用和编写。

课程安排：

Scala38-函数深化之指定参数名
Scala39-函数深化之可变参数
Scala40-函数深化之递归函数
Scala41-函数深化之默认参数值
Scala42-函数深化之匿名函数
Scala43-函数深化之嵌套函数
Scala44-函数深化之偏应用函数
Scala45-函数深化之高阶函数
Scala46-函数深化之柯里化函数

第三章：Scala集合

本章主要讲述Scala的集合

课程安排：

Scala47-集合之顶级结构Traversable
Scala48-集合之迭代结构Iterable
Scala49-集合之Seq Set Map分支
Scala50-集合之List的方法集合
Scala51-集合之List的方法集合
Scala52-集合之List的方法map与flatMap
Scala53-集合之Set的方法集合
Scala54-集合之Map的方法集合
Scala55-集合之Tuple的方法集合
Scala56-集合之Option的方法集合
Scala57-集合之WordCount

第四章：Scala高级特性

Scala高级特性

课程安排：

Scala58-高级特性之模式匹配
Scala59-高级特性之偏函数
Scala60-高级特性之样例类
Scala61-高级特性之implicit隐式转换
Scala62-高级特性之implicit隐式转换视图
Scala63-高级特性之implicit隐式转换值
Scala64-高级特性之implicit隐式转换类
Scala65-高级特性之implicit隐式转换参数
Scala66-高级特性之Akka
Scala67-高级特性之ActorModel
Scala68-高级特性之Spark的WordCount

第二十二阶段：分布式计算框架Spark

第一章：Spark简介及基础代码开发

本章主要讲述Spark作为第三代计算引擎的介绍，以及相应技术的纵向对比，掌握基本的RDD算子开发，最终掌握WordCount的编写。

课程安排：

Spark01-框架介绍
Spark02-计算方式
Spark03-官网介绍
Spark04-概念介绍-partition初探
Spark05-概念介绍-partition与hdfs
Spark06-Spark算子的五大特性与血统
Spark07-spark算子的代码实现
Spark08-Spark算子的单文件转换算子
Spark09-Spark算子的行动算子
Spark10-Spark算子的控制算子
Spark11-Spark算子的控制算子cache
Spark12-Spark算子的控制算子persist
Spark13-Spark算子的控制算子checkpoint

第二章：Spark集群架构、多文件转换算子

Spark集群架构、多文件转换算子

课程安排：

Spark14-spark集群框架
Spark15-spark环境搭建之前置Scala
Spark16-spark环境搭建之standalone模式
Spark17-spark环境搭建之yarn模式
Spark18-spark提交任务的方式之standalone的client与master
Spark19-spark提交任务的方式之yarn的client与master
Spark20-Spark多文件转换算子Join
Spark21-Spark多文件转换算子Join与partition关系
Spark22-Spark多文件转换算子union与partition关系
Spark23-Spark多文件转换算子intersection与partition关系
Spark24-Spark多文件转换算子mapPartition
Spark25-Spark多文件转换算子distinct与partition关系
Spark26-Spark多文件转换算子cogroup与partition关系
Spark27-Spark行动算子foreachPartition

第三章：Spark核心概念Stage以及高阶算子

本章主要介绍Spark核心概念Stage以及相应shuffle产生的原因。通过学习与stage关联性强的算子来加深这个阶段的理解。

课程安排：

Spark28-Spark宽窄依赖与Stage
Spark29-Spark中Stage的切分规则
Spark30-Spark中Stage的数据传输pipeline
Spark31-Spark中Stage的代码验证
Spark32-Spark中任务调度流程
Spark33-Spark资源的粗细粒度申请
Spark34-Spark分区转换算子mapPartitionWithIndex
Spark35-Spark分区转换算子repartition
Spark36-Spark分区转换算子coalesce
Spark37-Spark分区转换算子zip
Spark38-Spark分区转换算子groupByKey
Spark39-Spark行动算子countByKey countByValue reduce

第四章：Spark经典案例练习

本章主要讲解案例编写巩固之前的算子基础再通过代码打包到集群的方式来深入理解任务提交参数的选择以及webUi上能给我们提供帮助的内容。

课程安排：

Spark40-Spark练习题介绍
Spark41-Spark练习Pv&Uv
Spark42-Spark练习数据的二次排序
Spark43-Spark练习分组取TopN
Spark44-Spark练习分组取TopN
Spark45-Spark练习分组取TopN

第五章：SparkRDD高级应用

本章主要讲解Spark分布式计算引擎在分布式计算中对于共享变量使用的讲解，核心的shuffle及其种类，以及spark基于内存计算的内存详解。

课程安排：

Spark46-SparkShell的使用
Spark47-SparkUI的搭建与使用
Spark48-Spark的高可用模式搭建
Spark49-Spark的广播变量
Spark50-Spark的累加器
Spark51-Spark数据的Shuffle
Spark52-Spark数据的Sort与Bypass

第六章：Spark核心源码解析

本章主要讲解Spark核心源码，从资源申请到任务调度。在本章的最后对RDD核心部分做总结。

课程安排：

Spark53-Spark源码分析之SparkContext
Spark54-Spark源码分析之Master
Spark55-Spark源码分析之Worker
Spark56-Spark源码分析之Driver
Spark57-Spark源码分析之Stage

第七章：Spark分布式计算框架之SparkSQL

本章主要讲解SparkSql及其应用，在掌握RDD的基础上，通过dataFrame学习更加方便的离线计算代码编写。

课程安排：

Spark58-SparkSql的架构介绍
Spark59-SparkSql部门平均薪资RDD版
Spark60-SparkSql的DataFrame概念
Spark61-SparkSql通过case class实现DataFrame
Spark62-SparkSql通过StructType实现DataFrame
Spark63-SparkSql的DataSet概念
Spark64-SparkSql通过Json实现DataSet
Spark65-SparkSql的DSL语法之action函数
Spark66-SparkSql的DSL语法之常见函数
Spark67-SparkSql的谓词下推
Spark68-SparkSql的数据源之JDBC
Spark69-SparkSql的数据源之Hive
Spark70-SparkSql自定义UDF函数
Spark71-SparkSql自定义UDAF函数
Spark72-SparkSql自定义UDTF函数
Spark73-SparkSql之开窗函数

第八章：Spark分布式计算框架之SparkStreaming

本章主要讲解SparkStreaming准实时计算引擎，理解窗口以及state这些核心的流式计算的相关概念，并且最后结合kafka，贴近企业实际开发需要，解决实际出现的计算问题。

课程安排：

Spark74-SparkStreaming的架构介绍
Spark75-SparkStreaming的数据计算与DSream
Spark76-SparkStreaming的容错性与实时性
Spark77-SparkStreaming的代码实现
Spark78-SparkStreaming的转换算子transform
Spark79-SparkStreaming的转换算子updateStateByKey
Spark80-SparkStreaming的窗口算子window
Spark81-SparkStreaming的行动算子print
Spark82-SparkStreaming的kafka框架复习
Spark83-SparkStreaming连接kafka读取
Spark84-SparkStreaming高低版本读取Kafka的差异
Spark85-SparkStreaming通过checkpoint处理Kafka的OffSet
Spark86-SparkStreaming通过itself处理Kafka的OffSet
Spark87-SparkStreaming通过owner data处理Kafka的OffSet(1)
Spark88-SparkStreaming通过owner data处理Kafka的OffSet(2)
Spark89-SparkStreaming通过checkpoint处理Kafka的OffSet代码实现
Spark90-SparkStreaming通过itself owndata处理Kafka的OffSet代码实现
Spark91-SparkStreaming数据的反压机制
Spark92-SparkStreaming数据的旧版反压机制
Spark93-SparkStreaming数据的新版反压机制
Spark94-SparkStreaming事务处理
Spark95-资源调优
Spark96-fastutil
Spark97-jvm
Spark98-数据倾斜
Spark99-整体知识梳理

第二十三阶段：分析型数据仓库Kylin

第一章：kylin的介绍与原理、系统架构与环境搭建

本章主要介绍kylin作为一款olap引擎如何应用，以及数仓相应概念的复习与拓展。kylin安装、系统架构与环境搭建

课程安排：

Kylin01-王者荣耀维度分析
Kylin02-数据仓库分层分表回顾
Kylin03-软件介绍
Kylin04-工作原理-空间换时间
Kylin05-系统架构
Kylin06-环境搭建

第二章：kylin的使用以及cube优化

本章主要介绍kylin的使用，从curl到webUI，理解kylin如何通过接口进行数据交互访问。在WebUI上体会kylin亚秒级查询的魅力。最终根据企业实际问题进行cube优化，

课程安排：

Kylin07-使用流程点点点
Kylin08-cube任务执行16步骤
Kylin09-梳理cube build流程
Kylin10-查询kylin计算结果Restful
Kylin11-查询kylin计算结果Java
Kylin12-开发中日期BUG处理
Kylin13-增量Cube
Kylin14-增量Cube合并策略
Kylin15-计算结果的保留策略
Kylin16-Keylin维度优化之强制层次联合
Kylin17-Keylin维度优化之衍生
Kylin18-Keylin结合Zeppelin BI

第二十四阶段：车流量分析项目

第一章：项目功能需求分析、卡口信息分析

本章主要介绍企业级项目的架构以及需求分析，卡口信息。状态分析

课程安排：

车流量分析01-实时离线业务流程分析
车流量分析02-功能需求分析
车流量分析03-功能需求分析
车流量分析04-生活中卡口信息
车流量分析05-模拟数据生成类MockData
车流量分析06-统计卡口车辆信息和摄像头信息
车流量分析07-卡口状态分析Java
车流量分析08-卡口状态分析Scala

第二章：核心业务代码实现

本章主要介绍了离线实时两部分业务代码的开发，结合具体的数据在rdd，sql，stream三种开发模式中选择最佳开发模型进行选择。

课程安排：

车流量分析09-累加器实现车辆统计Java
车流量分析10-卡口车速监控需求分析
车流量分析11-卡口车速监控实现Scala
车流量分析12-卡口车速监控实现Java+kryo
车流量分析13-卡口车速监控实现Scala+kryo
车流量分析14-区域碰撞需求分析与实现Scala
车流量分析15-区域碰撞需求分析与实现Java
车流量分析16-车辆跟踪需求分析与实现Java
车流量分析17-车辆按比例抽样调查业务分析
车流量分析18-车辆按比例抽样调查实现Scala
车流量分析19-车辆按比例抽样调查实现Java
车流量分析20-卡口转换率业务分析
车流量分析21-卡口转换率实现Scala
车流量分析22-卡口转换率实现Java
车流量分析23-区划内道路TopN实现Scala
车流量分析24-区划内道路TopN业务分析
车流量分析25-区划内道路TopN实现Java
车流量分析26-实时路况业务分析
车流量分析27-实时路况实现Scala

第二十五阶段：实时计算框架Flink

第一章：Flink介绍与实时计算

Flink介绍与实时计算

课程安排：

Flink001-实时计算的数据流分类
Flink002-实时计算的数据流传递策略
Flink003-实时计算的性能评估
Flink004-实时计算的数据流状态
Flink005-实时计算的窗口函数
Flink006-实时计算的时间语义与水位线
Flink007-实时计算的状态存储
Flink008-软件介绍
Flink009-软件特点
Flink010-性能对吧
Flink011-代码实现Batch
Flink012-代码实现Stream
Flink013-Flink分层API

第二章：Flink编程模型

Flink编程模型

课程安排：

Flink014-编程模型之source-transform-sink
Flink015-编程模型之FileSource
Flink016-编程模型之SocketSource
Flink017-编程模型之KafkaSource
Flink018-编程模型之Transform的operator
Flink019-编程模型之Transform的map与flatmap
Flink020-编程模型之Transform的keyby
Flink021-编程模型之Transform的滚动聚合
Flink022-编程模型之Transform的reduce
Flink023-编程模型之Transform的union
Flink024-编程模型之Transform的connect
Flink025-编程模型之Transform的random rebalance rescale
Flink026-编程模型之Transform的broadcast
Flink027-编程模型之Transform的global
Flink028-编程模型之支持的基本类型
Flink029-编程模型之支持的pojo类型
Flink030-编程模型之TypeInfomation
Flink031-编程模型之udf函数process
Flink032-编程模型之富函数
Flink033-编程模型之sink

第三章：Flink架构模型和并行度

Flink架构模型和并行度

课程安排：

Flink034-架构模型
Flink035-架构模型中各角色分配
Flink036-架构模型之搭建集群
Flink037-架构模型之standalone页面运行项目
Flink038-架构模型之standalone命令运行项目
Flink039-架构模型之flinkOnYarn环境搭建
Flink040-架构模型之YarnSession模式运行项目
Flink041-架构模型之SingleJob模式运行项目
Flink042-并行度之逻辑执行图的变化流程
Flink043-并行度之Slot与Task
Flink044-并行度之JobGraph推算并行度
Flink045-并行度之Operator与并行度
Flink046-并行度之设置并行度的4种级别
Flink047-并行度之操作链

第四章：Flink窗口机制

Flink窗口机制

课程安排：

Flink048-窗口机制之窗口分类
Flink049-窗口机制之翻滚窗口Tubling
Flink050-窗口机制之滑动窗口Sliding
Flink051-窗口机制之会话窗口Session
Flink052-窗口机制之全局事件翻滚窗口Global
Flink053-窗口机制之全局时间翻滚窗口Global
Flink054-窗口机制之增量聚合计算
Flink055-窗口机制之全量聚合计算
Flink056-窗口机制之窗口与水位线
Flink057-窗口机制之窗口与时间的三种类型
Flink058-窗口机制之窗口与watermark的原理
Flink059-窗口机制之窗口与watermark的回顾
Flink060-窗口机制之watermark的周期水位线发送器1
Flink061-窗口机制之watermark的周期水位线发送器2
Flink062-窗口机制之窗口与水位线的毫秒级误差
Flink063-窗口机制之watermark的定点水位线发送器
Flink064-窗口机制之allowLateness允许迟到
Flink065-窗口机制之迟到之后侧输出

第五章：Flink状态

Flink状态

课程安排：

Flink066-状态之分类与管理
Flink067-状态之算子状态
Flink068-状态之算子状态的保存方式
Flink069-状态之键控状态
Flink070-状态之键控状态的保存方式
Flink071-状态之checkpoint的分布式快照
Flink072-状态之延时发送与分布式快照
Flink073-状态之Barrier栅栏与分布式快照
Flink074-状态之基于Checkpoint的状态恢复
Flink075-状态之状态后端StateBackend-Memory
Flink076-状态之状态后端StateBackend-FsState
Flink077-状态之状态后端StateBackend-RocksDB
Flink078-状态之SavePoint保存点

第六章：Table&Sql

课程安排：

Flink079-连接器Connector
Flink080-Table&Sql之介绍
Flink081-Table&Sql之TableEnvironment的继承关系
Flink082-Table&Sql之查询Dept数据
Flink083-Table&Sql之TableApi的语法
Flink084-Table&Sql之TableApi的窗口函数ProcessTime
Flink085-Table&Sql之TableApi的窗口函数EventTime
Flink086-Table&Sql之Sql的常见语句
Flink087-Table&Sql之Sql的创建Kafka数据表

第七章：CEP和反压机制

课程安排：

Flink088-CEP之应用场景介绍
Flink089-Table&Sql之Sql的窗口函数
Flink090-CEP之Pattern API
Flink091-CEP之单个模式
Flink092-CEP之组合模式
Flink093-CEP之循环模式
Flink094-CEP之循环模式的严格与松散判定
Flink095-CEP之匹配后跳过策略
Flink096-CEP之检测模式
Flink097-CEP之时间处理
Flink098-CEP之登录失败三次警告
Flink099-反压机制之网络监控意义
Flink100-反压机制之1.5Before的TCP反压机制
Flink101-反压机制之1.5Before的Task内外反压
Flink102-反压机制之1.5Last的Credit Base反压机制

第二十六阶段：CDH

第一章：CDH

CDH

课程安排：

CDH01-CDH与CM介绍
CDH02-Cloudear官网介绍
CDH03-CM的架构与功能
CDH04-CDH&CM安装之Linux环境配置
CDH05-CDH&CM安装之安装http与创建yum源
CDH06-CDH&CM安装之安装配置Server和Agent
CDH07-CDH&CM安装之安装配置组件
CDH08-CDH&CM安装之集群控制台

第二十七阶段：机器学习

第一章：机器学习介绍、回归、归类

机器学习介绍、回归、归类

课程安排：

机器学习01-历史介绍
机器学习02-学习步骤
机器学习03-分类和名词
机器学习04-回归之线性回归定义
机器学习05-回归之最小二乘法
机器学习06-回归之向量Vectors
机器学习07-回归之LabeledPoint
机器学习08-回归之libsvm与LinearRegression
机器学习09-回归之LinearRegression结果预测
机器学习10-归类之贝叶斯算法
机器学习11-归类之拼写纠正
机器学习12-归类之垃圾邮件
机器学习13-归类之拉普拉斯估计
机器学习14-归类之Naive Bayes

第二章：数据转换、聚类

机器学习之数据转换、聚类

课程安排：

机器学习15-数据转换之CountVectorizer
机器学习16-数据转换之Word2Vec
机器学习17-数据转换之Others
机器学习18-聚类之Kmeans
机器学习19-聚类之Kmeans代码实现
机器学习20-协同过滤之FPGrowth

第三章：决策树

决策树

课程安排：

机器学习21-决策树之树形绘制
机器学习22-决策树之基尼系数与信息熵
机器学习23-决策树之代码实现
机器学习24-决策树之随机森林
机器学习25-决策树之混淆矩阵
机器学习26-决策树之动物预测混淆矩阵
机器学习27-决策树之ROC与AUC曲线

大数据开发架构师零基础

不限期

32周

24个月

790小时

100%

第一阶段：Linux

升级说明

主要内容

可解决问题

可掌握的核心能力

第二阶段：Nginx

升级说明

主要内容

可解决问题

可掌握的核心能力

第三阶段：Zookeeper

升级说明

主要内容

可解决问题

可掌握的核心能力

第四阶段：Hadoop-HDFS

升级说明

主要内容

可解决问题

可掌握的核心能力

第五阶段：Hadoop-MapReduce

升级说明

主要内容

可解决问题

可掌握的核心能力

第六阶段：Hive

升级说明

主要内容

可解决问题

可掌握的核心能力

第七阶段：HBase

升级说明

主要内容

可解决问题

可掌握的核心能力

第八阶段：Flume

升级说明

主要内容

可解决问题

可掌握的核心能力

第九阶段：DataX

升级说明

主要内容

可解决问题

可掌握的核心能力

第十阶段：Azkaban

升级说明

主要内容

可解决问题

可掌握的核心能力

第十一阶段：Tez

升级说明

主要内容

可解决问题

可掌握的核心能力

第十二阶段：电商日志分析

升级说明

主要内容

可解决问题

可掌握的核心能力

第十三阶段：Redis

升级说明

主要内容

可解决问题

可掌握的核心能力

第十四阶段：Kafka

升级说明

主要内容

可解决问题

可掌握的核心能力

第十五阶段：Scala

升级说明

主要内容

可解决问题