?
大數(shù)據(jù)培訓(xùn)課程目標(biāo):
?
通過(guò)該課程的學(xué)習(xí),會(huì)對(duì)大數(shù)據(jù)離線計(jì)算、實(shí)時(shí)計(jì)算的企業(yè)級(jí)構(gòu)架有清晰的理解以及對(duì)常用的成熟的大數(shù)據(jù)開源項(xiàng)目從原理到使用有深入的理解。
?
實(shí)時(shí)計(jì)算的項(xiàng)目常用組合為Flume(數(shù)據(jù)采集) + Kafka(高可用高并發(fā)分布式消息隊(duì)列) + spark streaming(流式計(jì)算) + hbase(分布式列式存儲(chǔ)數(shù)據(jù)庫(kù),億級(jí)行百萬(wàn)列毫秒級(jí)查詢)
?
離線計(jì)算項(xiàng)目常用組合為分布式文件存儲(chǔ)HDFS,資源調(diào)度器、分布式計(jì)算框架MapReduce、數(shù)據(jù)倉(cāng)庫(kù)Hive。
?
大數(shù)據(jù)培訓(xùn)課程大綱:
?
|
主題
|
內(nèi)容
|
|
?
?
?
?
離線計(jì)算:
Hadoop大數(shù)據(jù)生態(tài)圈、分布式存儲(chǔ)HDFS、資源管理
|
大數(shù)據(jù)生態(tài)圈介紹
開源相關(guān)項(xiàng)目說(shuō)明以及每個(gè)項(xiàng)目的用途
實(shí)時(shí)計(jì)算整體構(gòu)架詳解
離線計(jì)算整體構(gòu)架詳解
分布式文件系統(tǒng)HDFS是什么
HDFS的體系結(jié)構(gòu)
HDFS高可用集群原理詳解
HDFS如何使用
資源管理器介紹以及構(gòu)架
資源管理器核心組件詳解
資源調(diào)度器詳解?
|
|
?
?
離線計(jì)算:
Hadoop MapReduce&Hive
?
|
分布式計(jì)算MapReduce介紹
MapReduce整體流程
MapReduce實(shí)例
數(shù)據(jù)倉(cāng)庫(kù)工具Hive介紹
Hive模型介紹:數(shù)據(jù)庫(kù)、表、分區(qū)、高級(jí)函數(shù)
Hive元數(shù)據(jù)介紹
|
|
?
?
實(shí)時(shí)計(jì)算:
數(shù)據(jù)采集Flume、分布式消息隊(duì)列Kafka
|
實(shí)時(shí)計(jì)算整體構(gòu)架設(shè)計(jì)
Flume是什么以及體系結(jié)構(gòu)介紹
Flume組件介紹:agent、source、channel、sink
Flume高可用拓?fù)浣榻B
Kafka體系結(jié)構(gòu)詳解
Kafka核心概念
Kafka高可用高并發(fā)原理
Kafka生產(chǎn)者消費(fèi)者
Flume寫入kafka
|
|
?
實(shí)時(shí)計(jì)算:
spark streaming流式計(jì)算、HBase分布式列存儲(chǔ)
|
spark是什么以及體系結(jié)構(gòu)
彈性分布式數(shù)據(jù)集RDD
spark streaming流式計(jì)算體系結(jié)構(gòu)
spark steaming讀取kafka
spark算子詳解
HBase存儲(chǔ)數(shù)據(jù)庫(kù)體系結(jié)構(gòu)
Hbase的高可用
HBase數(shù)據(jù)模型詳解
HBase毫秒級(jí)查詢
|
?
以上課程可以根據(jù)客戶實(shí)際情況進(jìn)行靈活調(diào)整。