?
大數(shù)據(jù)培訓(xùn)課程目標:
?
通過該課程的學(xué)習(xí),會對大數(shù)據(jù)離線計算、實時計算的企業(yè)級構(gòu)架有清晰的理解以及對常用的成熟的大數(shù)據(jù)開源項目從原理到使用有深入的理解。
?
實時計算的項目常用組合為Flume(數(shù)據(jù)采集) + Kafka(高可用高并發(fā)分布式消息隊列) + spark streaming(流式計算) + hbase(分布式列式存儲數(shù)據(jù)庫,億級行百萬列毫秒級查詢)
?
離線計算項目常用組合為分布式文件存儲HDFS,資源調(diào)度器、分布式計算框架MapReduce、數(shù)據(jù)倉庫Hive。
?
大數(shù)據(jù)培訓(xùn)課程大綱:
?
| 
 主題 
 | 
 內(nèi)容 
 | 
| 
 ? 
? 
? 
? 
離線計算: 
Hadoop大數(shù)據(jù)生態(tài)圈、分布式存儲HDFS、資源管理 
 | 
 大數(shù)據(jù)生態(tài)圈介紹 
開源相關(guān)項目說明以及每個項目的用途 
實時計算整體構(gòu)架詳解 
離線計算整體構(gòu)架詳解 
分布式文件系統(tǒng)HDFS是什么 
HDFS的體系結(jié)構(gòu) 
HDFS高可用集群原理詳解 
HDFS如何使用 
資源管理器介紹以及構(gòu)架 
資源管理器核心組件詳解 
資源調(diào)度器詳解? 
 | 
| 
 ? 
? 
離線計算: 
Hadoop MapReduce&Hive 
? 
 | 
 分布式計算MapReduce介紹 
MapReduce整體流程 
MapReduce實例 
數(shù)據(jù)倉庫工具Hive介紹 
Hive模型介紹:數(shù)據(jù)庫、表、分區(qū)、高級函數(shù) 
Hive元數(shù)據(jù)介紹 
 | 
| 
 ? 
? 
實時計算: 
數(shù)據(jù)采集Flume、分布式消息隊列Kafka 
 | 
 實時計算整體構(gòu)架設(shè)計 
Flume是什么以及體系結(jié)構(gòu)介紹 
Flume組件介紹:agent、source、channel、sink 
Flume高可用拓撲介紹 
Kafka體系結(jié)構(gòu)詳解 
Kafka核心概念 
Kafka高可用高并發(fā)原理 
Kafka生產(chǎn)者消費者 
Flume寫入kafka 
 | 
| 
 ? 
實時計算: 
spark streaming流式計算、HBase分布式列存儲 
 | 
 spark是什么以及體系結(jié)構(gòu) 
彈性分布式數(shù)據(jù)集RDD 
spark streaming流式計算體系結(jié)構(gòu) 
spark steaming讀取kafka 
spark算子詳解 
HBase存儲數(shù)據(jù)庫體系結(jié)構(gòu) 
Hbase的高可用 
HBase數(shù)據(jù)模型詳解 
HBase毫秒級查詢 
 | 
?
以上課程可以根據(jù)客戶實際情況進行靈活調(diào)整。