Hadoop、spark和NoSQL大數(shù)據(jù)培訓(xùn)課程
?
?
培訓(xùn)目標(biāo):
通過本課程實踐,幫助學(xué)員對Hadoop、spark和NoSQL生態(tài)系統(tǒng)有一個清晰明了的認(rèn)識;理解Hadoop、spark和NoSQL系統(tǒng)適用的場景;掌握Hadoop、spark和NoSQL等初中級應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Hadoop、spark和NoSQL集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);了解和清楚大數(shù)據(jù)應(yīng)用的幾個行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓(xùn)對象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計師、程序員。對于懷有設(shè)計疑問和問題,需要梳理解答的團(tuán)隊和個人,效果最佳。
培訓(xùn)大綱
|
大數(shù)據(jù)在國內(nèi)的運(yùn)用
|
大數(shù)據(jù)在國內(nèi)的使用介紹
離線計算框架介紹
流式計算框架介紹
內(nèi)存計算框架介紹
內(nèi)存流式計算介紹
|
|
大數(shù)據(jù)的整體技術(shù)架構(gòu)
|
開源大數(shù)據(jù)技術(shù)架構(gòu)
開源大數(shù)據(jù)常用組件之間的依賴關(guān)系
離線計算框架介紹
—Mapreduce、Hive、Tez、Presto、Kylin
實時查詢框架介紹
—NoSQL、Hbase
實時計算框架介紹
—Kafka、Strom、Spark Streaming
內(nèi)存計算框架介紹
—Spark、SparkSQL、SparkMllib、SparkR
前沿大數(shù)據(jù)技術(shù)介紹
—Flink、Drill、Druid、KUDU等
海量日志快速檢索架構(gòu)
—ELK(Elasticsearch、Logstash、Kibana)等
|
|
Hadoop平臺優(yōu)化點(diǎn)
|
Linux系統(tǒng)的優(yōu)化
最佳硬件的選擇和建議
HDFS架構(gòu)和原理
HDFS的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題
MapReduce架構(gòu)和原理
MapReduce的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問題
Yarn的內(nèi)存、CPU和IO的優(yōu)化
Hbase的優(yōu)化和生產(chǎn)環(huán)境常見的問題
Hive的優(yōu)化和Hive的改進(jìn)工具介紹
Impala、Kylin、Presto工具介紹
RCFile、ORC和parquet格式介紹
|
|
Hadoop核心組件的運(yùn)維和配置
|
HDFS的元數(shù)據(jù)管理
FSimage和Edit文件解析
手動修改FSimage和Edit文件
HDFS HA的架構(gòu)運(yùn)維解析
Yarn服務(wù)運(yùn)維詳解
Yarn核心配置參數(shù)的詳解
Hbase服務(wù)運(yùn)維詳解
手動設(shè)置Split和Compaction操作
RS宕機(jī)的運(yùn)維處理
Hbase 超大表的優(yōu)化實踐
|
|
Yarn實戰(zhàn)
|
Yarn架構(gòu)和原理
ResourceManager工作原理
NodeManager工作原理
基于IO的控制這是
Yarn為某個運(yùn)用獨(dú)立分配資
基于隊列的資源管理配置
基于底層硬件的SLA資源配置
不同部門或者用戶的資源配置
|
|
NoSQL和Hbase使用
|
NoSQL介紹
NoSQL應(yīng)用場景
Hbase原理
Hmaster詳解
RegionServer詳解
Zookeeper介紹
Hbase安裝
Hbase邏輯視圖介紹
Hbase物理視圖介紹
Hbase的二級索引介紹
Hbase 的DDL和DML
Hbase表的設(shè)計案例
Hbase的import功能介紹
MapReduce操作Hbase
Hbase的 thrift Server介紹
Hbase 的API介紹
Hbase使用場景介紹
Hbase案例分析
|
|
Spark Streaming原理和實踐
|
Spark Streaming原理
ApplicationMaster工作原理
Yarn的資源控制機(jī)制
基于內(nèi)存的控制設(shè)置
基于CPU的控制設(shè)置
? Spark流式處理架構(gòu)
? DStream的特點(diǎn)
? Dstream的操作和RDD的區(qū)別
? SatefulRDD和windowRDD實戰(zhàn)
? Kafka+Spark Steaming實戰(zhàn)
? Spark Streaming的優(yōu)化
Kafka+Spark Streaming實例
? 文本實例
網(wǎng)絡(luò)數(shù)據(jù)處理
|
|
Spark SQL原理和實踐
|
Spark SQL原理
? Spark SQL的Catalyst優(yōu)化器
? Spark SQL內(nèi)核
? Spark SQL和Hive
DataFrame和DataSet架構(gòu)
Fataframe、DataSet和Spark SQL的比較
SparkSQL parquet格式實戰(zhàn)
Spark SQL的實例和編程
? Spark SQL的實例操作demo
Spark SQL的編程
|
|
Spark優(yōu)化
|
Spark SQL的優(yōu)化
基于Spark計算的文件格式選擇
Spark on Yarn的優(yōu)化
Spark SQL執(zhí)行計劃的優(yōu)化
Spark 內(nèi)存管理的機(jī)制
|
|
互聯(lián)網(wǎng)大數(shù)案例分享
|
互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹
某銀行基于大數(shù)據(jù)平臺風(fēng)險監(jiān)控案例
某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例
|
?