Hadoop、spark和NoSQL大數(shù)據(jù)培訓(xùn)課程
?
?
培訓(xùn)目標(biāo):
通過(guò)本課程實(shí)踐,幫助學(xué)員對(duì)Hadoop、spark和NoSQL生態(tài)系統(tǒng)有一個(gè)清晰明了的認(rèn)識(shí);理解Hadoop、spark和NoSQL系統(tǒng)適用的場(chǎng)景;掌握Hadoop、spark和NoSQL等初中級(jí)應(yīng)用開(kāi)發(fā)技能;搭建穩(wěn)定可靠的Hadoop、spark和NoSQL集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);了解和清楚大數(shù)據(jù)應(yīng)用的幾個(gè)行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓(xùn)對(duì)象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對(duì)于懷有設(shè)計(jì)疑問(wèn)和問(wèn)題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果最佳。
培訓(xùn)大綱
| 
 大數(shù)據(jù)在國(guó)內(nèi)的運(yùn)用 
 | 
 大數(shù)據(jù)在國(guó)內(nèi)的使用介紹 
離線計(jì)算框架介紹 
流式計(jì)算框架介紹 
內(nèi)存計(jì)算框架介紹 
內(nèi)存流式計(jì)算介紹 
 | 
| 
 大數(shù)據(jù)的整體技術(shù)架構(gòu) 
 | 
 開(kāi)源大數(shù)據(jù)技術(shù)架構(gòu) 
開(kāi)源大數(shù)據(jù)常用組件之間的依賴關(guān)系 
離線計(jì)算框架介紹 
—Mapreduce、Hive、Tez、Presto、Kylin 
 
實(shí)時(shí)查詢框架介紹 
—NoSQL、Hbase 
 
實(shí)時(shí)計(jì)算框架介紹 
—Kafka、Strom、Spark Streaming 
 
內(nèi)存計(jì)算框架介紹 
—Spark、SparkSQL、SparkMllib、SparkR 
 
前沿大數(shù)據(jù)技術(shù)介紹 
—Flink、Drill、Druid、KUDU等 
 
海量日志快速檢索架構(gòu) 
—ELK(Elasticsearch、Logstash、Kibana)等 
 | 
| 
 Hadoop平臺(tái)優(yōu)化點(diǎn) 
 | 
 Linux系統(tǒng)的優(yōu)化 
最佳硬件的選擇和建議 
HDFS架構(gòu)和原理 
HDFS的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問(wèn)題 
MapReduce架構(gòu)和原理 
MapReduce的優(yōu)化、維護(hù)和經(jīng)常出現(xiàn)的問(wèn)題 
Yarn的內(nèi)存、CPU和IO的優(yōu)化 
Hbase的優(yōu)化和生產(chǎn)環(huán)境常見(jiàn)的問(wèn)題 
Hive的優(yōu)化和Hive的改進(jìn)工具介紹 
Impala、Kylin、Presto工具介紹 
RCFile、ORC和parquet格式介紹 
 | 
| 
 Hadoop核心組件的運(yùn)維和配置 
 | 
 HDFS的元數(shù)據(jù)管理 
FSimage和Edit文件解析 
手動(dòng)修改FSimage和Edit文件 
HDFS HA的架構(gòu)運(yùn)維解析 
Yarn服務(wù)運(yùn)維詳解 
Yarn核心配置參數(shù)的詳解 
Hbase服務(wù)運(yùn)維詳解 
手動(dòng)設(shè)置Split和Compaction操作 
RS宕機(jī)的運(yùn)維處理 
Hbase 超大表的優(yōu)化實(shí)踐 
 | 
| 
 Yarn實(shí)戰(zhàn) 
 | 
 Yarn架構(gòu)和原理 
ResourceManager工作原理 
NodeManager工作原理 
基于IO的控制這是 
Yarn為某個(gè)運(yùn)用獨(dú)立分配資 
基于隊(duì)列的資源管理配置 
基于底層硬件的SLA資源配置 
不同部門或者用戶的資源配置 
 | 
| 
 NoSQL和Hbase使用 
 | 
 NoSQL介紹 
NoSQL應(yīng)用場(chǎng)景 
Hbase原理 
Hmaster詳解 
RegionServer詳解 
Zookeeper介紹 
Hbase安裝 
Hbase邏輯視圖介紹 
Hbase物理視圖介紹 
Hbase的二級(jí)索引介紹 
Hbase 的DDL和DML 
Hbase表的設(shè)計(jì)案例 
Hbase的import功能介紹 
MapReduce操作Hbase 
Hbase的 thrift Server介紹 
Hbase 的API介紹 
Hbase使用場(chǎng)景介紹 
Hbase案例分析 
 | 
| 
 Spark Streaming原理和實(shí)踐 
 | 
 Spark Streaming原理 
ApplicationMaster工作原理 
Yarn的資源控制機(jī)制 
基于內(nèi)存的控制設(shè)置 
基于CPU的控制設(shè)置 
? Spark流式處理架構(gòu) 
? DStream的特點(diǎn) 
? Dstream的操作和RDD的區(qū)別 
? SatefulRDD和windowRDD實(shí)戰(zhàn) 
? Kafka+Spark Steaming實(shí)戰(zhàn) 
? Spark Streaming的優(yōu)化 
Kafka+Spark Streaming實(shí)例 
? 文本實(shí)例 
網(wǎng)絡(luò)數(shù)據(jù)處理 
 | 
| 
 Spark SQL原理和實(shí)踐 
 | 
 Spark SQL原理 
? Spark SQL的Catalyst優(yōu)化器 
? Spark SQL內(nèi)核 
? Spark SQL和Hive 
DataFrame和DataSet架構(gòu) 
Fataframe、DataSet和Spark SQL的比較 
SparkSQL parquet格式實(shí)戰(zhàn) 
Spark SQL的實(shí)例和編程 
? Spark SQL的實(shí)例操作demo 
Spark SQL的編程 
 | 
| 
 Spark優(yōu)化 
 | 
 Spark SQL的優(yōu)化 
基于Spark計(jì)算的文件格式選擇 
Spark on Yarn的優(yōu)化 
Spark SQL執(zhí)行計(jì)劃的優(yōu)化 
Spark 內(nèi)存管理的機(jī)制 
 | 
| 
 互聯(lián)網(wǎng)大數(shù)案例分享 
 | 
 互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用案例介紹 
某銀行基于大數(shù)據(jù)平臺(tái)風(fēng)險(xiǎn)監(jiān)控案例 
某銀行基于大數(shù)據(jù)數(shù)據(jù)湖的案例 
 | 
?