?
目標收益
本課程將為大家全面而又深入的介紹Spark、Hadoop平臺的構建流程,涉及Spark、Hadoo系統(tǒng)基礎知識,概念及架構, Spark、Hadoo實戰(zhàn)技巧,Spark、Hadoo經典案例等。
通過本課程實踐,幫助學員對Spark、Hadoo生態(tài)系統(tǒng)有一個清晰明了的認識;理解Spark、Hadoo系統(tǒng)適用的場景;掌握Spark、Hadoo等初中級應用開發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadoo k集群,滿足生產環(huán)境的標準;了解和清楚大數據應用的幾個行業(yè)中的經典案例,包括阿里巴巴,華為等。
培訓對象
各類 IT/軟件企業(yè)和研發(fā)機構的軟件架構師、軟件設計師、程序員。對于懷有設計疑問和問題,需要梳理解答的團隊和個人,效果最佳。
學員基礎
了解Linux系統(tǒng)及相關語言環(huán)境
課程大綱
?
| 主題 |
內容 |
|
Hadoop簡介和生態(tài)系統(tǒng)介紹
|
傳統(tǒng)大規(guī)模數據分析存在的問題?
Hadoop概述?
Hadoop與分布式文件系統(tǒng)?
Hadoop生態(tài)系統(tǒng)
Hadoop的行業(yè)應用案例分析
Hadoop在云計算和大數據的位置和關系
Hadoop版本介紹
Hadoop與Google FS的關系
Hadoop在國內的使用情況和未來
|
|
Hadoop安裝和主要配置文件介紹
|
Hadoop安裝所需軟件介紹
Hadoop單機安裝
Hadoop偽分布式安裝
Hadoop完全分布式安裝
Hadoop三個節(jié)點安裝的配置介紹
Hahoop多節(jié)點ssh配置
Hadoop格式化詳解
Hadoop核心配置文件介紹
核心配置文件core-site.xml
HDFS配置文件hdfs-site.xml
Mapreduce配置文件mapred-site.xml
master文件配置詳解
slave文件配置詳解
Hadoop啟動和停止方法一
—start-all.sh詳解
—stop-all.sh詳解
Hadoop的啟動和停止方法二
—hadoop-deamon.sh詳解
Hadoop安裝的常見錯誤介紹和解決方案
使用自帶的wordcount和pi測試集群安裝是否成功
使用Streaming來測試集群安裝是否成功
|
|
Hadoop組件介紹
|
Hadoop NameNode 介紹
Hadoop SecondaryNameNode 介紹?
Hadoop DataNode 介紹
Hadoop JobTracker 介紹?
Hadoop TaskTracker 介紹
|
|
Hadoop的HDFS模塊
|
HDFS架構介紹
HDFS原理介紹
NameNode功能詳解
DataNode功能詳解
SecondaryNameNode功能詳解
HSFD的fsimage和editslog詳解
HDFS的block詳解
HDFS的block的備份策略
Hadoop的機架感知配置
HDFS的shell命令介紹
HDFS的thrift server服務介紹
HDFS的API接口介紹
HDFS的權限詳解
Hadoop的客服端接入案例
|
|
MapReducer入門
|
Mapreduce原理
MapReduce流程
剖析一個MapReduce程序
Mapper和Reducer抽象類詳解
Mapreduce的最小驅動類
MapReduce自帶的類型
自定義Writables和WritableComparables
Mapreduce的輸入InputFormats
MapReduce的輸出OutputFormats
Combiner詳解
Partitioner詳解
DistributeFileSystem詳解
Hadoop Tools工具介紹
Counter計數器詳解
自定義Counter計數器
基于Hadoop二次開發(fā)實戰(zhàn)
MapReduce的優(yōu)化
Map和Reduce的個數設置
Hadoop小文件優(yōu)化
任務調度
默認的任務調度
公平任務調度
能力任務調度
使用 Hadoop MapReduce Streaming 編程?
MapReduce的單元測試
|
|
Hive
|
Hive和Pig基礎
Hive、Impala和presto的比較?
Hive的作用和原理說明
Hadoop倉庫和傳統(tǒng)數據倉庫的協(xié)作關系
Hadoop/Hive倉庫數據數據流
Hive部署和安裝
HiveCli的基本用法
Hive的server啟動
HQL基本語法
Hive的加載數據本地加載和HDFS加載
Hive的partition詳解
Hive的存儲方式詳解
RCFILE、TEXTFILE和SEQUEUEFILE
Hive的UDF和UDAF
Hive的transform詳解
Hive的JDBC連接
|
|
Sqoop介紹
|
Sqoop是什么
Sqoop安裝
Sqoop把mysql數據導入HDFS
Sqoop把HDFS數據導入Mysql
Sqoop吧Mysql數據導入Hive
Sqoop吧Mysql數據導入Hive分區(qū)
|
|
Hadoop集群配置和維護
|
Hadoop集群的部署要點
NameNode和SecondaryNameNode和JobTracker機器的配置要求
dataNode與tasktracker機器的配置要求
Hadoop集群管理的工具介紹
Ganglia和nigos監(jiān)控Hadoop集群介紹
Ambri介紹
添加和刪除節(jié)點演示
Namenode的單點解決方案
NameNode的NFS備份介紹
集群所有dataNode掛掉的故障介紹
集群NameNode的fsimage丟掉恢復方法
Hadoop集群維護的注意點
|
|
Hbase使用
|
Hbase原理
Hmaster詳解
RegionServer詳解
Zookeeper介紹
Hbase安裝
Hbase邏輯視圖介紹
Hbase物理視圖介紹
Hbase的二級索引介紹
Hbase的DDL和DML
Hbase表的設計案例
Hbase的import功能介紹
MapReduce操作Hbase
Hbase的thriftServer介紹
Hbase的API介紹
Hbase使用場景介紹
Hbase案例分析
|
|
大數據在國內的運用
|
大數據在國內的使用介紹
離線計算框架介紹
流式計算框架介紹
內存計算框架介紹
內存流式計算介紹
大數據實時請求框架介紹
大數據在移動的案例介紹
大數據在銀行的案例介紹
大數據在阿里的案例介紹
|
|
Spark生態(tài)介紹
|
Spark產生背景
Spark(內存計算框架)
SparkSteaming(流式計算框架)
SparkSQL(ad-hoc)
Mllib(MachineLearning)
GraphX(bagel將被代)
|
|
spark安裝部署
|
Spark安裝簡介
Spark的源碼編譯
SparkStandalone安裝
SparkStandaloneHA安裝
Spark應用程序部署工具spark-submit
|
|
Spark運行架構和解析
|
Spark的運行架構
基本術語
運行架構
SparkonStandalone運行過程
SparkonYARN運行過程
Spark運行實例解析
SparkonStandalone實例解析
SparkonYARN實例解析
|
|
SparkSQL原理和實踐
|
SparkSQL原理
SparkSQL的Catalyst優(yōu)化器
SparkSQL內核
SparkSQL和Hive
SparkSQL的實例和編程
SparkSQL的實例操作demo
SparkSQL的編程
|