?
目標(biāo)收益
本課程將為大家全面而又深入的介紹Spark、Hadoop平臺(tái)的構(gòu)建流程,涉及Spark、Hadoo系統(tǒng)基礎(chǔ)知識,概念及架構(gòu), Spark、Hadoo實(shí)戰(zhàn)技巧,Spark、Hadoo經(jīng)典案例等。
通過本課程實(shí)踐,幫助學(xué)員對Spark、Hadoo生態(tài)系統(tǒng)有一個(gè)清晰明了的認(rèn)識;理解Spark、Hadoo系統(tǒng)適用的場景;掌握Spark、Hadoo等初中級應(yīng)用開發(fā)技能;搭建穩(wěn)定可靠的Spar、Hadoo k集群,滿足生產(chǎn)環(huán)境的標(biāo)準(zhǔn);了解和清楚大數(shù)據(jù)應(yīng)用的幾個(gè)行業(yè)中的經(jīng)典案例,包括阿里巴巴,華為等。
培訓(xùn)對象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果最佳。
學(xué)員基礎(chǔ)
了解Linux系統(tǒng)及相關(guān)語言環(huán)境
課程大綱
?
| 主題 | 
內(nèi)容 | 
| 
 Hadoop簡介和生態(tài)系統(tǒng)介紹 
 | 
 傳統(tǒng)大規(guī)模數(shù)據(jù)分析存在的問題? 
            Hadoop概述? 
            Hadoop與分布式文件系統(tǒng)? 
            Hadoop生態(tài)系統(tǒng) 
            Hadoop的行業(yè)應(yīng)用案例分析 
            Hadoop在云計(jì)算和大數(shù)據(jù)的位置和關(guān)系 
            Hadoop版本介紹 
            Hadoop與Google FS的關(guān)系 
            Hadoop在國內(nèi)的使用情況和未來 
 | 
| 
 Hadoop安裝和主要配置文件介紹 
 | 
 Hadoop安裝所需軟件介紹 
            Hadoop單機(jī)安裝 
            Hadoop偽分布式安裝 
            Hadoop完全分布式安裝 
            Hadoop三個(gè)節(jié)點(diǎn)安裝的配置介紹 
            Hahoop多節(jié)點(diǎn)ssh配置 
            Hadoop格式化詳解 
            Hadoop核心配置文件介紹 
            核心配置文件core-site.xml 
            HDFS配置文件hdfs-site.xml 
            Mapreduce配置文件mapred-site.xml 
            master文件配置詳解 
            slave文件配置詳解 
            Hadoop啟動(dòng)和停止方法一 
            —start-all.sh詳解 
            —stop-all.sh詳解 
            Hadoop的啟動(dòng)和停止方法二 
            —hadoop-deamon.sh詳解 
            Hadoop安裝的常見錯(cuò)誤介紹和解決方案 
            使用自帶的wordcount和pi測試集群安裝是否成功 
            使用Streaming來測試集群安裝是否成功 
 | 
| 
 Hadoop組件介紹 
 | 
 Hadoop NameNode 介紹 
            Hadoop SecondaryNameNode 介紹? 
            Hadoop DataNode 介紹 
            Hadoop JobTracker 介紹? 
            Hadoop TaskTracker 介紹 
 | 
| 
 Hadoop的HDFS模塊 
 | 
 HDFS架構(gòu)介紹 
            HDFS原理介紹 
            NameNode功能詳解 
            DataNode功能詳解 
            SecondaryNameNode功能詳解 
            HSFD的fsimage和editslog詳解 
            HDFS的block詳解 
            HDFS的block的備份策略 
            Hadoop的機(jī)架感知配置 
            HDFS的shell命令介紹 
            HDFS的thrift server服務(wù)介紹 
            HDFS的API接口介紹 
            HDFS的權(quán)限詳解 
            Hadoop的客服端接入案例 
 | 
| 
 MapReducer入門 
 | 
 Mapreduce原理 
            MapReduce流程 
            剖析一個(gè)MapReduce程序 
            Mapper和Reducer抽象類詳解 
            Mapreduce的最小驅(qū)動(dòng)類 
            MapReduce自帶的類型 
            自定義Writables和WritableComparables 
            Mapreduce的輸入InputFormats 
            MapReduce的輸出OutputFormats 
            Combiner詳解 
            Partitioner詳解 
            DistributeFileSystem詳解 
            Hadoop Tools工具介紹 
            Counter計(jì)數(shù)器詳解 
            自定義Counter計(jì)數(shù)器 
            基于Hadoop二次開發(fā)實(shí)戰(zhàn) 
            MapReduce的優(yōu)化 
            Map和Reduce的個(gè)數(shù)設(shè)置 
            Hadoop小文件優(yōu)化 
            任務(wù)調(diào)度 
            默認(rèn)的任務(wù)調(diào)度 
            公平任務(wù)調(diào)度 
            能力任務(wù)調(diào)度 
            使用 Hadoop MapReduce Streaming 編程? 
            MapReduce的單元測試 
 | 
| 
 Hive 
 | 
 Hive和Pig基礎(chǔ) 
            Hive、Impala和presto的比較? 
            Hive的作用和原理說明 
            Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系 
            Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流 
            Hive部署和安裝 
            HiveCli的基本用法 
            Hive的server啟動(dòng) 
            HQL基本語法 
            Hive的加載數(shù)據(jù)本地加載和HDFS加載 
            Hive的partition詳解 
            Hive的存儲(chǔ)方式詳解 
            RCFILE、TEXTFILE和SEQUEUEFILE 
            Hive的UDF和UDAF 
            Hive的transform詳解 
            Hive的JDBC連接 
 | 
| 
 Sqoop介紹 
 | 
 Sqoop是什么 
            Sqoop安裝 
            Sqoop把mysql數(shù)據(jù)導(dǎo)入HDFS 
            Sqoop把HDFS數(shù)據(jù)導(dǎo)入Mysql 
            Sqoop吧Mysql數(shù)據(jù)導(dǎo)入Hive 
            Sqoop吧Mysql數(shù)據(jù)導(dǎo)入Hive分區(qū) 
 | 
| 
 Hadoop集群配置和維護(hù) 
 | 
 Hadoop集群的部署要點(diǎn) 
            NameNode和SecondaryNameNode和JobTracker機(jī)器的配置要求 
            dataNode與tasktracker機(jī)器的配置要求 
            Hadoop集群管理的工具介紹 
            Ganglia和nigos監(jiān)控Hadoop集群介紹 
            Ambri介紹 
            添加和刪除節(jié)點(diǎn)演示 
            Namenode的單點(diǎn)解決方案 
            NameNode的NFS備份介紹 
            集群所有dataNode掛掉的故障介紹 
            集群NameNode的fsimage丟掉恢復(fù)方法 
            Hadoop集群維護(hù)的注意點(diǎn) 
 | 
| 
 Hbase使用 
 | 
 Hbase原理 
            Hmaster詳解 
            RegionServer詳解 
            Zookeeper介紹 
            Hbase安裝 
            Hbase邏輯視圖介紹 
            Hbase物理視圖介紹 
            Hbase的二級索引介紹 
            Hbase的DDL和DML 
            Hbase表的設(shè)計(jì)案例 
            Hbase的import功能介紹 
            MapReduce操作Hbase 
            Hbase的thriftServer介紹 
            Hbase的API介紹 
            Hbase使用場景介紹 
            Hbase案例分析 
 | 
| 
 大數(shù)據(jù)在國內(nèi)的運(yùn)用 
 | 
 大數(shù)據(jù)在國內(nèi)的使用介紹 
            離線計(jì)算框架介紹 
            流式計(jì)算框架介紹 
            內(nèi)存計(jì)算框架介紹 
            內(nèi)存流式計(jì)算介紹 
            大數(shù)據(jù)實(shí)時(shí)請求框架介紹 
            大數(shù)據(jù)在移動(dòng)的案例介紹 
            大數(shù)據(jù)在銀行的案例介紹 
            大數(shù)據(jù)在阿里的案例介紹 
 | 
| 
 Spark生態(tài)介紹 
 | 
 Spark產(chǎn)生背景 
            Spark(內(nèi)存計(jì)算框架) 
            SparkSteaming(流式計(jì)算框架) 
            SparkSQL(ad-hoc) 
            Mllib(MachineLearning) 
            GraphX(bagel將被代) 
 | 
| 
 spark安裝部署 
 | 
 Spark安裝簡介 
            Spark的源碼編譯 
            SparkStandalone安裝 
            SparkStandaloneHA安裝 
            Spark應(yīng)用程序部署工具spark-submit 
 | 
| 
 Spark運(yùn)行架構(gòu)和解析 
 | 
 Spark的運(yùn)行架構(gòu) 
            基本術(shù)語 
            運(yùn)行架構(gòu) 
            SparkonStandalone運(yùn)行過程 
            SparkonYARN運(yùn)行過程 
            Spark運(yùn)行實(shí)例解析 
            SparkonStandalone實(shí)例解析 
            SparkonYARN實(shí)例解析 
 | 
| 
 SparkSQL原理和實(shí)踐 
 | 
 SparkSQL原理 
            SparkSQL的Catalyst優(yōu)化器 
            SparkSQL內(nèi)核 
            SparkSQL和Hive 
            SparkSQL的實(shí)例和編程 
            SparkSQL的實(shí)例操作demo 
            SparkSQL的編程 
 |