?
培訓(xùn)對象
各類 IT/軟件企業(yè)和研發(fā)機(jī)構(gòu)的軟件架構(gòu)師、軟件設(shè)計(jì)師、程序員。對于懷有設(shè)計(jì)疑問和問題,需要梳理解答的團(tuán)隊(duì)和個(gè)人,效果最佳。
學(xué)員基礎(chǔ)
了解Linux系統(tǒng)及相關(guān)語言環(huán)境
課程大綱
?
| 主題 | 
內(nèi)容 | 
| 
  
 
 
            Spark 
            生態(tài)介紹 
 | 
 ?	Mapreduce、storm和spark模型的比較和使用場景介紹 
            ?	Spark產(chǎn)生背景 
            ?	Spark(內(nèi)存計(jì)算框架) 
            ?	SparkSteaming(流式計(jì)算框架) 
            ?	Spark SQL(ad-hoc) 
            ?	Mllib(MachineLearning) 
            ?	GraphX(bagel將被代) 
            ?	DlinkDB介紹 
            ?	SparkR介紹 
 | 
| 
  
            Spark 
            安裝部署 
 | 
 ?	Spark安裝簡介 
            ?	Spark的源碼編譯 
            ?	Spark Standalone安裝 
            ?	Spark Standalone HA安裝 
            ?	Spark應(yīng)用程序部署工具spark-submit 
            ?	Spark的高可用性部署 
 | 
| 
  
 
            Spark 
            運(yùn)行架構(gòu)和解析 
 | 
 ?	Spark的運(yùn)行架構(gòu) 
            ?	基本術(shù)語 
            ?	運(yùn)行架構(gòu) 
            ?	Spark on Standalone運(yùn)行過程 
            ?	Spark on YARN 運(yùn)行過程 
            ?	Spark運(yùn)行實(shí)例解析 
            ?	Spark on Standalone實(shí)例解析 
            ?	Spark on YARN實(shí)例解析 
 | 
| 
 Spark 
            scala編程 
 | 
 ?	Scala基本語法 
            ?	Scala開發(fā)環(huán)境搭建 
            ?	Scala開發(fā)Spark應(yīng)用程序 
            ?	使用java編程 
            ?	使用scala編程 
            ?	使用python編程 
 | 
| 
 Spark 
            編程模型和解析 
 | 
 ?	Spark的編程模型 
            ?	Spark編程模型解析 
            ?	RDD的特點(diǎn)、操作、依賴關(guān)系 
            ?	Spark應(yīng)用程序的配置 
 | 
| 
  
 
            Spark Streaming原理和實(shí)踐 
 | 
 ?	Spark Streaming與Strom的區(qū)別 
            ?	Kafka的部署 
            ?	Kafka與Spark Streaming的整合 
            ?	Spark Streaming原理 
            ?	Spark流式處理架構(gòu) 
            ?	DStream的特點(diǎn) 
            ?	Dstream的操作和RDD的區(qū)別 
            ?	Spark Streaming的優(yōu)化 
            ?	Spark Streaming實(shí)例 
            ?	文本實(shí)例 
            ?	網(wǎng)絡(luò)數(shù)據(jù)處理 
            ?	Kafka+Spark Streaming實(shí)現(xiàn)日志的實(shí)時(shí)分析案例 
 | 
| 
  
 
 
            Spark? 
            SQL原理和實(shí)踐 
 | 
 ?	Spark SQL原理 
            ?	Spark SQL的Catalyst優(yōu)化器 
            ?	Spark SQL內(nèi)核 
            ?	Spark SQL和Hive 
            ?	Spark SQL的實(shí)例和編程 
            ?	Spark SQL的實(shí)例操作demo 
            ?	Spark SQL的編程 
            ?	DataFrame架構(gòu)和原理 
            ?	DataFrame支持的統(tǒng)計(jì)和數(shù)學(xué)函數(shù)介紹 
            ?	從RDD創(chuàng)建DataFrame 
            ?	從Hive表創(chuàng)建DataFrame 
            ?	從數(shù)據(jù)源創(chuàng)建DataFrame 
 | 
| 
  
 
            Spark的數(shù)據(jù)源 
 | 
 ?	Spark與HDFS的整合 
            ?	HDFS RDD原理和實(shí)現(xiàn) 
            ?	Spark與Hbase的整合 
            ?	Spark與Cassendera整合 
            ?	Hbase RDD的分區(qū)讀取 
            ?	Hbase RDD的原理和實(shí)現(xiàn) 
            ?	Spark parallelism RDD的工作機(jī)制 
 | 
| 
  
 
 
            Spark 數(shù)據(jù)挖掘 
 | 
 ?	Mllib的介紹 
            ?	graphX核心原理 
            ?	table operator和graph operator區(qū)別 
            ?	vertices、edges和triplets介紹 
            ?	構(gòu)建一個(gè)graph 
            ?	SparkR原理 
            ?	SparkR實(shí)戰(zhàn) 
 | 
| 
  
 
            典型項(xiàng)目 
            案例實(shí)戰(zhàn) 
 | 
 ?	基于spark日志分析 
            ?	個(gè)性化推薦系統(tǒng):帶你揭開其神秘面紗 
            ?	在線投放引擎 
            ?	揭開淘寶點(diǎn)擊推薦系統(tǒng)的神秘面紗 
            ?	淘寶數(shù)據(jù)服務(wù)架構(gòu)—實(shí)時(shí)計(jì)算平臺 
 | 
| 
  
 
            Spark的優(yōu)化 
 | 
 ?	序列化優(yōu)化——Kryo 
            ?	Spark參數(shù)優(yōu)化實(shí)戰(zhàn) 
            ?	Spark 任務(wù)的均勻分布策略 
            ?	Partition key傾斜的解決方案 
            ?	Spark任務(wù)的監(jiān)控 
            ?	GC的優(yōu)化 
            ?	Spark Streaming吞吐量優(yōu)化 
            ?	Spark RDD使用內(nèi)存的優(yōu)化策略 
            ?	Spark在使用中的感想分享 
 |