
曙海教學優(yōu)勢
本課程面向企事業(yè)項目實際需要,秉承二十一年積累的教學品質,Spark深入淺出企業(yè)級最佳實踐培訓課程以項目實現(xiàn)為導向,老師將會與您分享設計的全流程以及工具的綜合使用技巧、經(jīng)驗。線上/線下/上門皆可,Spark深入淺出企業(yè)級最佳實踐培訓課程專家,課程可定制,熱線:4008699035。
  大批企業(yè)和曙海
     建立了良好的合作關系,20多年來,合作企事業(yè)單位以達30多萬。曙海的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。曙海的課程在業(yè)內有著響亮的知名度。
? 以下就是本次Spark培訓內容
1、Spark的架構設計
1.1 Spark生態(tài)系統(tǒng)剖析
1.2 Spark的架構設計剖析
1.3 RDD計算流程解析
1.4 Spark的出色容錯機制
2、Spark編程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5寬依賴與窄依賴
3、深入Spark內核
3.1 Spark集群
3.2 任務調度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task內部揭秘
4、Spark的廣播變量與累加器
4.1 廣播變量的機制
4.2 廣播變量使用最佳實踐
4.3 累加器的機制
4.4 累加器使用的最佳實踐
5、編寫Spark程序
5.1 程序數(shù)據(jù)的來源:File、HDFS、HBase、S3等
5.2 IDE環(huán)境構建
5.3 Maven
5.4 sbt.
5.5 編寫并部署Spark程序的實例
6、SparkContext解析和數(shù)據(jù)加載以及存儲
6.1 源碼剖析SparkContext
6.2 Scala、Java、Python使用SparkContext
6.4 加載數(shù)據(jù)成為RDD
6.5 把數(shù)據(jù)物化
7、深入實戰(zhàn)RDD
7.1 DAG
7.2 深入實戰(zhàn)各種Scala RDD Function
7.3 Spark Java RDD Function
7.4 RDD的優(yōu)化問題
8、Shark的原理和使用
8.1 Shark與Hive
8.2 安裝和配置Shark
8.3 使用Shark處理數(shù)據(jù)
8.4 在Spark程序中使用Shark Queries
8.5 SharkServer
8.6 思考Shark架構
9、Spark的機器學習
9.1 LinearRegression
9.2 K-Means
9.3 Collaborative Filtering
10、Spark的圖計算GraphX
10.1 Table Operators
10.2 Graph Operators
10.3 GraphX
11、Spark SQL
11.1 Parquet支持
11.2 DSL
11.3 SQL on RDD
12、Spark實時流處理
12.1 DStream
12.2 transformation
12.3 checkpoint
12.4 性能優(yōu)化
13、Spark程序的測試
13.1 編寫可測試的Spark程序
13.2 Spark測試框架解析
13.3 Spark測試代碼實戰(zhàn)
14、Spark的優(yōu)化
14.1 Logs
14.2 并發(fā)
14.3 內存
14.4 垃圾回收
14.5 序列化
14.6 安全
15、Spark on Yarn
15.1 Spark on Yarn的架構原理
15.2 Spark on Yarn的最佳實踐
16、JobServer
16.1 JobServer的架構設計
16.2 JobServer提供的接口
16.3 JobServer最佳實踐