
曙海教學(xué)優(yōu)勢(shì)
課程可定制,線上/線下/上門(mén)皆可,報(bào)名熱線:4008699035。本課程以項(xiàng)目實(shí)戰(zhàn)案例實(shí)現(xiàn)為主線,面向企事業(yè)單位項(xiàng)目開(kāi)發(fā)實(shí)際,秉承21年積累的教學(xué)和研發(fā)經(jīng)驗(yàn),培訓(xùn)講師將會(huì)與您分享設(shè)計(jì)的全流程以及工具的綜合使用經(jīng)驗(yàn)以及技巧。
  我們的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。曙海培訓(xùn)的課程在業(yè)內(nèi)有廣泛的美譽(yù)度。大批企業(yè)和曙海
     建立了良好的合作關(guān)系,20多年來(lái),合作企事業(yè)單位以達(dá)30多萬(wàn)。
? 以下就是本次Spark培訓(xùn)內(nèi)容
1、Spark的架構(gòu)設(shè)計(jì)
1.1 Spark生態(tài)系統(tǒng)剖析
1.2 Spark的架構(gòu)設(shè)計(jì)剖析
1.3 RDD計(jì)算流程解析
1.4 Spark的出色容錯(cuò)機(jī)制
2、Spark編程模型
2.1 RDD
2.2 transformation
2.3 action
2.4 lineage
2.5寬依賴(lài)與窄依賴(lài)
3、深入Spark內(nèi)核
3.1 Spark集群
3.2 任務(wù)調(diào)度
3.3 DAGScheduler
3.4 TaskScheduler
3.5 Task內(nèi)部揭秘
4、Spark的廣播變量與累加器
4.1 廣播變量的機(jī)制
4.2 廣播變量使用最佳實(shí)踐
4.3 累加器的機(jī)制
4.4 累加器使用的最佳實(shí)踐
5、編寫(xiě)Spark程序
5.1 程序數(shù)據(jù)的來(lái)源:File、HDFS、HBase、S3等
5.2 IDE環(huán)境構(gòu)建
5.3 Maven
5.4 sbt.
5.5 編寫(xiě)并部署Spark程序的實(shí)例
6、SparkContext解析和數(shù)據(jù)加載以及存儲(chǔ)
6.1 源碼剖析SparkContext
6.2 Scala、Java、Python使用SparkContext
6.4 加載數(shù)據(jù)成為RDD
6.5 把數(shù)據(jù)物化
7、深入實(shí)戰(zhàn)RDD
7.1 DAG
7.2 深入實(shí)戰(zhàn)各種Scala RDD Function
7.3 Spark Java RDD Function
7.4 RDD的優(yōu)化問(wèn)題
8、Shark的原理和使用
8.1 Shark與Hive
8.2 安裝和配置Shark
8.3 使用Shark處理數(shù)據(jù)
8.4 在Spark程序中使用Shark Queries
8.5 SharkServer
8.6 思考Shark架構(gòu)
9、Spark的機(jī)器學(xué)習(xí)
9.1 LinearRegression
9.2 K-Means
9.3 Collaborative Filtering
10、Spark的圖計(jì)算GraphX
10.1 Table Operators
10.2 Graph Operators
10.3 GraphX
11、Spark SQL
11.1 Parquet支持
11.2 DSL
11.3 SQL on RDD
12、Spark實(shí)時(shí)流處理
12.1 DStream
12.2 transformation
12.3 checkpoint
12.4 性能優(yōu)化
13、Spark程序的測(cè)試
13.1 編寫(xiě)可測(cè)試的Spark程序
13.2 Spark測(cè)試框架解析
13.3 Spark測(cè)試代碼實(shí)戰(zhàn)
14、Spark的優(yōu)化
14.1 Logs
14.2 并發(fā)
14.3 內(nèi)存
14.4 垃圾回收
14.5 序列化
14.6 安全
15、Spark on Yarn
15.1 Spark on Yarn的架構(gòu)原理
15.2 Spark on Yarn的最佳實(shí)踐
16、JobServer
16.1 JobServer的架構(gòu)設(shè)計(jì)
16.2 JobServer提供的接口
16.3 JobServer最佳實(shí)踐