培訓(xùn)大綱:
第一部分:如何構(gòu)建分布式數(shù)據(jù)倉庫平臺
1. 怎么樣才算是真正意義的大數(shù)據(jù)平臺
2. ? ? ?開源Hadoop介紹
3. 數(shù)據(jù)采集過程與分布式存儲
?1) ETL介紹
?2) Sqoop
?3) HDFS
4. 數(shù)據(jù)倉庫與數(shù)據(jù)分析
?1) MapReduce
?2) Hive
?3) Pig
?4) HBase
5. 集群監(jiān)控與調(diào)度組件
?1) Ganglia監(jiān)控
?2) Hadoop集群權(quán)限管理
?3) Hbase列數(shù)據(jù)庫監(jiān)控
?4) Oozie介紹
6. ? ? ?移動互聯(lián)網(wǎng)行為分析
7. ? ? ?網(wǎng)上輿情分析
第二部分:大數(shù)據(jù)平臺部署及案例
1. 我們應(yīng)該選哪種Hadoop?
?1) 選哪個版本?為什么?
?2) 選哪種發(fā)行版本?為什么?
2. 集群硬件應(yīng)該如何選配?
?1) 內(nèi)存
?2) CPU
?3) 硬盤
3. 部署案例講解
?1) 電信運營商全國用戶上網(wǎng)記錄系統(tǒng)
?2) ? ?淘寶大數(shù)據(jù)架構(gòu)
第三部分:準實時日志采集
1. 如何實現(xiàn)日志的準實時收集、處理?
2. Flume
3. Storm流式處理 + 消息集群
4. 流式處理與Hadoop集群結(jié)合
第四部分:Hbase列數(shù)據(jù)庫及應(yīng)用案例
1. Hbase感性認識
?1) 在大數(shù)據(jù)的實際應(yīng)用中關(guān)系型數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫和hdfs分布式文件系統(tǒng)三種存儲方式關(guān)系和如何集成應(yīng)用;
?2) Hbase來源?
?3) Hbase記錄長什么樣?
?4) Hbase存儲文件是什么樣的?
?5) Hbase表的邏輯結(jié)構(gòu)
?6) Hbase常見概念
2. Hbase主要組成
?7) Zookeeper、Hmaster
?8) HRegionServer、Region
?9) HStore存儲、Hfile
?10) Hbase內(nèi)部掃描RowKey的原理
?11) Hbase內(nèi)部讀寫原理
?12) HBase設(shè)計原理、架構(gòu)分析
?13) Hadoop+HBase伸縮性(自動擴容、熱部署)
?14) HBase相關(guān)表結(jié)構(gòu)設(shè)計(列族、列詳細分析)
?15) HBase主HMaster與備用HMaster間的切換原理
?16) HBase基本命令介紹
3. 如何使用Hbase?
?17) Hbase的6種使用方式
?18) HBase Shell方式訪問;
?19) HBase Java API方式訪問;
?20) Hive+Hbase方式訪問;
?21) Pig+Hbase方式訪問;
4. Hbase+Zookeeper使用配置
?22) Zookeeper簡介
?23) Zookeeper與 HBase 的關(guān)系
5. 項目案例:
?24) 哪些場景適用Hbase ?
第五部分:大數(shù)據(jù)挖掘介紹與應(yīng)用案例
1. 大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘區(qū)別?
?1) 傳統(tǒng)數(shù)據(jù)挖掘
?2) SPSS Modeler 14.2
?3) ? ?SAS簡介
?3) Mahout簡介
?4) Rhadoop例子
2. 算法介紹和應(yīng)用
?1) 關(guān)聯(lián)分析
?2) K-means
?3) ? ? 決策數(shù)據(jù)C5.0
?4) ? ?邏輯線性Logistic回歸
?5) ? ?主成分/因子分析
?6) ? ?Apriori算法
?7) ? ? 預(yù)測算法
?8) ? ?神經(jīng)網(wǎng)絡(luò)
3. 項目案例詳解
?1) 用戶行為編好分析
?2) 客戶流失預(yù)測分析
?3) ? ?顧客位置信息
4. ? ? ?大數(shù)據(jù)可視化
?1) ? ?現(xiàn)狀和問題
?2) ? ?HeatMap熱力圖
?3) ? ?Treemapping矩形式樹狀圖
?4) ? ?百度Echarts例子介紹
?5) ? ?海云數(shù)據(jù)
?6) ? ?淘寶指數(shù)