
曙海教學(xué)優(yōu)勢(shì)
本課程,秉承二十一年積累的教學(xué)品質(zhì),以項(xiàng)目實(shí)現(xiàn)為導(dǎo)向,面向企事業(yè)項(xiàng)目實(shí)際需要,老師將會(huì)與您分享設(shè)計(jì)的全流程以及工具的綜合使用經(jīng)驗(yàn)、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
  曙海培訓(xùn)的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
     建立了良好的合作關(guān)系,20多年來(lái),合作企事業(yè)單位以達(dá)30多萬(wàn)。曙海培訓(xùn)的課程在業(yè)內(nèi)有著響亮的知名度。
????Hadoop作為開源的云計(jì)算平臺(tái),為大數(shù)據(jù)處理提供了一整套解決方案,應(yīng)用非常廣泛。Hadoop作為一個(gè)平臺(tái)框架,包括了如何存儲(chǔ)海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應(yīng)的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫(kù),等等。本課程主要介紹Hadoop的思想、原理,以及重要技術(shù)等相關(guān)知識(shí)。
深刻理解Hadoop原理與調(diào)優(yōu) 深刻理解Hive原理掌握程序開發(fā) 深刻理解Hbase 掌握程序開發(fā) 深刻理解Hadoop 日常運(yùn)維管理
?
| 
 課程主題?  | 
 課程內(nèi)容?  | 
| 
 Hadoop和傳統(tǒng)數(shù)據(jù)庫(kù)技術(shù)優(yōu)劣勢(shì)對(duì)比?  | 
 ???Hadoop/Hive 對(duì)比 Oracle 在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)上的優(yōu)劣勢(shì)? ???Hadoop 如何和傳統(tǒng)IT系統(tǒng)配合完成原來(lái)不可能的任務(wù)? ???Hadoop版本講解及Hadoop新舊版本使用對(duì)比?  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???Apache社區(qū)版本:Cloudera 版本、MapR版本、Intel版本、Oracle、Dell、HP版本?  | 
|
| 
 Hadoop的來(lái)源和動(dòng)機(jī)?  | 
 ???傳統(tǒng)大規(guī)模系統(tǒng)存在的問題 ???Hadoop概述 ???Hadoop分布式文件系統(tǒng) ???MapReduce工作原理 ???Hadoop集群剖析 ???Hadoop生態(tài)系統(tǒng)對(duì)一種新的解決方案的需求? ???Hadoop的行業(yè)應(yīng)用案例分析? ???Hadoop在云計(jì)算和大數(shù)據(jù)的位置和關(guān)系? ???非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用?  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???某銀行數(shù)據(jù)統(tǒng)一處理平臺(tái),通過Hadoop進(jìn)行系統(tǒng)優(yōu)化? ???某電信運(yùn)營(yíng)商用戶行為分析系統(tǒng)? ???某電力行業(yè)數(shù)據(jù)采集大數(shù)據(jù)分析案例? ???聯(lián)通使用Hadoop/Hbase解決3G詳單查詢問題。?  | 
|
| 
 Hadoop生態(tài)系統(tǒng)介紹和演示?  | 
 ???Hadoop HDFS 和 MapReduce ???Hadoop數(shù)據(jù)庫(kù)之HBase ●?HBase架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)倉(cāng)庫(kù)之Hive? ●?Hive架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)處理腳本Pig ●?Pig架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop數(shù)據(jù)接口Sqoop和Flume ●?Sqoop和Flume架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop工作流引擎 Oozie? ●?Oozie架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合 ???Hadoop生態(tài)系統(tǒng)各模塊應(yīng)用與編程開發(fā)相結(jié)合  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???某銀行如何使用Hadoop統(tǒng)一數(shù)據(jù)平臺(tái)? ???手機(jī)上網(wǎng)日志分析? ???移動(dòng)GPRS上網(wǎng)日志查詢系統(tǒng)? ???國(guó)家電網(wǎng)城區(qū)用電量分析? ???聯(lián)通不良信息檢測(cè)系統(tǒng)? ???電廠海量數(shù)據(jù)監(jiān)控分析系統(tǒng)? ???某銀行數(shù)據(jù)統(tǒng)一處理平臺(tái)? ???海量指紋比對(duì)系統(tǒng)?  | 
|
| 
 Hadoop集群調(diào)優(yōu)?  | 
 l?選擇適合hadoop的硬件配置 l?Hadoop配置項(xiàng)優(yōu)化 ??Hadoop配置優(yōu)化 - core-site.xml ??Hadoop配置優(yōu)化 - hdfs-site.xml ??Hadoop配置優(yōu)化 - mapred-site.xml ??Hadoop配置優(yōu)化 - 機(jī)架感知 l?網(wǎng)絡(luò)帶寬參數(shù)調(diào)優(yōu) ??系統(tǒng)參數(shù)調(diào)優(yōu) ??配置文件管理 ??嚴(yán)格控制root權(quán)限 ??Java的GC模式 l?選擇正確的JDK l?hadoop作業(yè)調(diào)優(yōu) ??Map side tuning設(shè)置 ??Map side設(shè)置 l?Linux操作系統(tǒng)優(yōu)化 l?其他配置和參數(shù)調(diào)優(yōu)  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 l?Hadoop硬件優(yōu)化 l?不是所有的硬件都合適拿來(lái)直接使用 ??安裝調(diào)優(yōu)的第一步服務(wù)器硬件的選型的竅門 ??如何選擇適合業(yè)務(wù)使用的CPU ??內(nèi)存越大越好嗎?設(shè)置合理的的內(nèi)存配置 ??連接網(wǎng)絡(luò)的選擇和優(yōu)化 ??高速硬盤的選擇注意事項(xiàng) l?硬盤為什么不做raid? l?設(shè)置網(wǎng)絡(luò)的注意事項(xiàng) l?中間結(jié)果壓縮對(duì)磁盤和網(wǎng)絡(luò)的優(yōu)化 l?機(jī)架感知,網(wǎng)絡(luò)和磁盤IO優(yōu)化作用,確定存儲(chǔ)的具體位置, l?內(nèi)存參數(shù),map/reduce槽位數(shù)的計(jì)算方法。 l?對(duì)磁盤和網(wǎng)絡(luò)的優(yōu)化 l?Java工具使用,jstack使用 l?Sun和open之間的區(qū)別,JIT編譯器的使用 l?inux系統(tǒng)參數(shù)調(diào)優(yōu) ??Linux監(jiān)控系統(tǒng)的使用 ??cacti, ??ganglia ??常用的linux排錯(cuò)工具lsof,strace,iostat,vmstat,netstat... l?常見異常現(xiàn)象級(jí)處理方法? ??網(wǎng)卡流量導(dǎo)致連接失敗 ??權(quán)限錯(cuò)誤 ??主機(jī)名IP轉(zhuǎn)換錯(cuò)誤 ??NN與DN namespaceID不一致 ??磁盤滿導(dǎo)致報(bào)錯(cuò) ??Jave heap size OOM  | 
|
| 
 Hadoop 2.0?  | 
 l?Hadoop 1.0 存在的問題及現(xiàn)有的解決方案? l?Hadoop 2.0 各廠商版本對(duì)比? l?Apahce and CDH4? l?Hadoop 2.0 項(xiàng)目結(jié)構(gòu)解析? l?Hadoop 2.0 環(huán)境搭建? l?Yarn 與MapReduce的不同? l?Yarn 原理與架構(gòu)? l?Apache YARN基本框架? l?Apache YARN工作流程? l?Apache YARN設(shè)計(jì)細(xì)節(jié)? l?MapReduce與YARN結(jié)合? l?如何與Yarn來(lái)結(jié)合? l?yarn的優(yōu)化、資源管理、優(yōu)先級(jí)管理。 l?Hadoop 生態(tài)系統(tǒng)解析? l?Hadoop 小圖檔方案? l?Hadoop 2.0 HDFS 運(yùn)維管理? n?丟失block的情況分析? 常見的故障排查?  | 
| 
 HDFS高級(jí)程序?qū)崙?zhàn)演練?  | 
 ???HDFS實(shí)戰(zhàn)-命令行等使用? ???HDFS命令行工具 ???啟動(dòng)、停止HDFS服務(wù) ???如何查看HDFS日志 ???如何查看HDFS Web控制臺(tái) ???HDFS參數(shù)配置  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???HDFS實(shí)戰(zhàn)-Java API使用? ???Eclipse 開發(fā)環(huán)境介紹? ???HDFS 開發(fā)基本步驟? ???HDFS Java API詳解? ???Configuration? ???Path? ???FileSystem? ???Stream、IOUtils?  | 
|
| 
 Hadoop HDFS HA方案介紹?  | 
 ???Hadoop 1.0 系 HA的一些辦法? ???Hadoop 2.0 介紹?  | 
| 
 MapReduce高級(jí)程序?qū)崙?zhàn)演練?  | 
 ???使用 Hadoop MapReduce Streaming 編程? ???MapReduce流程 ???剖析一個(gè)MapReduce程序 ???基本MapReduceAPI 概念 ???驅(qū)動(dòng)代碼 Mapper、Reducer? ???Hadoop流 ???API 使用Eclipse進(jìn)行快速開發(fā) ???新MapReduce API ???MapReduce的優(yōu)化? ???MapReduce的任務(wù)調(diào)度? ???MapReduce編程實(shí)戰(zhàn) ???滿足解決實(shí)際數(shù)據(jù)分析問題的高級(jí)Hadoop API?  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???Hadoop Streaming 和 Java MapReduce Api 差異。? ???MapReduce 實(shí)現(xiàn)數(shù)據(jù)庫(kù)功能? ???利用Combiners來(lái)減少中間數(shù)據(jù)? ???編寫Partitioner來(lái)優(yōu)化負(fù)載平衡? ???直接訪問Hadoop分布式文件系統(tǒng)(HDFS)? ???Hadoop的join操作? ???輔助排序在Reducer方的合并? ???定制Writables和WritableComparables ???使用SequenceFiles和Avro文件保存二進(jìn)制數(shù)據(jù) ???創(chuàng)建InputFormats OutputFormats? ???Hadoop的二次排序? ???Hadoop的海量日志分析? ???在Map方的合并  | 
|
| 
 Hadoop SQL 接口Hive?  | 
 ???Hive基礎(chǔ) ???Hive的作用和原理說明? ???Hadoop倉(cāng)庫(kù)和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的協(xié)作關(guān)系;Hive與傳統(tǒng)數(shù)據(jù)庫(kù)的對(duì)接使用? ???Hadoop/Hive倉(cāng)庫(kù)數(shù)據(jù)數(shù)據(jù)流? ???Hive Cli 的基本用法? ???HQL基本語(yǔ)法? ???自行編寫數(shù)據(jù)庫(kù)與Hadoop相互ETL工具的思路?  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???使用JDBC 連接Hive進(jìn)行查詢和分析? ???使用正則表達(dá)式加載數(shù)據(jù)? ???HQL高級(jí)語(yǔ)法? ???編寫UDF函數(shù)? ???編寫UDAF自定義函數(shù)? ???執(zhí)行嵌套sql的優(yōu)化?  | 
|
| 
 Hadoop數(shù)據(jù)庫(kù)之HBase及HBase優(yōu)化?  | 
 ???hbase概念與架構(gòu) ???hbase核心知識(shí)點(diǎn)? ???hbase安裝、部署? ???HBase配置優(yōu)化綜述? ???表設(shè)計(jì)優(yōu)化相關(guān)參數(shù)? ???監(jiān)控工具使用方法及注意事項(xiàng)? ???常見異常現(xiàn)象級(jí)處理方法?  | 
| 
 案例及實(shí)驗(yàn)?  | 
|
| 
 ???hot region造成讀請(qǐng)求瓶頸? ???region預(yù)劃分? ???Memstore合并設(shè)置的時(shí)機(jī)選擇? ???合并storefile策略設(shè)置技巧? ???Memstore flush設(shè)置時(shí)機(jī)選擇? ???Hbase-env.sh、Single、multi-thread、CMS使用及參數(shù)調(diào)整? ???GC回收垃圾時(shí)機(jī)、GC日志打印設(shè)置? ???GC階段,region無(wú)法提供服務(wù)如何如何處理? ???Split時(shí)機(jī)控制(增大、disable)方法? ???CF數(shù)量多少對(duì)讀寫性能的影響? ???自動(dòng)關(guān)閉flush的目的?  | 
?
?