
曙海教學優(yōu)勢
本課程,秉承二十一年積累的教學品質,以項目實現(xiàn)為導向,面向企事業(yè)項目實際需要,老師將會與您分享設計的全流程以及工具的綜合使用經驗、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
曙海培訓的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關系,20多年來,合作企事業(yè)單位以達30多萬。曙海培訓的課程在業(yè)內有著響亮的知名度。
本課程建立在R語言基礎課程之上。本課程重在實踐,將以多個案例的形式,介紹完整的數(shù)據(jù)分析的流程,從數(shù)據(jù)模型建立到數(shù)據(jù)清洗到可視化的過程。學員在這個課程中,將學習如何使用原始數(shù)據(jù)建立分析模型,根據(jù)不同的目標使用不同的數(shù)據(jù)分析方法,并通過繪圖的方式,最終實現(xiàn)數(shù)據(jù)的可視化。
?
?
|
模塊名稱 |
課程內容 |
|
原始數(shù)據(jù)的探索與預處理? |
1.?度量數(shù)據(jù)集的集中程度 2.?度量數(shù)據(jù)集的分散程度 ???? 1) 極值,方差和標準差 ???? 2)標準誤和偏差系數(shù),峰度系數(shù) 3. 創(chuàng)建一個數(shù)字摘要表 4. 異常值的觀測與說明 ???? 1)利用箱線圖觀測異常值并處理 ???? 2)異常值檢測的其他情況和說明 5. 缺失值的填補與處理 ???? 1)刪除缺失值或對其進行簡單填補 ???? 2)按照相關性對空缺值進行填補 |
|
R的數(shù)據(jù)可視化? |
1.? plot()函數(shù)和常用的圖形參數(shù) ???? 1)設置plot()函數(shù)中的參數(shù) ???? 2)修改散點圖的坐標并加入標注 2. 經典的基礎圖形及用途 ???? 1)線圖 ???? 2)直方圖 ???? 3)箱線圖和莖葉圖 3. 將圖形組合起來 4. 更多的高水平作圖函數(shù) 5. 更多的常用作圖命令 |
|
R中參數(shù)的估計和檢驗? |
1. 使用R進行點估計和區(qū)間估計 ???? 1) 簡單的點估計和區(qū)間估計 ???? 2 )估計單側置信區(qū)間 2. 與正態(tài)總體有關的參數(shù)檢驗 3. 列聯(lián)表與獨立性檢驗 4. 集中檢驗數(shù)據(jù)分布的函數(shù) 5. 對非正態(tài)總體的區(qū)間估計和檢驗 ?1)非正態(tài)總體的區(qū)間估計 ?2)非參數(shù)檢驗中的符合檢驗 ?3)非參數(shù)檢驗中的秩檢驗 |
|
R中的方差分析? |
1. 方差分析模型的建立 2? .單因素方差分析 ???? 1)單因素方差分析的數(shù)學思想與模型 ??? ?2)檢驗樣本是否滿足方差分析的假設條件 ???? 3)構建單因素方差分析模型 3. 多因素方差分析 ?1)多因素方差分析的數(shù)學思想與模型 ?2)不考慮交互作用的雙因素方差分析 ?3)考慮交互作用的雙因素方差分析 4. 秩檢驗和協(xié)方差分析 ?1)對控制變量應用秩檢驗方法 ??? 2)協(xié)方差分析的假設與應用 |
|
R中的相關分析和回歸分析? |
1. 多種相關系數(shù)的計算和檢驗 ???? 1)簡單相關系數(shù)的計算和檢驗 ?2)散步矩陣圖和偏相關系數(shù) ?3)典型相關分析 2. 線性回歸分析及其常歸參數(shù) ?1)對數(shù)據(jù)進行預處理 ?2)構建第一個回歸模型 ?3)修正方程并檢驗殘差 3. 使用逐步回歸篩選自變量 ?1)逐步回歸的思想與分類 ?2)構建逐步回歸模型 4. 啞變量和邏輯回歸 ?1)啞變量和邏輯回歸的思想 ?2)向線性回歸模型中納入啞變量 |
|
更高級的數(shù)據(jù)可視化? |
1. 基礎圖形的擴展與延伸 ?1)繪制分類散點圖并添加圖標 ?2)繪制含多種類別的密度分布圖 ?3)復合條形圖和堆棧條形圖 2. 有關多元分布函數(shù)的特殊圖形 ?1)星圖和臉譜圖 ?2)輪廓圖 ?3)調和曲線圖 3.?建立最簡單的3D圖形 4.?如何讓圖形更美觀 5.?更過的繪圖包和系統(tǒng) |
|
R中的聚類分析和判別分析? |
1. 集中聚類分析的異同 2. 使用R實現(xiàn)KNN聚類 ?1)KNN算法的思想和模型 ?2)使用R實現(xiàn)KNN聚類 3. 使用R實現(xiàn)系統(tǒng)聚類 ?1)系統(tǒng)聚類的思想和模型 ?2)使用R實現(xiàn)系統(tǒng)聚類 4. 使用R實現(xiàn)快速聚類 ?1)快速聚類的思想和模型 ?2)使用R實現(xiàn)快速聚類 5. 集中判別分析模型綜述 ?1)距離判別模型 ?2)Fisher判別模型 |
|
R中的主成分分析和因子分析? |
1. 主成分分析的實現(xiàn)與應用 ?1)主成分分析的模型假設和數(shù)據(jù)處理 ?2)構造一個主成分分析模型 ?3)計算主成分的綜合得分 2. 因子分析的初次構建與完善 ?1)構造一個簡單的因子分析模型 ?2)計算因子得分并分析 3. 對因子分析模型進行修正 ?1)修改因子分析模型中的因子個數(shù) ?2)基于主成分法和主軸因子法進行因子分析 4. 在降維分析的基礎上進行回歸分析和聚類分析 ? 1)在降維分析的基礎上進行回歸分析 ? 2)在降維分析的基礎上進行聚類分析 5. 決策樹 ? 1)C4.5算法 ? 2)CART算法 ? 3)C5.0算法 |
|
R中的廣義線性回歸模型? |
1. 一般的廣義線性回歸模型 ?1) 使用二次函數(shù)擬合線性回歸模型 ?2) 擬合更多的廣義線性模型 ?3) 比較線性模型的優(yōu)劣 2.? Logistic線性回歸模型 1)Logistic模型的原理與構建方法 2)Logistic模型的顯著性檢驗和優(yōu)勢比 3)修正被警告的Logistic模型 3. 泊松回歸分析模型 1)?擬合第一個泊松回歸模型 2)?泊松回歸模型的過散布檢驗 4. 廣義線性模型的交叉驗證 |
|
R中的時間序列模型? |
1. 將數(shù)據(jù)轉換為時間序列格式 1)?使用ts()函數(shù)轉換數(shù)據(jù)格式并繪制時間序列曲線 2)?使用zoo()函數(shù)轉換數(shù)據(jù)格式并繪制時間序列曲線 2. 分解時間序列并檢驗時間序列的自相關性 1)?使用經典方法分解時間序列 2)?使用STL方法分解時間序列 3. 探究時間序列的自相關性 1)?使用月圖和季度圖探究自相關性 2)?使用散點圖探究自相關性 4. 構建時間序列并預測 1)?均值預測,單純預測和漂移 2)?不考慮長期趨勢和季節(jié)波動的簡單指數(shù)平滑 3)?在指數(shù)平滑中加入長期趨勢和季節(jié)波動 4)?自回歸移動平均模型 |
|
R中的最優(yōu)化問題? |
1. 最優(yōu)化問題簡述 2. 黃金分割法 1)?黃金分割法和局部最優(yōu)解 2)?使用R實現(xiàn)黃金分割法 3. 牛頓最優(yōu)化方法 1)?牛頓方法的算法原理 2)?在一維情形下實現(xiàn)牛頓迭代法 3)?在多維情形下實現(xiàn)牛頓迭代法 4. 最快上升法 1)?利用梯度求解上升最快的相鄰點 2)?構建最快上升法函數(shù)并檢驗 5.? R中最優(yōu)化函數(shù) |
|
使用R繪制地理信息圖形? |
1.?繪制世界,國家,省市地圖 1)?使用map()函數(shù)繪制地圖 2)?另一種繪制地圖的方法 3)?分省市繪制地圖 2.?向地圖中添加顏色 1)?向地圖中添加顏色前的準備工作 2)?在地圖上添加顏色 3.?向地圖上添加標簽和線條 1)?向地圖中添加標簽前的準備工作 2)?在地圖上添加標簽 3)?在地圖上添加線條 4.?使用其他格式的文件優(yōu)化地圖 |
|
使用R構建支持向量機? |
1.?構建一個簡單的支持向量機 1)?支持向量機的算法原理 2)?構建一個簡單的支持向量機 3)?使用其他核函數(shù)構建支持向量機 2.?優(yōu)化支持向量機的參數(shù) 1)?優(yōu)化參數(shù)degree 2)?優(yōu)化參數(shù)cost 3)?優(yōu)化參數(shù)gamma 3.?比較支持向量機與Logistic回歸的優(yōu)劣 4.?比較支持向量機和KNN聚類算法的優(yōu)劣 |
|
構建電影評分預測模型? |
1.?獲取數(shù)據(jù)并探索 2.?利用recommenderlab包處理數(shù)據(jù) 3.?建立模型并評估 1)?模型的選擇與建立 2)?模型之間的比較和評估 |
|
貝葉斯垃圾郵件過濾器模型? |
1.?貝葉斯模型中的條件概率 2.?復雜的數(shù)據(jù)預處理過程 1)?利用for循環(huán)讀入多封郵件正文 2)?利用tm包進一步轉換數(shù)據(jù)格式 3)?將TDM轉換成真正有用的數(shù)據(jù)框 3.?利用occurrece值構造分類器 1)?完成理論準備并處理測試郵件和普通郵件 2)?創(chuàng)建一個函數(shù)用于比較概率 |
|
可視化數(shù)據(jù)挖掘工具Rattle內置? |
1.?Rattle簡介及其安裝 1)?Rattle簡介 2)?Rattle安裝 2.?功能預覽 3.?數(shù)據(jù)導入 1)?導入CSC數(shù)據(jù) 2)?導入ARFF數(shù)據(jù) 3)?導入ODBC數(shù)據(jù) 4)?R Dataset—導入其他數(shù)據(jù)源 5)?導入RData File數(shù)據(jù)集 6)?導入Library數(shù)據(jù) 4.?數(shù)據(jù)探索 1)?數(shù)據(jù)總體概況 2)?數(shù)據(jù)分布探索 3)?相關性 4)?主成分 5)?交互圖 5.?數(shù)據(jù)建模 1)?聚類分析 2)?關聯(lián)規(guī)則 3)?決策樹 4)?隨機深林 6.?模型評估 1)?混淆矩陣 2)?風險圖 3)?ROC圖及相關圖表 4)?模型得分數(shù)據(jù)集 |
?
?
?