<thead id="fflbj"><font id="fflbj"><cite id="fflbj"></cite></font></thead>
    <progress id="fflbj"><thead id="fflbj"><font id="fflbj"></font></thead></progress>

            曙海教育集團
            全國報名免費熱線:4008699035 微信:shuhaipeixun
            或15921673576(微信同號) QQ:1299983702
            首頁 課程表 在線聊 報名 講師 品牌 QQ聊 活動 就業
             
            大數據Hadoop生態體系課程培訓

             
              班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)
                  每個班級的人數限3到5人,互動授課, 保障效果,小班授課。
              上間和地點
            上部份地點:【上?!客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】:電影大廈(地鐵一號線大劇院站)/深圳大學成教院【北京分部】:北京中山學院/福鑫大樓【南京分部】:金港大廈(和燕路)【武漢分部】:佳源大廈(高新二路)【成都分部】:領館區1號(中和大道)【沈陽分部】:沈陽理工大學/六宅臻品【鄭州分部】:鄭州大學/錦華大廈【石家莊分部】:河北科技大學/瑞景大廈
            最近開間(周末班/連續班/晚班):2019年1月26日
              實驗設備
                ◆小班教學,教學效果好
                   
                   ☆注重質量☆邊講邊練

                   ☆合格學員免費推薦工作
                   ★實驗設備請點擊這兒查看★
              質量保障

                   1、培訓過程中,如有部分內容理解不透或消化不好,可免費在以后培訓班中重聽;
                   2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
                   3、培訓合格學員可享受免費推薦就業機會?!詈细駥W員免費頒發相關工程師等資格證書,提升職業資質。專注高端技術培訓15年,端海學員的能力得到大家的認同,受到用人單位的廣泛贊譽,端海的證書受到廣泛認可。

            部份程大綱
             
            • 01 大數據概論 & Hadoop生態
              大數據概念
              大數據的特點(4V)
              大數據應用場景
              大數據發展前景
              大數據部門業務流程分析
              大數據部門組織結構(重點)
              Hadoop是什么
              Hadoop發展歷史
              Hadoop三大發行版本
              Hadoop的優勢(4高)
              02 Hadoop入門
              Hadoop組成
              HDFS架構概述
              YARN架構概述
              MapReduce架構概述
              大數據技術生態體系
              推薦系統框架圖
              Hadoop運行環境搭建
              虛擬機環境準備
              安裝JDK、安裝Hadoop
              Hadoop目錄結構
              03 Hadoop運行模式
              本地運行模式
              官方Grep案例
              官方WordCount案例
              偽分布式運行模式
              啟動HDFS并運行MapReduce程序
              啟動YARN并運行MapReduce程序
              配置歷史服務器
              配置日志的聚集
              配置文件說明
              完全分布式運行模式
              04 完全分布式模式&源碼編譯
              虛擬機準備
              編寫集群分發腳本xsync
              集群配置
              集群單點啟動
              SSH無密登錄配置
              群起集群
              集群啟動/停止方式總結
              集群時間同步
              Hadoop編譯源碼
              常見錯誤及解決方案
              05 HDFS入門
              HDFS概述
              HDFS產出背景及定義
              HDFS優缺點
              HDFS組成架構
              HDFS文件塊大小
              HDFS的Shell操作
              HDFS客戶端操作
              HDFS客戶端環境準備
              HDFS的API操作
              HDFS文件上傳

              06 HDFS的API操作
              HDFS文件下載
              HDFS文件夾刪除
              HDFS文件名更改
              HDFS文件詳情查看
              HDFS文件和文件夾判斷
              HDFS的I/O流操作
              HDFS文件上傳
              HDFS文件下載
              07 HDFS的框架原理
              定位文件讀取
              HDFS的數據流
              HDFS寫數據流程
              剖析文件寫入
              網絡拓撲-節點距離計算
              機架感知
              副本存儲節點選擇
              HDFS讀數據流程
              08 NN & DN工作機制
              NameNode&2NN工作機制
              Fsimage和Edits解析
              CheckPoint時間設置
              NameNode故障處理
              集群安全模式
              NameNode多目錄配置
              DataNode工作機制
              數據完整性
              09 DN工作機制&新特性
              掉線時限參數設置
              服役新數據節點
              退役舊數據節點
              添加白名單
              黑名單退役
              Datanode多目錄配置
              HDFS 2.X新特性
              集群間數據拷貝
              10 新特性& HA框架原理
              小文件存檔
              回收站
              快照管理
              HA概述
              HDFS-HA工作機制
              HDFS-HA工作要點
              HDFS-HA自動故障轉移工作機制
              HDFS-HA集群配置
              第三階段
              大數據Hadoop生態體系
              11 HDFS-HA集群配置
              環境準備
              規劃集群
              配置Zookeeper集群
              配置HDFS-HA集群
              啟動HDFS-HA集群
              配置HDFS-HA自動故障轉移
              YARN-HA配置
              YARN-HA工作機制
              配置YARN-HA集群
              HDFS Federation架構設計
              12 MapReduce框架原理
              MapReduce核心思想
              MapReduce進程
              MapReduce編程規范(八股文)
              MapReduce程序運行流程分析
              MapReduce工作流程
              常用數據序列化類型
              自定義bean對象實現序列化接口
              FileInputFormat切片機制
              CombineTextInputFormat切片機制
              自定義InputFormat
              13 Shuffle機制
              MapTask工作機制
              并行度決定機制
              Shuffle機制
              Partition分區
              WritableComparable排序
              GroupingComparator分組(輔助排序)
              Combiner合并
              數據傾斜&Distributedcache
              ReduceTask工作機制
              自定義OutputFormat
              14 數據壓縮 & Yarn
              MapReduce支持的壓縮編碼
              采用壓縮的位置
              壓縮配置參數
              計數器應用、數據清洗
              Yarn基本架構、工作機制
              Yarn資源調度器、任務推測執行
              MapReduce作業提交全過程
              MapReduce開發總結
              MapReduce參數優化
              企業高頻真題講解20道
              15 MapReduce案例(一)
              案例一:統計一堆文件中單詞出現的個數
              案例二:把單詞按照ASCII碼奇偶分區
              案例三:對每一個maptask的輸出局部匯總
              案例四:大量小文件的切片優化
              案例五:統計手機號耗費的流量
              案例六:按照手機歸屬地不同省份輸出到不同文件中
              案例七:按照總流量倒序排序
              案例八:不同省份輸出文件內部排序
              案例九:求每個訂單中最貴的商品
              案例十:Reduce端表合并(數據傾斜)

              16 MapReduce案例(二)
              案例十一:Map端表合并(Distributedcache)
              案例十二:小文件處理(自定義InputFormat)
              案例十三:自定義日志輸出路徑(自定義OutputFormat)
              案例十四:日志清洗(數據清洗)
              案例十五:倒排索引(多job串聯)
              案例十六:找博客共同好友分析
              案例十七:對數據流的壓縮和解壓縮
              案例十八:在Map輸出端采用壓縮
              案例十九:在Reduce輸出端采用壓縮
              案例二十:TopN案例
              17 Zookeeper原理
              Zookeeper概述、特點
              Zookeeper數據結構
              Zookeeper應用場景
              Zookeeper下載地址
              Zookeeper本地模式安裝
              配置參數解讀
              Zookeeper內部原理
              Zookeeper選舉機制
              Zookeeper節點類型
              Stat結構體
              18 Zookeeper原理&實戰
              監聽器原理、寫數據流程
              分布式安裝部署
              客戶端命令行操作
              API應用環境搭建
              創建ZooKeeper客戶端案例
              創建子節點案例
              獲取子節點并監聽節點變化案例
              判斷Znode是否存在案例
              監聽服務器節點動態上下線案例
              企業高頻真題講解3道
              19 Hive入門&安裝
              什么是Hive
              Hive的優缺點
              Hive架構原理
              Hive和數據庫比較
              Hive安裝地址
              Hive安裝部署
              將本地文件導入Hive案例
              MySql安裝
              安裝MySql服務器
              安裝MySql客戶端
              20 Hive遠程連接
              MySql中user表中主機配置
              Hive元數據配置到MySql
              驅動拷貝
              配置Metastore到MySql
              多窗口啟動Hive測試
              HiveJDBC訪問
              啟動hiveserver2服務
              啟動beeline
              連接hiveserver2
              Hive常用交互命令
              第三階段
              大數據Hadoop生態體系
              21 Hive命令 & 數據類型
              Hive其他命令操作
              Hive常見屬性配置
              Hive數據倉庫位置配置
              Hive查詢后信息顯示配置
              Hive運行日志信息配置
              參數配置方式
              Hive數據類型
              Hive基本數據類型
              Hive集合數據類型
              類型轉化
              22 Hive DDL數據定義
              創建數據庫
              查詢數據庫
              修改數據庫
              刪除數據庫
              創建管理表
              創建外部表
              管理表與外部表的互相轉換
              分區表基本操作
              分區表注意事項
              修改表、刪除表
              23 Hive DML數據操作
              向表中裝載數據(Load)
              通過查詢語句向表中插入數據(Insert)
              查詢語句中創建表并加載數據(as select)
              創建表時通過location指定加載數據路徑
              Import數據到指定hive表中
              Insert導出
              Hadoop命令導出到本地
              Hive Shell 命令導出
              Export導出到HDFS上
              清除表中數據(Truncate)
              24 Hive查詢
              全表和特定列查詢
              列別名
              算術運算符、常用函數
              LIMIT語句
              WHERE語句
              比較運算符(BETWEEN/IN/ IS NULL)
              LIKE和RLIKE
              邏輯運算符(AND/OR/NOT)
              分組、GROUP BY語句
              HAVING語句
              25 Hive JOIN & 排序
              等值JOIN & 表的別名
              內連接
              左外連接、右外連接
              滿外連接、多表連接
              笛卡爾積 JOIN
              全局排序(Order By)
              按照別名排序、多個列排序
              每個MapReduce內部排序(Sort By)
              分區排序(Distribute By)
              CLUSTER BY

              26 Hive分桶 & 函數
              分桶表數據存儲
              分桶抽樣查詢
              常用查詢函數
              空字段賦值
              CASE WHEN
              行轉列
              列轉行
              窗口函數
              Rank
              系統內置函數
              27 Hive函數 & 壓縮 & 存儲
              自定義UDF、UDAF、UDTF函數
              壓縮和存儲
              源碼編譯支持Snappy壓縮
              開啟Map輸出階段壓縮
              開啟Reduce輸出階段壓縮
              列式存儲和行式存儲
              TextFile格式、Orc格式
              Parquet格式
              主流文件存儲格式對比實驗
              存儲和壓縮結合案例
              28 企業級調優
              Fetch抓取
              本地模式
              表的優化
              小表、大表Join
              大表Join大表
              MapJoin
              Group By
              Count(Distinct) 去重統計
              笛卡爾積
              行列過濾
              29 Hive企業級調優(二)
              動態分區調整
              分桶、分區
              Map數
              小文件進行合并
              復雜文件增加Map數
              Reduce數
              并行執行、嚴格模式
              JVM重用、推測執行
              壓縮
              EXPLAIN(執行計劃)
              30 企業級調優 & 項目實戰
              項目視頻表
              項目用戶表
              項目技術選型
              數據清洗
              數據分析
              ETL之ETLUtil
              ETL之Mapper
              ETL之Runner
              執行ETL
              項目數據準備
              第三階段
              大數據Hadoop生態體系
              31 Hive項目實戰&企業真題
              統計視頻觀看數Top10
              統計視頻類別熱度Top10
              統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數
              統計視頻觀看數Top50所關聯視頻的所屬類別Rank
              統計每個類別中的視頻熱度Top10,以Music為例
              統計每個類別中視頻流量Top10,以Music為例
              統計上傳視頻最多的用戶Top10以及他們上傳的觀看次數在前20的視頻
              統計每個類別視頻觀看數Top10
              項目總結
              企業高頻真題講解2道
              32 Cloudera Manager & Impala
              CM概念
              CM功能
              CM環境準備
              CM安裝部署
              CM案例實操
              Impala入門
              什么是Impala
              Impala優缺點
              Impala架構
              Impala下載地址
              33 Impala安裝
              Impala安裝方式
              Impala監護管理
              Impala初體驗
              Impala的操作命令
              Impala的外部shell
              Impala的內部shell
              Impala的數據類型
              DDL數據定義
              創建數據庫
              查詢數據庫
              34 Impala操作
              創建管理表、外部表
              創建分區表
              向表中導入數據
              查詢分區表中的數據
              增加多個分區
              刪除分區、查看分區
              數據導入、導出
              自定義函數
              存儲和壓縮
              優化
              35 IDEA
              IDEA介紹
              Windows下安裝過程
              啟動應用后簡單配置
              創建工程
              設置顯示常見的視圖
              工程界面展示
              創建package和class
              設置常用配置20項
              設置快捷鍵、自定義模板
              關聯Tomcat、Web項目案例實操

              36 數據采集框架Flume
              Flume定義
              Flume組成架構
              Flume拓撲結構
              Flume Agent內部原理
              Flume事務
              Flume快速入門
              Flume下載地址、安裝部署
              案例一:監控端口數據官方案例
              案例二:實時讀取本地文件到HDFS案例
              案例三:實時讀取目錄文件到HDFS案例
              37 Flume高級
              案例四:單數據源多出口案例(選擇器)
              案例五:單數據源多出口案例(Sink組)
              案例六:多數據源匯總案例
              自定義組件
              案例七:自定義Source案例
              案例八:自定義Sink案例
              Flume監控之Ganglia
              Ganglia的安裝與部署
              操作Flume測試監控
              企業高頻真題講解6道
              38 Kafka入門
              消息隊列
              為什么需要消息隊列
              什么是Kafka
              Kafka架構
              環境準備
              Kafka集群部署
              Kafka命令行操作
              Kafka工作流程分析
              數據寫入方式
              數據分區(Partition)
              39 Kafka原理
              數據副本(Replication)
              數據寫入流程
              數據保存
              存儲方式
              存儲策略
              Zookeeper存儲
              本地存儲
              數據消費
              高級API
              低級API
              40 Kafka高級
              消費者組
              消費方式
              消費者組案例
              Kafka生產者Java API
              創建生產者(新API)
              創建生產者帶回調函數(新API)
              自定義分區生產者
              Kafka消費者高級API
              Kafka消費者低級API
              Kafka攔截器原理及案例
              第三階段
              大數據Hadoop生態體系
              41 Kafka高級
              Kafka監控
              KafkaManager
              KafkaMonitor
              Kafka進階
              分區分配策略
              Range Strategy
              RoundRobin Strategy
              高可靠性存儲
              Kafka文件存儲機制
              復制原理和同步方式

              42 Kafka高級 & 面試題
              ISR
              數據可靠性和持久性保證
              框架整合
              Kafka與Flume比較
              Flume與Kafka集成
              Kafka Streams簡介
              Kafka Streams特點
              為什么要有Kafka Stream
              Kafka Stream數據清洗案例
              企業高頻真題10道

              43 HBase原理及安裝
              HBase的角色
              HBase的架構
              HBase部署與使用
              HBase基本操作
              HBase表的操作
              HBase讀數據流程
              HBase寫數據流程
              HBase JavaAPI
              安裝Maven并配置環境變量
              新建Maven Project
              編寫HBaseAPI程序
              44 HBase集成及運維
              官方HBase-MapReduce
              自定義HBase-MapReduce1
              自定義HBase-MapReduce2
              HBase與Hive的對比
              HBase與Hive集成使用
              與Sqoop的集成
              常用的Shell操作
              數據的備份與恢復
              節點的服役
              節點的退役
              版本的確界
              45 HBase企業級優化
              HBase高可用
              Hadoop的通用性優化
              Linux優化
              Zookeeper優化
              HBase優化
              HBase預分區優化
              RowKey設計
              內存優化
              基礎優化
              HBase在商業項目中的能力
              HBase2.0新特性

              46 HBase微博項目
              微博系統需求分析
              微博系統代碼設計
              創建命名空間以及表名的定義
              創建微博內容表
              創建用戶關系表
              發布微博內容
              添加關注用戶
              移除(取關)用戶
              獲取關注的人的微博內容
              測試
              47 Sqoop
              Sqoop原理、安裝
              導入數據
              RDBMS到HDFS
              RDBMS到Hive
              導出數據
              HIVE/HDFS到RDBMS
              腳本打包、常用命令列舉
              命令&參數詳解
              Sqoop的案例實操

              48 Azkaban
              各種調度工具特性對比
              Azkaban與Oozie對比
              Azkaban特點
              Azkaban下載地址
              Azkaban安裝部署
              案例一:Command類型之單一job
              案例二:Command類型之多job工作流
              案例三:HDFS操作任務調度
              案例四:MapReduce任務調度
              案例五:Hive腳本任務調度
              49 Oozie
              Oozie框架原理
              Oozie的功能模塊
              Oozie的常用節點
              Oozie的安裝部署
              案例一:Oozie調度shell腳本
              案例二:Oozie邏輯調度執行多個Job
              案例三:Oozie調度MapReduce任務
              案例四:Oozie定時任務/循環任務


              50 HUE
              HUE簡介
              HUE安裝
              案例一:HUE與HDFS集成案例
              案例二:HUE與YARN集成案例
              案例三:HUE與Hive集成案例
              案例四:HUE與Mysql集成案例
              案例五:HUE與Oozie集成案例
              案例六:HUE與HBase集成案例
              案例七:HUE與Zookeeper集成案例
              案例八:HUE與Sqoop2集成案例
              第三階段
              大數據Hadoop生態體系
              51 Git&Git Hub
              Git安裝配置
              Git本地庫搭建
              Git常用操作命令
              Github注冊與配置
              Github與Git協同辦公
              TortoiseGit安裝配置
              Egit操作push/pull,
              Git工作流
              集中式&GitFlow&Forking
              52 ETL數據清洗工具Kettle
              Kettle入門
              Kettle安裝
              Kettle使用
              案例一:日志文件導數據到Hive
              案例二:MySQL導數據到Hive
              案例三:Hive導數據到Hive
              案例四:Hive導數據到HBase
              案例五:Hive導數據到ES

              53 Kylin
              Kylin應用場景
              Kylin工作原理
              Kylin體系架構
              Kylin集群環境
              為Kylin集群搭建負載均衡器
              Sample Cube案例
              Cube創建案例
              查詢Cube
              Kylin的元數據、垃圾清理
              54 Storm原理
              Storm應用場景及行業案例
              Storm特點、編程模型
              元組(Tuple)、流(Stream)
              水龍頭(Spout)、轉接頭(Bolt)
              拓撲(Topology)
              主控節點與工作節點
              流分組(Stream grouping)
              工作進程(Worker)
              spout的tail特性
              55 Storm案例
              執行器(Executor)、任務(Task)
              實時流計算常見架構圖
              Storm集群規劃、集群搭建
              Storm命令行操作
              分組策略和并發度
              網站日志處理案例
              實時單詞統計案例
              實時計算網站PV案例
              實時計算網站UV去重案例
             

            -

             

              備案號:備案號:滬ICP備08026168號-1 .(2024年07月24日)...............
            538在线视频二三区视视频