哪里有蘇州上海大數據平臺搭建培訓學校蘭州青島石家莊煙臺沈陽深圳成都南京蘇州杭州

全國報名免費熱線：4008699035 微信：shuhaipeixun
或15921673576（微信同號） QQ:1299983702

首頁課程表在線聊報名講師品牌 QQ聊活動就業

大數據平臺搭建培訓

班級規模及環境--熱線:4008699035 手機:15921673576( 微信同號)

每期人數限3到5人。

上課時間和地點

開課地址：【上?！客瑵髮W(滬西)/新城金郡商務樓(11號線白銀路站)【深圳分部】：電影大廈(地鐵一號線大劇院站) 【武漢分部】：佳源大廈【成都分部】：領館區1號【沈陽分部】：沈陽理工大學【鄭州分部】：錦華大廈【石家莊分部】：瑞景大廈【北京分部】：北京中山學院【南京分部】：金港大廈
最新開班 (連續班、周末班、晚班）：2020年3月16日

實驗設備

　    ☆資深工程師授課

        ☆注重質量 ☆邊講邊練
        ☆合格學員免費推薦工作
        ★實驗設備請點擊這兒查看★

質量保障

        1、培訓過程中，如有部分內容理解不透或消化不好，可免費在以后培訓班中重聽；
        2、培訓結束后,授課老師留給學員聯系方式,保障培訓效果,免費提供課后技術支持。
        3、培訓合格學員可享受免費推薦就業機會。

課程大綱

大數據技術基礎

1. 大數據的產生背景與發展歷程

2. 大數據的4V特征，以及與云計算的關系

3. 大數據應用需求以及潛在價值分析

4. 業界蕞新的大數據技術發展態勢與應用趨勢

5. 大數據思維的轉變

6. 大數據項目的系統與技術選型，及落地實施的挑戰

7. “互聯網+”時代下的電子商務、制造業、交通行業、電信運營商、銀行金融業、電子政務、移動互聯網、教育信息化等行業應用實踐與應用案例介紹

業界主流的大數據技術方案

1. 大數據軟硬件系統全棧與關鍵技術介紹

2. 大數據生態系統全景圖

3. 主流的大數據解決方案介紹

4. Apache大數據平臺方案剖析

5. CDH大數據平臺方案剖析

6. HDP大數據平臺方案剖析

7. 基于云的大數據平臺方案剖析

8. 大數據解決方案與傳統數據庫方案比較

9. 國內外大數據平臺方案與廠商對比

大數據計算模型（一）——批處理MapReduce

1. MapReduce產生背景與適用場景

2. MapReduce計算模型的基本原理

3. MapReduce作業執行流程

4. MapReduce編程模型: Map處理和Reduce處理

5. MapReduce處理流程：數據讀取collect、中間數據sort、中間數據spill、中間數據shuffle、聚合分析reduce

6. MapReduce開發高級應用：Combiner技術與應用場景、Partitioner技術與應用場景、多Reducers應用

7. MapReduce開發與應用實戰：Hadoop平臺搭建與運行；MapReduce安裝與部署；

8. 應用案例：基于HDFS+MapReduce集成的服務器日志分析采集、存儲與分析MapReduce程序實例開發與運行

9. MapReduce參數調優與性能優化技巧

大數據存儲系統與應用實踐

1. 分布式文件系統HDFS產生背景與適用場景

2. HDFS master-slave系統架構與讀寫工作原理

3. HDFS核心組件技術講解，NameNode與fsimage、editslog，DataNode與數據塊

4. HDFS Federation機制，viewfs機制，使用場景講解

5. HDFS高可用保證機制，SecondaryNameNode，NFS冷備份，基于zookeeper的HA方案

6. HDFS參數調優與性能優化

大數據實戰練習一

1. Hadoop平臺搭建、部署與應用實踐，包含HDFS分布式文件系統，YARN資源管理軟件，MapReduce計算框架軟件

2. HDFS 文件、目錄創建、上傳、下載等命令操作，HDFS合并、歸檔操作，HDFS監控平臺使用

3. MapReduce程序在YARN上運行，YARN監控平臺使用

Hadoop框架與生態發展，以及應用實踐操作

1. Hadoop的發展歷程

2. Hadoop 1.0的核心組件JobTracker，TaskTracker，以及適用范圍

3. Hadoop 2.0的核心組件YARN工作原理，以及與Hadoop 1.0的聯系與區別

4. Hadoop關鍵機制：任務推測執行，任務容錯，任務選擇執行，心跳機制

5. Hadoop YARN的資源管理與作業調度機制：FIFO調度，Capacity調度器，Fair調度器

6. Hadoop 常用參數調優與性能優化技術

大數據計算模型（二）——實時處理/內存計算 Spark

1. MapReduce計算模型的瓶頸

2. Spark產生動機、基本概念與適用場景

3. Spark編程模型與RDD彈性分布式數據集的工作原理與機制

4. Spark實時處理平臺運行架構與核心組件

5. Spark RDD主要Transformation：map, flatMap, filter, union, sample, join, reduceByKey, groupByKey

6. Spark RDD主要action：count，collect，reduce，saveAsTextFile

7. Spark寬、窄依賴關系與DAG圖分析

8. Spark容錯機制

9. Spark作業調度機制

10. Spark緩存機制：Cache操作，Persist操作與存儲級別

11. Spark作業執行機制：執行DAG圖、任務集、executor執行模型、 BlockManager管理

12. Spark standardalone，Spark on YARN運行模式

13. Scala開發介紹與Spark常用Transformation函數介紹

14. Spark調優：序列化機制、RDD復用、Broadcast機制、高性能算子、資源參數調優

大數據倉庫查詢技術Hive、SparkSQL、Impala，以及應用實踐

1. 基于MapReduce的大型分布式數據倉庫Hive基礎知識與應用場景

2. Hive數據倉庫的平臺架構與核心技術剖析

3. Hive metastore的工作機制與應用

4. Hive內部表和外部表

5. Hive 分區、分桶機制

6. Hive行、列存儲格式

7. 基于Spark的大型分布式數據倉庫SparkSQL基礎知識與應用場景

8. Spark SQL實時數據倉庫的實現原理與工作機制

9. SparkSQL數據模型DataFrame

10. SparkSQL程序開發與

11. SparkSQL數據讀取與結果保存：json，Hive table，Parquet file，RDD

12. SparkSQL和Hive的區別與聯系

13. SparkSQL操作實戰

14. 基于MPP的大型分布式數據倉庫Impala基礎知識與應用場景

15. Impala實時查詢系統平臺架構、關鍵技術介紹，以及與Hive，SparkSQL的對比

Hadoop集群運維監控工具

1. Hadoop運維管理監控系統Ambari工具介紹

2. 第三方運維系統與工具Ganglia, Nagios

大數據實戰練習二

1. 基于 Hadoop平臺搭建、部署與配置Spark集群，Spark shell環境實踐操作，Spark案例程序分析

2. 基于sbt的Spark程序編譯、開發與提交運行

3. 應用案例一：基于Spark的服務器運行日志TopN分析、程序實例開發

4. 應用案例二：基于Spark的搜索引擎日志熱詞與用戶分析、程序實例開發

5. 基于MapReduce的Hive數據倉庫實踐，Hive集群安裝部署，基于文件的Hive數據倉庫表導入導出與分區操作，Hive SQL操作，Hive客戶端操作

6. SparkSQL shell實踐操作：數據表讀取、查詢與結果保存

大數據計算模型（三）——流處理Storm, SparkStreaming

1. 流數據處理應用場景與流數據處理的特點

2. 流數據處理工具Storm的平臺架構與集群工作原理

3. Storm關鍵技術與并發機制

4. Storm編程模型與基本開發模式

5. Storm數據流分組

6. Storm可靠性保證與Acker機制

7. Storm應用案例分析

8. 流數據處理工具Spark Streaming基本概念與數據模型

9. SparkStreaming工作機制

10. SparkStreaming程序開發介紹

11. SparkStreaming的全局統計和窗口函數

12. Storm與SparkStreaming的對比

13. SparkStreaming開發案例：基于文件流的SparkStreaming程序開發；基于socket消息的SparkStreaming程序開發

大數據與機器學習技術

1. 機器學習發展歷程

2. 機器學習與大數據關聯與區別

3. 數據挖掘經典算法

4. 預測算法：線性回歸與應用場景，非線性回歸與應用場景

5. 分類算法：邏輯回歸與應用場景，決策樹與應用場景，樸素貝葉斯算法與應用場景，支持向量機算法與應用場景

6. 聚類算法； k-means與應用場景

7. 基于Hadoop的大數據機器學習技術

8. 基于MapReduce的機器學習庫Mahout

9. Mahout支持的數據挖掘算法

10. Mahout編程模型與發

11. 基于Spark的機器學習庫Spark MLlib

12. Spark MLlib支持的數據挖掘算法

13. Spark MLlib編程模型與開發：基于Spark MLlib的文本分類，基于Spark MLlib的聚類

大數據ETL操作工具，與大數據分布式采集系統

1. Hadoop與DBMS之間數據交互工具的應用

2. Sqoop導入導出數據的工作原理

3. Flume-NG數據采集系統的數據流模型與系統架構

4. Kafka分布式消息訂閱系統的應用介紹與平臺架構，及其使用模式

面向OLTP型應用的NoSQL數據庫及應用實踐

1. 關系型數據庫瓶頸，以及NoSQL數據庫的發展，概念，分類，及其在半結構化和非結構化數據場景下的適用范圍

2. 列存儲NoSQL數據庫HBase簡介與數據模型剖析

3. HBase分布式集群系統架構與讀寫機制，ZooKeeper分布式協調服務系統的工作原理與應用

4. HBase表設計模式與primary key設計規范

5. 文檔NoSQL數據庫MongoDB簡介與數據模型剖析

6. MongoDB集群模式、讀寫機制與常用API操作

8.鍵值型NoSQL數據庫Redis簡介與數據模型剖析

9.Redis多實例集群架構與關鍵技術

10.NewSQL數據庫技術簡介及其適用場景

大數據實戰練習三

1.Sqoop安裝、部署與配置，基于Sqoop、MySQL與Hive操作MySQL數據庫與Hive數據倉庫數據導入導出

2.Kafka安裝、部署與配置，基于Kafka創建和消費topic實踐操作

3.Flume+HDFS+MapReduce/Spark大數據采集、存儲與分析實踐操作

備案號：備案號:滬ICP備08026168號-1

.(2024年07月24日)....................

538在线视频二三区视视频