所在位置:首頁 -- 技術培訓 -- 大數據培訓 -- Hadoop開發與應用

HADOOP大數據開發與應用實戰培訓


一、   課程介紹
1. 需求理解
Hadoop 設計之初的目標就定位于高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop 一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。
對電信運營商而言,用戶上網日志包含了大量用戶個性化需求、喜好信息,對其進行分析和挖掘,能更好地了解客戶需求。傳統經營分析系統小型機加關系型數據庫的架構無法滿足對海量非結構化數據的處理需求,搭建基于X86的Hadoop 平臺,引入大數據處理技術的方式,實現高效率、低成本、易擴展的經營分析系統混搭架構成為電信運營商最為傾向的選擇。本課程將全面介紹Hadoop平臺開發和運維的各項技術,對學員使用該項技術具有很高的應用價值。
2. 培訓課程架構與設計思路
(1)培訓架構:
本課程分為三個主要部分:
第一部分:重點講述大數據技術在的應用,使學員對大數據技術的廣泛應用有清晰的認識,在這環節當中會重點介紹Hadoop技術在整個大數據技術應用中的重要地位和應用情況。
第二部分:具體對hadoop技術進行模塊化分拆,從大數據文件存儲系統技術和分布式文件系統平臺及其應用談起,介紹Hadoop技術各主要應用工具和方法,以及在運維維護當中的主流做法,使學員全面了解和掌握Hadoop技術的精華。
第三部分:重點剖析大數據的應用案例,使學員在案例當中對該項技術有更深入的感觀印象
(2)設計思路:
本課程采用模塊化教學方法,以案例分析為主線,由淺入深、循序漸進、由理論到實踐操作進行設計。
(3)與企業的貼合點:
本課程結合企業轉型發展及大數據發展戰略,圍繞企業大數據業務及行業應用市場拓展發展目標,重點講授Hadoop的應用技術,提升企業IT技術人員的開發和運維能力,有很強的貼合度。

HADOOP模塊

課程主題

主要內容

案例和演示

模塊一

Hadoop在云計算技術的作用和地位

傳統大規模系統存在的問題

Hadoop概述

Hadoop分布式文件系統      

MapReduce工作原理         

Hadoop集群剖析            

Hadoop生態系統對一種新的解決方案的需求

Hadoop的行業應用案例分析

Hadoop在云計算和大數據的位置和關系

數據開放,數據云服務平臺(DAAS)時代

Hadoop平臺在數據云平臺(DAAS)上的天然優勢

數據云平臺(DAAS 平臺)組成部分

互聯網公共數據大云(DAAS)案例

Hadoop構建構建游戲云(Web Game Daas)平臺

模塊二

Hadoop生態系統介紹和演示

Hadoop HDFS 和 MapReduce

Hadoop數據庫之HBase

Hadoop數據倉庫之Hive

Hadoop數據處理腳本Pig

Hadoop數據接口Sqoop和Flume,Scribe DataX

Hadoop工作流引擎 Oozie

運用Hadoop自下而上構建大規模企業數據倉庫

暴風影音數據倉庫實戰解析

模塊三

Hadoop組件詳解

Hadoop HDFS 基本結構

Hadoop HDFS 副本存放策略

Hadoop NameNode 詳解

HadoopSecondaryNameNode 詳解

Hadoop DataNode 詳解

Hadoop JobTracker 詳解

Hadoop TaskTracker 詳解

Hadoop Mapper類核心代碼

Hadoop Reduce類核心代碼

Hadoop 核心代碼

模塊四

Hadoop安裝和部署

Hadoop系統模塊組件概述

Hadoop試驗集群的部署結構

Hadoop 安裝依賴關系

Hadoop 生產環境的部署結構

Hadoop集群部署

Hadoop 高可用配置方法

Hadoop 集群簡單測試方法

Hadoop 集群異常Debug方法

Hadoop安裝部署實驗

Red hat Linux基礎環境搭建

Hadoop 單機系統版本安裝配置

Hadoop 集群系統版本安裝和啟動配置

使用 Hadoop MapReduce Streaming 快速測試系統

Hadoopcore-site,hdfs-site,mapred-site 配置詳解

模塊五

Hadoop集群規劃

Hadoop 集群內存要求

Hadoop集群磁盤分區

集群和網絡拓撲要求

集群軟件的端口配置

針對NameNode Jobtracker DataNode TaskTracker Hiveserver 等不同組件需求推薦服務器配置

模塊六

MapReduce 算法原理

Hadoop MapReduce 算法的原理和優化思想

靈活運用MapReduce 實現算法

運用MapReduce 構建數據庫算法

Select Sort GrougBy Sum Count

Join 新進流失算法

使用 Y-Smart 快速轉換SQL 為MapReduce 代碼

模塊七

編寫MapReduce高級程序

使用 Hadoop MapReduce Streaming 編程

MapReduce流程          

剖析一個MapReduce程序

基本MapReduceAPI概念  

驅動代碼 Mapper、Reducer

Hadoop流

API 使用Eclipse進行快速開發               

新MapReduce API

MapReduce的優化

MapReduce的任務調度

MapReduce編程實戰

如何利用其他Hadoop相關技術,包括Apache Hive, Apache Pig,Sqoop和Oozie等

滿足解決實際數據分析問題的高級Hadoop API

Hadoop Streaming 和 Java MapReduce Api 差異。

MapReduce 實現數據庫功能

利用Combiners來減少中間數據

編寫Partitioner來優化負載平衡

直接訪問Hadoop分布式文件系統(HDFS)

Hadoop的join操作

輔助排序在Reducer方的合并

定制Writables和WritableComparables

使用SequenceFiles和Avro文件保存二進制數據

創建InputFormats OutputFormats

Hadoop的二次排序

Hadoop的海量日志分析

在Map方的合并       

模塊八

集成Hadoop到現有工作流

及Hadoop API深入探討

存儲系統

利用Sqoop從關系型數據庫系統中導入數據到Hadoop

利用Flume導入實時數據到Hadoop

ToolRunner介紹、使用MRUnit進行測試

使用Configure和Close方法來進行Map/Reduce設置和關閉

使用FuseDFS和Hadoop訪問HDFS

使用分布式緩存(Distributed Cache)

直接訪問Hadoop分布式文件系統(HDFS)

利用Combiners來減少中間數據

編寫Partitioner來優化負載平衡  

模塊九

使用Hive和Pig開發及技巧

Hive和Pig基礎              

Hive的作用和原理說明

Hadoop倉庫和傳統數據倉庫的協作關系

Hadoop/Hive倉庫數據數據流

Hive 部署和安裝

Hive Cli 的基本用法

HQL基本語法

運用Pig 過濾用戶數據  

使用JDBC 連接Hive進行查詢和分析

使用正則表達式加載數據

HQL高級語法

編寫UDF函數

編寫UDAF自定義函數

基于Hive腳本內嵌Streaming 編程

模塊十

Hbase安裝和使用

Hbase 安裝部署            

Hbase原理和結構

Hbase 運維和管理

使用Hbase+Hive 提供 OLAP SQL查詢能力

使用Hbase+Phoenix提供 OLTP SQL能力

基于Hbase 的時間序列數據庫 OpenTsDb 結構解析

模塊十一

Hadoop2.0 集群探索

Hadoop2.0 HDFS 原理

Hadoop2.0 Yarn 原理

Hadoop2.0 生態系統

基于Hadoop2.0 構建分布式系統

模塊十二

Hadoop企業級別案例解析

Hadoop 結構化數據案例

Hadoop 非結構化案例

Hbase 數據庫案例

Hadoop 視頻分析案例

利用大數據分析改進交通管理

區域醫療大數據應用案例

銀聯大數據數據票據詳單平臺

廣東移動省公司請賬單系統

上海電信網絡優化

某通信運營商全國用戶上網記錄

浙江臺州市智能交通系統

移動廣州詳單實時查詢系統


中国比特币暴涨 码王论坛 黑龙江时时中奖设置 白姐免费统一库图 北京賽车52 网易买老时时行吗 开奖平特结果中 2彩票网址 黑龙江时时550 分分赛记录 香港精英三中三平特 江苏快3开奖结果走势图 3d开机号走势图今天晚上 新时时停止销售 11选5彩票助手ios版 三十元的刮刮乐中奖图片 秒速时时7码计划