課程簡介

第 1 部分:Hadoop 簡介

  • Hadoop 歷史, 概念
  • 生態系統
  • 分佈
  • 高級架構
  • Hadoop 神話
  • Hadoop 挑戰
  • 硬體 / 軟體
  • 實驗室:首先看 Hadoop

第 2 部分:HDFS

  • 設計和架構
  • 概念(水平擴展、複製、資料局部性、機架感知)
  • 守護進程:Namenode、 Secondary namenode、 Data node
  • 通信 / 心跳
  • 數據完整性
  • 讀/寫路徑
  • Namenode 高可用性 (HA),聯合
  • 實驗室:與 HDFS 交互

第 3 部分 : 映射縮減

  • 概念和架構
  • 守護進程 (MRV1):JobTracker / TaskTracker
  • 階段:驅動程式、映射器、隨機排序/排序、Reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce 的內部結構
  • Java Map Reduce 程式簡介
  • labs : 執行範例 MapReduce 程式

第4部分:豬

  • pig 與 java map reduce
  • Pig 任務流程
  • 豬拉丁語
  • 使用 Pig 的 ETL
  • 轉換與連接
  • 使用者定義函數 (UDF)
  • 實驗室 : 編寫 Pig 腳本來分析數據

第 5 部分:Hive

  • 建築與設計
  • 數據類型
  • SQL Hive 中的支援
  • 創建 Hive 表和查詢
  • 分區
  • 加入
  • 文本處理
  • 實驗室 : 使用 Hive 處理資料的各種實驗室

第 6 部分:HBase

  • 概念和 架構
  • hbase 與 RDBMS 與 Cassandra
  • HBase Java 應用程式介面
  • HBase 上的時間序列數據
  • 架構設計
  • labs : 使用 shell 與 HBase 交互;  在 HBase Java API 中程式設計;架構設計練習

最低要求

  • 熟悉 Java 程式設計語言(大多數程式設計練習都是用 Java 進行的)
  • 在 Linux 環境中舒適(能夠導航 Linux 命令行,使用 vi / nano 編輯檔)

實驗室環境

零安裝 : 無需在學生的機器上安裝 Hadoop 軟體!將為學生提供一個有效的hadoop集群。

學生將需要以下內容

  • SSH 用戶端(Linux 和 Mac 已經有 SSH 用戶端,建議使用 Windows Putty )
  • 用於訪問集群的瀏覽器。我們推薦 Firefox 瀏覽器
 28 時間:

人數


每位參與者的報價

客戶評論 (5)

Provisional Upcoming Courses (Require 5+ participants)

課程分類