Plan Szkolenia

Sekcja 1: Wprowadzenie do Hadoop

  • historia i koncepcje Hadoop
  • ekosystem
  • dystrybucje
  • architektura wysokiego poziomu
  • mity związane z Hadoop
  • wyzwania związane z Hadoop
  • oprogramowanie / sprzęt
  • laboratorium: pierwszy kontakt z Hadoop

Sekcja 2: HDFS

  • projektowanie i architektura
  • koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość regału)
  • Demony: Namenode, Secondary namenode, Data node
  • komunikacja / serca
  • całość danych
  • ścieżka odczytu / zapisu
  • Namenode Wysokiej Dostępności (HA), Federacja
  • laboratoria: Współpraca z HDFS

Sekcja 3: Map Reduce

  • koncepcje i architektura
  • demony (MRV1): jobtracker / tasktracker
  • fazy: driver, mapper, shuffle/sort, reducer
  • Map Reduce wersja 1 i wersja 2 (YARN)
  • wnętrze Map Reduce
  • Wprowadzenie do programowania Map Reduce w Java
  • laboratoria: Uruchamianie przykładowego programu MapReduce

Sekcja 4: Pig

  • porównanie Pig i Java Map Reduce
  • przepływ zadania Pig
  • język Pig Latin
  • ETL z Pig
  • transformacje & łączenia
  • funkcje zdefiniowane przez użytkownika (UDF)
  • laboratoria: pisanie skryptów Pig do analizy danych

Sekcja 5: Hive

  • architektura i projektowanie
  • typy danych
  • obsługa SQL w Hive
  • tworzenie tabel Hive i zapytania
  • podziały
  • łączenia
  • przetwarzanie tekstu
  • laboratoria: różne laboratoria dotyczące przetwarzania danych z użyciem Hive

Sekcja 6: HBase

  • koncepcje i architektura
  • HBase vs RDBMS vs Cassandra
  • API Java HBase
  • dane czasowe na HBase
  • projektowanie schematu
  • laboratoria: interakcja z HBase za pomocą powłoki; programowanie w API Java HBase; ćwiczenie projektowania schematu

Wymagania

  • dobrze znający język programowania Java (większość zadań programistycznych jest w Javie)
  • komfortowo w środowisku Linux (umieć poruszać się po wierszu polecenia Linux, edytować pliki za pomocą vi / nano)

środowisko laboratoryjne

Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Dla studentów zostanie udostępniony działający klaster Hadoop.

Studenci będą potrzebować następujących:

  • klienta SSH (Linux i Mac już mają klienty SSH, dla systemu Windows polecam Putty)
  • przeglądarkę do dostępu do klastera, zalecana Firefox
 28 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (5)

Propozycje terminów

Powiązane Kategorie