Plan Szkolenia
Sekcja 1: Wprowadzenie do Hadoop
- historia i koncepcje Hadoop
- ekosystem
- dystrybucje
- architektura wysokiego poziomu
- mity związane z Hadoop
- wyzwania związane z Hadoop
- oprogramowanie / sprzęt
- laboratorium: pierwszy kontakt z Hadoop
Sekcja 2: HDFS
- projektowanie i architektura
- koncepcje (skalowanie poziome, replikacja, lokalizacja danych, świadomość regału)
- Demony: Namenode, Secondary namenode, Data node
- komunikacja / serca
- całość danych
- ścieżka odczytu / zapisu
- Namenode Wysokiej Dostępności (HA), Federacja
- laboratoria: Współpraca z HDFS
Sekcja 3: Map Reduce
- koncepcje i architektura
- demony (MRV1): jobtracker / tasktracker
- fazy: driver, mapper, shuffle/sort, reducer
- Map Reduce wersja 1 i wersja 2 (YARN)
- wnętrze Map Reduce
- Wprowadzenie do programowania Map Reduce w Java
- laboratoria: Uruchamianie przykładowego programu MapReduce
Sekcja 4: Pig
- porównanie Pig i Java Map Reduce
- przepływ zadania Pig
- język Pig Latin
- ETL z Pig
- transformacje & łączenia
- funkcje zdefiniowane przez użytkownika (UDF)
- laboratoria: pisanie skryptów Pig do analizy danych
Sekcja 5: Hive
- architektura i projektowanie
- typy danych
- obsługa SQL w Hive
- tworzenie tabel Hive i zapytania
- podziały
- łączenia
- przetwarzanie tekstu
- laboratoria: różne laboratoria dotyczące przetwarzania danych z użyciem Hive
Sekcja 6: HBase
- koncepcje i architektura
- HBase vs RDBMS vs Cassandra
- API Java HBase
- dane czasowe na HBase
- projektowanie schematu
- laboratoria: interakcja z HBase za pomocą powłoki; programowanie w API Java HBase; ćwiczenie projektowania schematu
Wymagania
- dobrze znający język programowania Java (większość zadań programistycznych jest w Javie)
- komfortowo w środowisku Linux (umieć poruszać się po wierszu polecenia Linux, edytować pliki za pomocą vi / nano)
środowisko laboratoryjne
Zero Install : Nie ma potrzeby instalowania oprogramowania Hadoop na komputerach studentów! Dla studentów zostanie udostępniony działający klaster Hadoop.
Studenci będą potrzebować następujących:
- klienta SSH (Linux i Mac już mają klienty SSH, dla systemu Windows polecam Putty)
- przeglądarkę do dostępu do klastera, zalecana Firefox
Opinie uczestników (5)
Przykłady w czasie rzeczywistym
Ahmet Bolat - Accenture Industrial SS
Szkolenie - Python, Spark, and Hadoop for Big Data
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
Projekt do samodzielnego przygotowania, interesujący przykład DevOps-owej pacy z Ambari, wsparcie trenera (logowanie na maszynę wirtualną, dobra i bezpośrednia komunikacja)
Bartlomiej Krasinski - Rossmann SDP
Szkolenie - HBase for Developers
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
Praktyczne sprawy zostały dobrze wykonane, a także teoria została dobrze przedstawiona przez Ajaya.
Dominik Mazur - Capgemini Polska Sp. z o.o.
Szkolenie - Hadoop Administration on MapR
Przetłumaczone przez sztuczną inteligencję