Plan Szkolenia

Wprowadzenie

  • Apache Beam vs MapReduce, Spark Streaming, Kafka Streaming, Storm i Flink

Instalacja i konfiguracja Apache Beam

Przegląd funkcji i architektury Apache Beam

  • Model Beam, zestawy SDK, narzędzia Beam Pipeline Runners
  • Zaplecze przetwarzania rozproszonego

Zrozumienie modelu Apache Beam Programming

  • Jak wykonywany jest potok

Uruchamianie przykładowego potoku

  • Przygotowanie potoku Word
  • Wykonywanie potoku lokalnie

Projektowanie potoku

  • Planowanie struktury, wybieranie przekształceń oraz określanie metod wejściowych i wyjściowych

Tworzenie potoku

  • Pisanie programu sterownika i definiowanie potoku
  • Korzystanie z klas Apache Beam
  • Zestawy danych, transformacje, wejścia/wyjścia, kodowanie danych itp.

Wykonywanie potoku

  • Wykonywanie potoku lokalnie, na maszynach zdalnych i w chmurze publicznej
  • Wybór programu uruchamiającego
  • Konfiguracje specyficzne dla runnera

Testowanie i debugowanie Apache Beam

  • Korzystanie z podpowiedzi dotyczących typów w celu emulacji statycznego wpisywania
  • Zarządzanie zależnościami potoku Python

Przetwarzanie ograniczonych i nieograniczonych zestawów danych

  • Okna i wyzwalacze

Tworzenie potoków wielokrotnego użytku i łatwych w utrzymaniu

Tworzenie nowych źródeł i zlewów danych

  • Interfejs API źródła i zlewu Apache Beam

Integracja Apache Beam z innymi Big Data systemami

  • Apache Hadoop, Apache Spark, Apache Kafka

Rozwiązywanie problemów

Podsumowanie i wnioski

Wymagania

  • Doświadczenie z Python Programming.
  • Doświadczenie z wierszem poleceń Linux.

Uczestnicy

  • Programiści
 14 godzin

Liczba uczestników


cena netto za uczestnika

Propozycje terminów

Powiązane Kategorie