Plan Szkolenia

Wprowadzenie

Zrozumienie Big Data

Przegląd Sparka

Przegląd Python

Przegląd PySpark

  • Dystrybucja danych przy użyciu struktury odpornych rozproszonych zbiorów danych
  • Dystrybucja obliczeń przy użyciu operatorów API Spark

Konfigurowanie Python za pomocą Spark

Konfigurowanie PySpark

Używanie Amazon Web Services (AWS) instancji EC2 dla Sparka

Konfigurowanie Databricks

Konfigurowanie klastra AWS EMR

Nauka podstaw Python Programming

  • Pierwsze kroki z Python
  • Korzystanie z notatnika Jupyter
  • Korzystanie ze zmiennych i prostych typów danych
  • Praca z listami
  • Korzystanie z instrukcji if
  • Korzystanie z danych wejściowych użytkownika
  • Praca z pętlami while
  • Implementowanie funkcji
  • Praca z klasami
  • Praca z plikami i wyjątkami
  • Praca z projektami, danymi i interfejsami API

Nauka podstaw Spark DataFrame

  • Rozpoczęcie pracy z ramkami danych Spark
  • Wdrażanie podstawowych operacji za pomocą Sparka
  • Korzystanie z operacji Groupby i Aggregate
  • Praca ze znacznikami czasu i datami

Praca nad projektem Spark DataFrame Ćwiczenie

Zrozumienie Machine Learning z MLlib

Praca z MLlib, Spark i Python dla Machine Learning

Zrozumienie regresji

  • Nauka teorii regresji liniowej
  • Wdrażanie kodu oceny regresji
  • Praca nad przykładowym ćwiczeniem regresji liniowej
  • Nauka teorii regresji logistycznej
  • Implementacja kodu regresji logistycznej
  • Praca nad przykładowym ćwiczeniem z regresji logistycznej

Zrozumienie Random Forests i drzew decyzyjnych

  • Teoria metod drzew decyzyjnych
  • Wdrażanie drzew decyzyjnych i kodów Random Forest
  • Praca nad próbką Random Forest Ćwiczenie klasyfikacyjne

Praca z klastrami K-średnich

  • Zrozumienie teorii grupowania K-średnich
  • Implementacja kodu klastrowania K-średnich
  • Praca nad przykładowym ćwiczeniem klastrowania

Praca z systemami rekomendacji

Wdrażanie przetwarzania języka naturalnego

  • Zrozumienie Natural Language Processing (NLP)
  • Przegląd narzędzi NLP
  • Praca nad przykładowym ćwiczeniem NLP

Streaming z wykorzystaniem Spark na Python

  • Przegląd Streaming z Spark
  • Przykładowe ćwiczenie Spark Streaming

Uwagi końcowe

Wymagania

  • Ogólne umiejętności programowania

Uczestnicy

  • Programiści
  • Specjaliści IT
  • Naukowcy zajmujący się danymi
 21 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (7)

Propozycje terminów

Powiązane Kategorie