Plan Szkolenia

Wprowadzenie do Data Science for Big Data Analytics

    Data Science Przegląd Big Data Przegląd Struktury danych Czynniki i złożoność Big Data Ekosystem Big Data oraz nowe podejście do analityki Kluczowe technologie w procesie i problemach eksploracji dużych zbiorów danych Wyszukiwanie wzorców asocjacji Klastrowanie danych Wykrywanie wartości odstających Klasyfikacja danych

Wprowadzenie do cyklu życia analizy danych

    Odkrycie Przygotowanie danych Planowanie modelu Budowa modelu Prezentacja/Communication wyników Operacjonalizacja Ćwiczenie: Studium przypadku

Od tego momentu większość czasu szkolenia (80%) będzie poświęcona przykładom i ćwiczeniom z R i powiązanej technologii Big Data.

Pierwsze kroki z R

    Instalowanie funkcji R i Rstudio Obiekty języka R w danych R w języku R Manipulacja danymi Zagadnienia dotyczące dużych zbiorów danych Ćwiczenia

Pierwsze kroki z Hadoop

    Instalacja Hadoop Zrozumienie Hadoop trybów Architektura HDFS MapReduce Hadoop przegląd powiązanych projektów Pisanie programów w Hadoop Ćwiczenia MapReduce

Całkowanie R i Hadoop z RHadoop

    Komponenty RHadoop Instalacja RHadoop i łączenie się z Hadoop Architektura RHadoop Hadoop strumieniowanie za pomocą R Rozwiązywanie problemów z analityką danych za pomocą RHadoop Ćwiczenia

Wstępne przetwarzanie i przygotowywanie danych

    Etapy przygotowania danych Ekstrakcja cech Czyszczenie danych Integracja i transformacja danych Redukcja danych – próbkowanie, wybór podzbioru cech, redukcja wymiarowości Dyskretyzacja i kategoryzacja Ćwiczenia i studium przypadku

Eksploracyjne metody analizy danych w R

    Statystyka opisowa Eksploracyjna analiza danych Wizualizacja – kroki wstępne Wizualizacja pojedynczej zmiennej Badanie wielu zmiennych Statystyczne metody oceny Testowanie hipotez Ćwiczenia i studium przypadku

Data Visualizations

    Podstawowe wizualizacje w R Pakiety do wizualizacji danych ggplot2, lattice, plotly, lattice Formatowanie wykresów w R Zaawansowane grafy Ćwiczenia

Regresja (szacowanie przyszłych wartości)

    Regresja liniowa Przypadki użycia Opis modelu Diagnostyka Problemy z regresją liniową Metody skurczu, regresja grzbietowa, lasso Uogólnienia i nieliniowość Splajny regresyjne Regresja wielomianowa lokalna Uogólnione modele addytywne Regresja z RHadoop Ćwiczenia i studium przypadku

Klasyfikacja

    Problemy związane z klasyfikacją Odświeżanie Bayesa Naiwny Bayes Regresja logistyczna K-najbliżsi sąsiedzi Algorytm drzew decyzyjnych Sieci neuronowe Maszyny wektorów nośnych Diagnostyka klasyfikatorów Porównanie metod klasyfikacji Scalable algorytmy klasyfikacji Ćwiczenia i studium przypadku

Ocena wydajności i wybór modelu

    Błąd systematyczny, wariancja i złożoność modelu Dokładność a interpretowalność Ocena klasyfikatorów Miary wydajności modelu/algorytmu Metoda wstrzymania walidacji Walidacja krzyżowa Dostrajanie algorytmów uczenia maszynowego za pomocą pakietu Caret Wizualizacja wydajności modelu za pomocą krzywych Profit ROC i Lift

Metody zespołowe

    Bagging Random Forest Wzmacnianie Ćwiczenia wzmacniające gradient i studium przypadku

Maszyny wektorów nośnych do klasyfikacji i regresji

    Klasyfikatory maksymalnego marginesu Klasyfikatory wektorów nośnych Maszyny wektorów nośnych SVM do problemów klasyfikacyjnych SVM do problemów regresji
  • Identyfikowanie nieznanych grup w zbiorze danych
  • Wybór cech do grupowania Algorytmy oparte na reprezentatywnych: k-średnich, k-medoidach Algorytmy hierarchiczne: metody aglomeracyjne i dzielące Algorytmy bazowe probabilistyki: EM Algorytmy oparte na gęstości: DBSCAN, DENCLUE Walidacja klastrów Zaawansowane koncepcje grupowania Grupowanie za pomocą ćwiczeń RHadoop i studium przypadku

      Odkrywanie połączeń dzięki analizie łączy

    Koncepcje analizy linków Metryki do analizy sieci Algorytm Pagerank Algorytm wywołany hiperlinkami Temat Search Ćwiczenia z przewidywaniem linków i studium przypadku

      Wydobywanie wzorców skojarzeń

    Model częstego eksploracji wzorców Scalaproblemy z funkcjonalnością częstego eksploracji wzorców Algorytmy Brute Force Algorytm Apriori Podejście do wzrostu FP Ocena reguł kandydujących Zastosowanie reguł asocjacyjnych Walidacja i testowanie Diagnostyka Reguły asocjacyjne z R i Hadoop Ćwiczenia i studium przypadku

      Budowa silników rekomendacji

    Zrozumienie systemów rekomendacyjnych Techniki eksploracji danych stosowane w systemach rekomendacyjnych Systemy rekomendacyjne z pakietem rekomendacyjnym Ocena systemów rekomendacyjnych Rekomendacje za pomocą RHadoop Ćwiczenie: Budowa silnika rekomendacyjnego

      Analiza tekstu

    Etapy analizy tekstu Zbieranie surowego tekstu Zbiór słów Termin Częstotliwość – Odwrotna częstotliwość dokumentu Określanie uczuć Ćwiczenia i studium przypadku

     35 godzin

    Liczba uczestników


    cena netto za uczestnika

    Opinie uczestników (2)

    Propozycje terminów

    Powiązane Kategorie