Apache Spark in the Cloud - Plan Szkolenia
Krzywa uczenia się Apache Spark powoli rośnie na początku, wymaga dużo wysiłku, aby uzyskać pierwszy zwrot. Ten kurs ma na celu przeskoczenie pierwszej trudnej części. Po ukończeniu tego kursu uczestnicy zrozumieją podstawy Apache Spark , będą wyraźnie odróżniać RDD od DataFrame, nauczą się Pythona i Scala API, zrozumieją executory i zadania itp. Również zgodnie z najlepszymi praktykami, kurs ten silnie koncentruje się na wdrażaniu w chmurze, Databricks i AWS. Studenci zrozumieją również różnice między AWS EMR i AWS Glue, jedną z najnowszych usług Spark w AWS.
AUDIENCJA:
Inżynier ds. danych, DevOps, Naukowiec ds. danych
Plan Szkolenia
Wstęp:
- Apache Spark w Hadoop Ekosystem
- Krótkie wprowadzenie do Pythona, Scala
Podstawy (teoria):
- Architektura
- RDD
- Transformacja i działania
- Etap, zadanie, zależności
Korzystanie ze środowiska Databricks pozwala zrozumieć podstawy (warsztat praktyczny):
- Ćwiczenia z wykorzystaniem RDD API
- Podstawowe funkcje akcji i transformacji
- ParaRDD
- Dołączyć
- Strategie buforowania
- Ćwiczenia z wykorzystaniem DataFrame API
- IskraSQL
- DataFrame: wybierz, filtruj, grupuj, sortuj
- UDF (funkcja zdefiniowana przez użytkownika)
- Patrząc na API DataSet
- Transmisja strumieniowa
Korzystanie ze środowiska AWS obejmuje zrozumienie wdrożenia (warsztat praktyczny):
- Podstawy kleju AWS
- Poznaj różnice między AWS EMR i AWS Glue
- Przykładowe zadania w obu środowiskach
- Zrozum zalety i wady
Dodatkowy:
- Wprowadzenie do orkiestracji Apache Airflow.
Wymagania
Umiejętność programowania (najlepiej w języku python, scala)
Podstawy SQL
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Apache Spark in the Cloud - Plan Szkolenia - Booking
Apache Spark in the Cloud - Plan Szkolenia - Enquiry
Apache Spark in the Cloud - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (3)
Mając zajęcia praktyczne / zadania
Poornima Chenthamarakshan - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję
1. Odpowiednie równowaga między wysokopoziomowymi koncepcjami a szczegółami technicznymi. 2. Andras jest bardzo dobrze zorientowany w swoim nauczaniu. 3. Ćwiczenie
Steven Wu - Intelligent Medical Objects
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję
Dowiedz się o Spark Streaming, Databricks i AWS Redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Szkolenie - Apache Spark in the Cloud
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Big Data Analytics with Google Colab and Apache Spark
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla średnio zaawansowanych analityków danych i inżynierów, którzy chcą korzystać z Google Colab i Apache Spark do przetwarzania i analizy dużych zbiorów danych.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko big data przy użyciu Google Colab i Spark.
- Efektywnie przetwarzać i analizować duże zbiory danych za pomocą Apache Spark.
- Wizualizować duże zbiory danych w środowisku współpracy.
- Zintegrować Apache Spark z narzędziami opartymi na chmurze.
Big Data Analytics in Health
21 godzinAnalityka Big Data obejmuje proces badania dużych ilości różnorodnych zestawów danych w celu odkrycia korelacji, ukrytych wzorców i innych przydatnych informacji.
Branża medyczna dysponuje ogromnymi ilościami złożonych, heterogenicznych danych medycznych i klinicznych. Zastosowanie analizy dużych zbiorów danych na danych dotyczących zdrowia stanowi ogromny potencjał w uzyskiwaniu wglądu w celu poprawy świadczenia opieki zdrowotnej. Jednak ogrom tych zbiorów danych stanowi ogromne wyzwanie w analizach i praktycznych zastosowaniach w środowisku klinicznym.
W tym prowadzonym przez instruktora szkoleniu na żywo (zdalnie) uczestnicy dowiedzą się, jak przeprowadzić analizę dużych zbiorów danych w zakresie zdrowia, przechodząc przez serię praktycznych ćwiczeń laboratoryjnych na żywo.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie narzędzi do analizy dużych zbiorów danych, takich jak Hadoop MapReduce i Spark.
- Zrozumienie charakterystyki danych medycznych
- Stosowanie technik big data do przetwarzania danych medycznych
- Badanie systemów i algorytmów big data w kontekście aplikacji zdrowotnych
Uczestnicy
- Programiści
- Naukowcy ds. danych
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna.
Uwaga
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Hadoop and Spark for Administrators
35 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów systemów, którzy chcą dowiedzieć się, jak konfigurować, wdrażać i zarządzać klastrami Hadoop w swojej organizacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Hadoop.
- Zrozumienie czterech głównych komponentów ekosystemu Hadoop: HDFS, MapReduce, YARN i Hadoop Common.
- Używanie rozproszonego systemu plików Hadoop (HDFS) do skalowania klastra do setek lub tysięcy węzłów.
- Konfigurowanie HDFS do działania jako silnik pamięci masowej dla lokalnych wdrożeń Spark.
- Konfiguracja Spark, aby uzyskać dostęp do alternatywnych rozwiązań pamięci masowej, takich jak Amazon S3 i systemów baz danych NoSQL, takich jak Redis, Elasticsearch, Couchbase, Aerospike itp.
- Wykonywanie zadań administracyjnych, takich jak udostępnianie, zarządzanie, monitorowanie i zabezpieczanie klastra Apache Hadoop.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Używać Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
- Ujednolicić możliwości Hadoop w zakresie bezpieczeństwa, zarządzania i operacji ze zwinnymi analitycznymi przepływami pracy Spark.
- Wykorzystanie Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
- Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
A Practical Introduction to Stream Processing
21 godzinW tym instruktażowym szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumieć i wybrać najbardziej odpowiedni framework dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracja najbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
SMACK Stack for Data Science
14 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi, którzy chcą używać stosu SMACK do tworzenia platform przetwarzania danych dla rozwiązań Big Data.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Wdrożenie architektury potoku danych do przetwarzania dużych zbiorów danych.
- Rozwój infrastruktury klastrowej przy użyciu Apache Mesos i Docker.
- Analiza danych za pomocą Spark i Scala.
- Zarządzanie nieustrukturyzowanymi danymi za pomocą Apache Cassandra.
Apache Spark Fundamentals
21 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla inżynierów, którzy chcą skonfigurować i wdrożyć system Apache Spark do przetwarzania bardzo dużych ilości danych.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalacja i konfiguracja Apache Spark.
- Szybkie przetwarzanie i analizowanie bardzo dużych zbiorów danych.
- Zrozumienie różnicy między Apache Spark i Hadoop MapReduce i kiedy używać którego z nich.
- Integracja Apache Spark z innymi narzędziami uczenia maszynowego.
Administration of Apache Spark
35 godzinThis instructor-led, live training in Polsce (online or onsite) is aimed at beginner-level to intermediate-level system administrators who wish to deploy, maintain, and optimize Spark clusters.
By the end of this training, participants will be able to:
- Install and configure Apache Spark in various environments.
- Manage cluster resources and monitor Spark applications.
- Optimize the performance of Spark clusters.
- Implement security measures and ensure high availability.
- Debug and troubleshoot common Spark issues.
Spark for Developers
21 godzinCEL:
Ten kurs wprowadzi Apache Spark. Studenci dowiedzą się, jak Spark pasuje do ekosystemu Big Data i jak używać Spark do analizy danych. Kurs obejmuje powłokę Spark do interaktywnej analizy danych, elementy wewnętrzne Spark, interfejsy API Spark, Spark SQL, przesyłanie strumieniowe Spark oraz uczenie maszynowe i graphX.
AUDIENCJA :
Programiści / analitycy danych
Scaling Data Pipelines with Spark NLP
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla naukowców zajmujących się danymi i programistów, którzy chcą używać Spark NLP, zbudowanego na bazie Apache Spark, do opracowywania, wdrażania i skalowania modeli i potoków przetwarzania tekstu w języku naturalnym.
Pod koniec tego szkolenia uczestnicy będą mogli
- Skonfigurować niezbędne środowisko programistyczne, aby rozpocząć tworzenie potoków NLP za pomocą Spark NLP.
- Zrozumieć funkcje, architekturę i zalety korzystania z Spark NLP.
- Używać wstępnie wytrenowanych modeli dostępnych w Spark NLP do implementacji przetwarzania tekstu.
- Dowiedz się, jak budować, trenować i skalować modele Spark NLP dla projektów klasy produkcyjnej.
- Zastosuj klasyfikację, wnioskowanie i analizę nastrojów w rzeczywistych przypadkach użycia (dane kliniczne, spostrzeżenia dotyczące zachowań klientów itp.)
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Python, Spark, and Hadoop for Big Data
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą używać i integrować Spark, Hadoop i Python do przetwarzania, analizowania i przekształcania dużych i złożonych zestawów danych.
Pod koniec tego szkolenia uczestnicy będą mogli
- Skonfigurować środowisko niezbędne do rozpoczęcia przetwarzania dużych zbiorów danych za pomocą Spark, Hadoop i Python.
- Zrozumieć funkcje, podstawowe komponenty i architekturę Spark i Hadoop.
- Dowiedz się, jak zintegrować Spark, Hadoop i Python w celu przetwarzania dużych zbiorów danych.
- Poznanie narzędzi w ekosystemie Spark (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka i Flume).
- Tworzenie systemów rekomendacji opartych na filtrowaniu kolaboracyjnym podobnych do Netflix, YouTube, Amazon, Spotify i Google.
- Wykorzystanie Apache Mahout do skalowania algorytmów uczenia maszynowego.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark