A Practical Introduction to Stream Processing - Plan Szkolenia
Stream Processing odnosi się do przetwarzania w czasie rzeczywistym "danych w ruchu", czyli wykonywania obliczeń na danych w trakcie ich odbierania. Takie dane są odczytywane jako ciągłe strumienie ze źródeł danych, takich jak zdarzenia z czujników, aktywność użytkowników witryn internetowych, transakcje finansowe, przeciągnięcia kart kredytowych, strumienie kliknięć itp. Struktury przetwarzania strumieniowego są w stanie odczytywać duże ilości przychodzących danych i niemal natychmiast dostarczać cennych informacji.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak skonfigurować i zintegrować różne Stream Processing frameworki z istniejącymi systemami przechowywania dużych zbiorów danych oraz powiązanymi aplikacjami i mikrousługami.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalowanie i konfigurowanie różnych Stream Processing frameworków, takich jak Spark Streaming i Kafka Streaming.
- Zrozumienie i wybranie najbardziej odpowiedniego frameworka dla danego zadania.
- Przetwarzanie danych w sposób ciągły, współbieżny i rekord po rekordzie.
- Integracja Stream Processing rozwiązań z istniejącymi bazami danych, hurtowniami danych, jeziorami danych itp.
- Integracjanajbardziej odpowiedniej biblioteki przetwarzania strumieniowego z aplikacjami korporacyjnymi i mikrousługami.
Uczestnicy
- Programiści
- Architekci oprogramowania
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i ciężka praktyka praktyczna
Uwagi
- Aby zamówić niestandardowe szkolenie dla tego kursu, skontaktuj się z nami.
Plan Szkolenia
Wstęp
- Przetwarzanie strumieniowe a przetwarzanie wsadowe
- Przetwarzanie strumieni zorientowane na analizę
Przegląd Ram i Programming Languages
- Spark Streaming (Scala)
- Przesyłanie strumieniowe Kafki (Java)
- Mrugnij
- Burza
- Porównanie cech i mocnych stron każdego frameworka
Przegląd źródeł danych
- Dane na żywo jako seria zdarzeń w czasie
- Źródła danych historycznych
Opcje wdrażania
- W chmurze (AWS itp.)
- Lokalnie (chmura prywatna itp.)
Pierwsze kroki
- Konfigurowanie środowiska programistycznego
- Instalacja i konfiguracja
- Ocena Twoich Data Analysis potrzeb
Obsługa platformy przesyłania strumieniowego
- Integracja struktury przesyłania strumieniowego z narzędziami Big Data.
- Zdarzenie Stream Processing (ESP) a złożone przetwarzanie zdarzeń (CEP)
- Transformacja danych wejściowych
- Sprawdzanie danych wyjściowych
- Integracja Stream Processing Framework z istniejącymi aplikacjami i Microservices
Rozwiązywanie problemów
Podsumowanie i wnioski
Wymagania
- Programming doświadczenie w dowolnym języku
- Zrozumienie koncepcji Big Data (Hadoop itp.)
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
A Practical Introduction to Stream Processing - Plan Szkolenia - Booking
A Practical Introduction to Stream Processing - Plan Szkolenia - Enquiry
A Practical Introduction to Stream Processing - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (1)
Wystarczająca praktyka, trener jest kompetentny
Chris Tan
Szkolenie - A Practical Introduction to Stream Processing
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Apache Ignite for Administrators
7 godzinFormat kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Apache Kafka Connect
7 godzinSzkolenie na żywo prowadzone przez instruktora (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą zintegrować Apache Kafka z istniejącymi bazami danych i aplikacjami do przetwarzania, analizy itp.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Używać Kafka Connect do importowania dużych ilości danych z bazy danych do tematów Kafka.
- Importować dane logów generowane przez serwery aplikacji do tematów Kafka.
- Make zbierane dane dostępne do przetwarzania strumieniowego.
- Eksportować dane z tematów Kafka do wtórnych systemów do przechowywania i analizy.
Unified Batch and Stream Processing with Apache Beam
14 godzinApache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego moc polega na możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Rozwiązanie Apache Beam jest przydatne w zadaniach ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Apache Beam.
- Używać pojedynczego modelu programowania do przeprowadzania zarówno przetwarzania wsadowego, jak i strumieniowego z poziomu aplikacji Java lub Python.
- Wykonywać potoki w wielu środowiskach.
Format kursu
- Wykład częściowy, dyskusja częściowa, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.
Building Kafka Solutions with Confluent
14 godzinTo prowadzone przez instruktora szkolenie na żywo (w trybie online lub na miejscu) jest przeznaczone dla inżynierów, którzy chcą korzystać z Confluent (dystrybucji Kafka) do budowania i zarządzania platformą przetwarzania danych w czasie rzeczywistym dla swoich aplikacji.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Instalować i konfigurować platformę Confluent.
- Korzystać z narzędzi i usług zarządzania Confluent do łatwiejszego uruchamiania Kafka.
- Przechowywać i przetwarzać nadchodzące dane strumieniowe.
- Optymalizować i zarządzać klasterami Kafka.
- Zabezpieczać strumienie danych.
Format kursu
- Interaktywne wykłady i dyskusje.
- Wiele ćwiczeń i praktyki.
- Przykładowa implementacja w środowisku live-lab.
Opcje dostosowywania kursu
- Ten kurs oparty jest na wersji open source Confluent: Confluent Open Source.
- Aby poprosić o dostosowane szkolenie dla tego kursu, skontaktuj się z nami w celu umówienia.
Apache Flink Fundamentals
28 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza zasady i podejścia stojące za rozproszonym przetwarzaniem danych strumieniowych i wsadowych oraz prowadzi uczestników przez proces tworzenia aplikacji do strumieniowego przesyłania danych w czasie rzeczywistym w Apache Flink.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko do tworzenia aplikacji do analizy danych.
- Zrozumieć, jak działa biblioteka przetwarzania grafów Apache Flink (Gelly).
- Pakować, wykonywać i monitorować oparte na Flink, odporne na błędy aplikacje do strumieniowego przesyłania danych.
- Zarządzanie różnorodnymi obciążeniami.
- Wykonywanie zaawansowanych analiz.
- Konfigurowanie wielowęzłowego klastra Flink.
- Mierzyć i optymalizować wydajność.
- Integracja Flink z różnymi Big Data systemami.
- Porównywanie możliwości Flink z możliwościami innych platform przetwarzania dużych zbiorów danych.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Apache Kafka for Python Programmers
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Apache Kafka w strumieniowym przesyłaniu danych z Python.
Pod koniec tego szkolenia uczestnicy będą mogli używać Apache Kafka do monitorowania i zarządzania warunkami w ciągłych strumieniach danych przy użyciu Python programowania.
Stream Processing with Kafka Streams
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo uczestnicy dowiedzą się, jak zintegrować Kafka Streams z zestawem przykładowych Java aplikacji, które przekazują dane do i z Apache Kafka w celu przetwarzania strumieniowego.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Rozumieć funkcje i zalety Kafka Streams w porównaniu z innymi ramami przetwarzania strumieniowego
- Przetwarzać dane strumieniowe bezpośrednio w ramach klastru Kafka
- Napisać aplikację lub mikrousługę Java lub Scala, która integruje się z Kafka i Kafka Streams
- Napisać zwięzły kod, który przekształca tematy wejściowe Kafka w tematy wyjściowe Kafka
- Budować, pakować i wdrażać aplikację
Uczestnicy
- Developers
Format kursu
- Część wykładu, część dyskusji, ćwiczenia i intensywne praktyczne ćwiczenia
Uwagi
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, proszę skontaktować się z nami w celu ustalenia szczegółów
Confluent KSQL
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą wdrożyć przetwarzanie strumieniowe Apache Kafka bez pisania kodu.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Confluent KSQL.
- Skonfigurować potok przetwarzania strumieniowego przy użyciu tylko SQL poleceń (bez kodowania Java lub Python).
- Przeprowadzać filtrowanie danych, transformacje, agregacje, łączenia, okienkowanie i sesjonowanie w całości w SQL.
- Projektowanie i wdrażanie interaktywnych, ciągłych zapytań dla strumieniowego ETL i analiz w czasie rzeczywistym.
Apache NiFi for Administrators
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak wdrożyć i zarządzać Apache NiFi w środowisku laboratoryjnym na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apachi NiFi.
- Pozyskiwać, przekształcać i zarządzać danymi z różnych, rozproszonych źródeł danych, w tym baz danych i dużych jezior danych.
- Automatyzować przepływy danych.
- Włączać analitykę strumieniową.
- Stosowanie różnych podejść do pozyskiwania danych.
- Przekształcanie danych Big Data w informacje biznesowe.
Apache NiFi for Developers
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy poznają podstawy programowania opartego na przepływie, opracowując szereg rozszerzeń demonstracyjnych, komponentów i procesorów przy użyciu Apache NiFi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę NiFi i koncepcje przepływu danych.
- Rozwijać rozszerzenia przy użyciu NiFi i interfejsów API innych firm.
- Rozwijać własny procesor Apache Nifi.
- Pozyskiwać i przetwarzać dane w czasie rzeczywistym z różnych i nietypowych formatów plików i źródeł danych.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Spark Streaming with Python and Kafka
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Spark Streaming w przetwarzaniu i analizowaniu danych w czasie rzeczywistym.
Pod koniec tego szkolenia uczestnicy będą mogli używać Spark Streaming do przetwarzania strumieni danych na żywo do użytku w bazach danych, systemach plików i pulpitach nawigacyjnych na żywo.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark