Big Data & Database Systems Fundamentals - Plan Szkolenia
Kurs jest częścią zestawu umiejętności Data Scientist (Domena: Dane i technologia).
Plan Szkolenia
Koncepcje hurtowni danych
- Co to jest Data Ware House?
- Różnica między OLTP a obudową Data Ware
- Pozyskiwanie danych
- Ekstrakcja danych
- Transformacja danych.
- Ładowanie danych
- Data Marty
- Dane zależne i niezależne Mart
- Projekt bazy danych
Koncepcje testowania ETL:
- Wstęp.
- Cykl życia oprogramowania.
- Metodologie testowania.
- Proces przepływu pracy podczas testowania ETL.
- Obowiązki testowania ETL na etapie danych.
Podstawy Big Data
- Big Data i jego rola w świecie korporacji
- Fazy rozwoju strategii Big Data w korporacji
- Wyjaśnij przesłanki leżące u podstaw holistycznego podejścia do Big Data
- Komponenty potrzebne w Big Data platformie
- Rozwiązanie do przechowywania dużych ilości danych
- Granice tradycyjnych technologii
- Przegląd typów baz danych
NoSQL Database s
Hadoop
Mapa Zmniejsz
Apache Spark
Szkolenia otwarte są realizowane w przypadku uzbierania się grupy szkoleniowej liczącej co najmniej 5 osób na dany termin.
Big Data & Database Systems Fundamentals - Plan Szkolenia - Booking
Big Data & Database Systems Fundamentals - Plan Szkolenia - Enquiry
Big Data & Database Systems Fundamentals - Zapytanie o Konsultacje
Zapytanie o Konsultacje
Opinie uczestników (5)
Dużo praktycznych przykładów, różne sposoby podejścia do tego samego problemu i czasem nie tak oczywiste triki, jak poprawić obecne rozwiązanie
Rafal - Nordea
Szkolenie - Apache Spark MLlib
Przetłumaczone przez sztuczną inteligencję
jak trener prezentuje swoją wiedzę z tematu, który uczy
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Szkolenie - Data Vault: Building a Scalable Data Warehouse
Przetłumaczone przez sztuczną inteligencję
Przygotowanie i organizacja trenera oraz jakość materiałów dostępnych na GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Szkolenie - Impala for Business Intelligence
Przetłumaczone przez sztuczną inteligencję
To have it from the beginning.
Peter Scales - CACI Ltd
Szkolenie - Apache NiFi for Developers
Przetłumaczone przez sztuczną inteligencję
praktyczne zadania
Pawel Kozikowski - GE Medical Systems Polska Sp. Zoo
Szkolenie - Python and Spark for Big Data (PySpark)
Przetłumaczone przez sztuczną inteligencję
Propozycje terminów
Szkolenia Powiązane
Apache Ignite for Administrators
7 godzinFormat kursu
- Interaktywny wykład i dyskusja.
- Wiele ćwiczeń i praktyki.
- Praktyczne wdrożenie w środowisku laboratoryjnym na żywo.
Opcje dostosowywania kursu
- Aby poprosić o spersonalizowane szkolenie dla tego kursu, skontaktuj się z nami.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 godzinTen kurs jest skierowany do programistów i naukowców zajmujących się danymi, którzy chcą zrozumieć i wdrożyć sztuczną inteligencję w swoich aplikacjach. Szczególna uwaga poświęcona jest analizie danych, rozproszonej sztucznej inteligencji i przetwarzaniu języka naturalnego.
Unified Batch and Stream Processing with Apache Beam
14 godzinApache Beam to otwarty, zunifikowany model programowania do definiowania i wykonywania równoległych potoków przetwarzania danych. Jego moc polega na możliwości uruchamiania zarówno potoków wsadowych, jak i strumieniowych, przy czym wykonanie jest przeprowadzane przez jeden z obsługiwanych przez Beam back-endów przetwarzania rozproszonego: Apache Apex, Apache Flink, Apache Spark i Google Cloud Dataflow. Rozwiązanie Apache Beam jest przydatne w zadaniach ETL (Extract, Transform, and Load), takich jak przenoszenie danych między różnymi nośnikami pamięci i źródłami danych, przekształcanie danych w bardziej pożądany format i ładowanie danych do nowego systemu.
W tym prowadzonym przez instruktora szkoleniu na żywo (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak zaimplementować Apache Beam SDK w aplikacji Java lub Python, która definiuje potok przetwarzania danych w celu dekompozycji dużego zbioru danych na mniejsze fragmenty w celu niezależnego, równoległego przetwarzania.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Apache Beam.
- Używać pojedynczego modelu programowania do przeprowadzania zarówno przetwarzania wsadowego, jak i strumieniowego z poziomu aplikacji Java lub Python.
- Wykonywać potoki w wielu środowiskach.
Format kursu
- Wykład częściowy, dyskusja częściowa, ćwiczenia i ciężka praktyka praktyczna
Uwaga
- Ten kurs będzie dostępny Scala w przyszłości. Prosimy o kontakt w celu ustalenia szczegółów.
NoSQL Database with Microsoft Azure Cosmos DB
14 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (online lub na miejscu) jest przeznaczone dla administratorów baz danych lub programistów, którzy chcą używać Microsoft Azure Cosmos DB do tworzenia i zarządzania wysoce responsywnymi aplikacjami o niskim opóźnieniu.
Po zakończeniu tego szkolenia uczestnicy będą w stanie
- Zapewnienie niezbędnych zasobów Cosmos DB, aby rozpocząć tworzenie baz danych i aplikacji.
- Skalowanie wydajności aplikacji i pamięci masowej poprzez wykorzystanie interfejsów API w Cosmos DB.
- Zarządzanie operacjami baz danych i redukcja kosztów poprzez optymalizację zasobów Cosmos DB.
Data Vault: Building a Scalable Data Warehouse
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak zbudować Data Vault.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę i koncepcje projektowe stojące za Data Vault 2.0 oraz jego interakcję z Big Data, NoSQL i AI.
- Korzystać z technik przechowywania danych w celu umożliwienia audytu, śledzenia i inspekcji danych historycznych w hurtowni danych.
- Opracowanie spójnego i powtarzalnego procesu ETL (Extract, Transform, Load).
- Tworzenie i wdrażanie wysoce skalowalnych i powtarzalnych hurtowni.
Apache Flink Fundamentals
28 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza zasady i podejścia stojące za rozproszonym przetwarzaniem danych strumieniowych i wsadowych oraz prowadzi uczestników przez proces tworzenia aplikacji do strumieniowego przesyłania danych w czasie rzeczywistym w Apache Flink.
Pod koniec tego szkolenia uczestnicy będą w stanie
- Skonfigurować środowisko do tworzenia aplikacji do analizy danych.
- Zrozumieć, jak działa biblioteka przetwarzania grafów Apache Flink (Gelly).
- Pakować, wykonywać i monitorować oparte na Flink, odporne na błędy aplikacje do strumieniowego przesyłania danych.
- Zarządzanie różnorodnymi obciążeniami.
- Wykonywanie zaawansowanych analiz.
- Konfigurowanie wielowęzłowego klastra Flink.
- Mierzyć i optymalizować wydajność.
- Integracja Flink z różnymi Big Data systemami.
- Porównywanie możliwości Flink z możliwościami innych platform przetwarzania dużych zbiorów danych.
Introduction to Graph Computing
28 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy zapoznają się z ofertą technologiczną i podejściami wdrożeniowymi do przetwarzania danych grafowych. Celem jest identyfikacja obiektów świata rzeczywistego, ich cech i relacji, a następnie modelowanie tych relacji i przetwarzanie ich jako danych przy użyciu podejścia Graph Computing (znanego również jako Graph Analytics). Zaczynamy od szerokiego przeglądu i zawężamy się do konkretnych narzędzi, przechodząc przez serię studiów przypadków, ćwiczeń praktycznych i wdrożeń na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zrozumieć, w jaki sposób dane wykresu są utrwalane i przemierzane.
- Wybrać najlepszą platformę dla danego zadania (od grafowych baz danych po ramy przetwarzania wsadowego).
- Zaimplementować Hadoop, Spark, GraphX i Pregel do równoległego przetwarzania grafów na wielu maszynach.
- Postrzeganie rzeczywistych problemów związanych z dużymi zbiorami danych w kategoriach grafów, procesów i przejść.
Hortonworks Data Platform (HDP) for Administrators
21 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) wprowadza Hortonworks Data Platform (HDP) i przeprowadza uczestników przez wdrożenie rozwiązania Spark + Hadoop.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Używać Hortonworks do niezawodnego uruchamiania Hadoop na dużą skalę.
- Ujednolicić możliwości Hadoop w zakresie bezpieczeństwa, zarządzania i operacji ze zwinnymi analitycznymi przepływami pracy Spark.
- Wykorzystanie Hortonworks do badania, walidacji, certyfikacji i wsparcia każdego z komponentów projektu Spark.
- Przetwarzanie różnych typów danych, w tym ustrukturyzowanych, nieustrukturyzowanych, w ruchu i w spoczynku.
Impala for Business Intelligence
21 godzinCloudera Impala to silnik zapytań typu open source do masowego przetwarzania równoległego (MPP) SQL dla klastrów Apache Hadoop.
Cloudera Impala umożliwia użytkownikom wysyłanie zapytań o niskim opóźnieniu SQL do danych przechowywanych w Hadoop Distributed File System i Apache Hbase bez konieczności przenoszenia lub przekształcania danych.
Odbiorcy
Ten kurs jest skierowany do analityków i badaczy danych przeprowadzających analizy danych przechowywanych w Hadoop za pośrednictwem narzędzi Business Intelligence lub SQL.
Po ukończeniu tego kursu uczestnicy będą w stanie
- Wyodrębniać znaczące informacje z klastrów Hadoop za pomocą Impala.
- Pisać specjalne programy ułatwiające Business Intelligence w Impala SQL dialekcie.
- Rozwiązywać problemy Impala.
Confluent KSQL
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla programistów, którzy chcą wdrożyć przetwarzanie strumieniowe Apache Kafka bez pisania kodu.
Pod koniec tego szkolenia uczestnicy będą mogli
- Zainstalować i skonfigurować Confluent KSQL.
- Skonfigurować potok przetwarzania strumieniowego przy użyciu tylko SQL poleceń (bez kodowania Java lub Python).
- Przeprowadzać filtrowanie danych, transformacje, agregacje, łączenia, okienkowanie i sesjonowanie w całości w SQL.
- Projektowanie i wdrażanie interaktywnych, ciągłych zapytań dla strumieniowego ETL i analiz w czasie rzeczywistym.
Apache NiFi for Administrators
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce (na miejscu lub zdalnie) uczestnicy dowiedzą się, jak wdrożyć i zarządzać Apache NiFi w środowisku laboratoryjnym na żywo.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zainstalować i skonfigurować Apachi NiFi.
- Pozyskiwać, przekształcać i zarządzać danymi z różnych, rozproszonych źródeł danych, w tym baz danych i dużych jezior danych.
- Automatyzować przepływy danych.
- Włączać analitykę strumieniową.
- Stosowanie różnych podejść do pozyskiwania danych.
- Przekształcanie danych Big Data w informacje biznesowe.
Apache NiFi for Developers
7 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy poznają podstawy programowania opartego na przepływie, opracowując szereg rozszerzeń demonstracyjnych, komponentów i procesorów przy użyciu Apache NiFi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Zrozumieć architekturę NiFi i koncepcje przepływu danych.
- Rozwijać rozszerzenia przy użyciu NiFi i interfejsów API innych firm.
- Rozwijać własny procesor Apache Nifi.
- Pozyskiwać i przetwarzać dane w czasie rzeczywistym z różnych i nietypowych formatów plików i źródeł danych.
Python and Spark for Big Data (PySpark)
21 godzinW tym prowadzonym przez instruktora szkoleniu na żywo w Polsce uczestnicy dowiedzą się, jak używać Python i Spark razem do analizy dużych zbiorów danych podczas pracy nad ćwiczeniami praktycznymi.
Pod koniec tego szkolenia uczestnicy będą mogli:
- Dowiedzieć się, jak używać Sparka z Python do analizy Big Data.
- Pracować nad ćwiczeniami, które naśladują rzeczywiste przypadki.
- Używać różnych narzędzi i technik do analizy dużych zbiorów danych przy użyciu PySpark.
Spark Streaming with Python and Kafka
7 godzinTo prowadzone przez instruktora szkolenie na żywo w Polsce (na miejscu lub zdalnie) jest przeznaczone dla inżynierów danych, naukowców zajmujących się danymi i programistów, którzy chcą korzystać z funkcji Spark Streaming w przetwarzaniu i analizowaniu danych w czasie rzeczywistym.
Pod koniec tego szkolenia uczestnicy będą mogli używać Spark Streaming do przetwarzania strumieni danych na żywo do użytku w bazach danych, systemach plików i pulpitach nawigacyjnych na żywo.
Apache Spark MLlib
35 godzinMLlib to biblioteka Spark’s do uczenia maszynowego (ML). Jej celem jest uczynienie praktycznego uczenia maszynowego skalowalnym i łatwym. Składa się z popularnych algorytmów uczenia się i narzędzi, w tym klasyfikacji, regresji, klastrowania, filtrowania opartego na współpracy, redukcji wymiarowości, a także prymitywów optymalizacji niższego poziomu i interfejsów API potoków wyższego poziomu.
Dzieli się na dwa pakiety:
- spark.mllib zawiera oryginalny interfejs API zbudowany na bazie RDD.
- spark.ml zapewnia API wyższego poziomu zbudowane na DataFrames do konstruowania potoków ML.
Uczestnicy
Ten kurs jest skierowany do inżynierów i programistów, którzy chcą korzystać z wbudowanej biblioteki maszynowej dla Apache Spark