Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Plan Szkolenia
Każda sesja trwa 2 godziny
Dzień-1: Sesja -1: Business Przegląd powodów Big Data Business Inteligencja w Gowt.
- Studia przypadków z NIH, DoE
- Big Data współczynnik adaptacji w Govt. Agencje i sposób, w jaki dostosowują swoje przyszłe działania do Big Data Predictive Analytics
- Szeroki obszar zastosowań w DoD, NSA, IRS, USDA itp.
- Łączenie Big Data ze starszymi danymi
- Podstawowa wiedza na temat technologii wspomagających w analityce predykcyjnej
- Data Integration & Wizualizacja dashboardu
- Zarządzanie oszustwami
- Business Generowanie reguły/wykrywania oszustw
- Wykrywanie i profilowanie zagrożeń
- Analiza kosztów i korzyści dla Big Data wdrożenia
Dzień-1: Sesja-2: Wprowadzenie do Big Data-1
- Główne cechy Big Data – objętość, różnorodność, prędkość i prawdziwość. Architektura MPP zapewniająca głośność.
- Data Warehouses – schemat statyczny, wolno rozwijający się zbiór danych
- MPP Database, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Hadoop Rozwiązania oparte – brak warunków dotyczących struktury zbioru danych.
- Typowy wzorzec: HDFS, MapReduce (crunch), pobierz z HDFS
- Wsadowe – odpowiednie do zastosowań analitycznych/nieinteraktywnych
- Wolumen: Dane przesyłane strumieniowo CEP
- Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowości produkcyjnej – Storm/S4
- NoSQL Database s – (kolumnowe i klucz-wartość): Najlepiej nadaje się jako dodatek analityczny do hurtowni/bazy danych
Dzień-1: Sesja -3: Wprowadzenie do Big Data-2
NoSQL rozwiązań
- Sklep KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Sklep KV — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Sklep KV (hierarchiczny) - GT.m, pamięć podręczna
- Sklep KV (zamówiony) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Pamięć podręczna KV - Memcached, Repcached, spójność, Infinispan, EXtremeScale, JBoss Pamięć podręczna, prędkość, Terracoqua
- Sklep Tuple — Gigaspaces, Coord, Apache River
- Obiekt Database - ZopeDB, DB40, Shoal
- Magazyn dokumentów — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML–Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Szeroki sklep kolumnowy - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Odmiany danych: Wprowadzenie do Data Cleaning wydanie w Big Data
- RDBMS – statyczna struktura/schemat, nie promuje zwinnego, eksploracyjnego środowiska.
- NoSQL – półstrukturalna, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
- Problemy z czyszczeniem danych
Dzień-1: Sesja-4: Big Data Wprowadzenie-3: Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURALNE — hurtownie/bazy danych przedsiębiorstwa mogą przechowywać ogromne ilości danych (za opłatą), ale narzucają strukturę (nie nadają się do aktywnej eksploracji)
- Dane PÓŁSTRUKTURYZOWANE – trudne do wykonania w przypadku tradycyjnych rozwiązań (DW/DB)
- Magazynowanie danych = OGROMNY wysiłek i statyka nawet po wdrożeniu
- Różnorodność i ilość danych przetwarzanych na standardowym sprzęcie – HADOOP
- Towar sprzętowy potrzebny do utworzenia Hadoop klastra
Wprowadzenie do Map Redukuj /HDFS
- MapReduce – dystrybuuj przetwarzanie na wielu serwerach
- HDFS – udostępnianie danych lokalnie dla procesu obliczeniowego (z redundancją)
- Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za zrozumienie danych
- Programming MapReduce = praca z Java (zalety/wady), ręczne ładowanie danych do HDFS
Dzień-2: Sesja-1: Big Data Budowanie ekosystemu Big Data ETL: wszechświat Big Data Narzędzia – których użyć i kiedy?
- Hadoop a inne NoSQL rozwiązania
- Do interaktywnego, losowego dostępu do danych
- Hbase (baza danych zorientowana kolumnowo) na górze Hadoop
- Losowy dostęp do danych, ale z nałożonymi ograniczeniami (max 1 PB)
- Nie nadaje się do analiz ad hoc, jest dobry do rejestrowania, liczenia i szeregów czasowych
- Sqoop - Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume – przesyłaj strumieniowo dane (np. dane dziennika) do HDFS
Dzień-2: Sesja-2: Big Data Management System
- Ruchome części, uruchomienie/awaria węzłów obliczeniowych: ZooKeeper — dla usług konfiguracji/koordynacji/nazewnictwa
- Złożony potok/przepływ pracy: Oozie – zarządzaj przepływem pracy, zależnościami, łańcuchem
- Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacja itp. (administrator sys): Ambari
- W chmurze: Wir
Dzień-2: Sesja-3: Analityka predykcyjna w Business Inteligencja -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:
- Wprowadzenie do uczenia maszynowego
- Nauka technik klasyfikacji
- Plik szkoleniowy umożliwiający przygotowanie prognozy Bayesa
- Maszyna wektorów nośnych
- KNN Algebra p-drzewa i górnictwo pionowe
- Sieć neuronowa
- Big Data problem z dużą zmienną - Losowy las (RF)
- Big Data Problem automatyzacji – zespół wielomodelowy RF
- Automatyzacja poprzez Soft10-M
- Narzędzie do analizy tekstu — Treeminer
- Agile nauka
- Uczenie się oparte na agentach
- Uczenie się rozproszone
- Wprowadzenie do narzędzi open source do analityki predykcyjnej: R, Rapidminer, Mahut
Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej 2: Typowe problemy analizy predykcyjnej w Govt.
- Analiza wglądu
- Analiza wizualizacji
- Ustrukturyzowana analiza predykcyjna
- Nieustrukturyzowana analiza predykcyjna
- Profilowanie zagrożeń/oszustów/dostawców
- Silnik rekomendacji
- Wykrywanie wzorców
- Odkrywanie reguł/scenariuszy – porażka, oszustwo, optymalizacja
- Odkrycie przyczyny źródłowej
- Analiza sentymentów
- Analityk CRM
- Analityka sieciowa
- Analityka tekstu
- Przegląd wspomagany technologią
- Analiza oszustw
- Analityka w czasie rzeczywistym
Dzień-3: Sesja-1: Czas rzeczywisty i Scalakoniec analizy Hadoop
- Dlaczego popularne algorytmy analityczne zawodzą w Hadoop/HDFS
- Apache Hama - dla masowego synchronicznego przetwarzania rozproszonego
- Apache SPARK - do obliczeń klastrowych do analiz w czasie rzeczywistym
- CMU Graphics Lab2 — asynchroniczne podejście do przetwarzania rozproszonego oparte na grafach
- Podejście KNN oparte na p-Algebrze firmy Treeminer w celu zmniejszenia kosztów obsługi sprzętu
Dzień 3: Sesja 2 : Narzędzia do pozyskiwania elektronicznych materiałów dowodowych i kryminalistyki
- eDiscovery over Big Data a starsze dane – porównanie kosztów i wydajności
- Kodowanie predykcyjne i przegląd wspomagany technologią (TAR)
- Demo na żywo produktu Tar (vMiner), aby zrozumieć, jak działa TAR w celu szybszego odkrywania
- Szybsze indeksowanie dzięki HDFS – prędkość danych
- Przetwarzanie NLP lub języka naturalnego – różne techniki i produkty open source
- eDiscovery w językach obcych – technologia przetwarzania języków obcych
Dzień 3: Sesja 3: Big Data BI dla Cyber Security – Zrozumienie pełnego widoku 360 stopni na szybkie gromadzenie danych w celu identyfikacji zagrożeń
- Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja zabezpieczeń, obrona hosta
- Infrastruktura sieciowa/Duży potok danych/Reakcja ETL do analizy w czasie rzeczywistym
- Normatywne a predykcyjne — naprawiono regułę opartą na automatycznym wykrywaniu reguł zagrożeń na podstawie metadanych
Dzień 3: Sesja 4: Big Data w USDA: Zastosowanie w rolnictwie
- Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa opartego na czujnikach Big Data i sterowaniu
- Wprowadzenie do obrazowania satelitarnego i jego zastosowania w rolnictwie
- Integracja danych z czujników i obrazów dotyczących żyzności gleby, zaleceń dotyczących uprawy i prognozowania
- Ubezpieczenia rolnicze i Big Data
- Prognozowanie strat w uprawach
Dzień-4: Sesja-1: BI zapobiegania oszustwom z Big Data w Govt-Analiza nadużyć finansowych:
- Podstawowa klasyfikacja analityki oszustw – analiza oparta na regułach i analiza predykcyjna
- Nadzorowane i nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Oszustwo dostawcy/nadmierne pobieranie opłat za projekty
- Medicare i Medicaid oszustw — techniki wykrywania oszustw w celu przetwarzania roszczeń
- Oszustwa związane ze zwrotem kosztów podróży
- Oszustwa związane ze zwrotem podatku IRS
- Studia przypadków i demonstracja na żywo będą udostępniane wszędzie tam, gdzie dostępne będą dane.
Dzień-4: Sesja-2: Social Media Analityka – gromadzenie i analiza informacji wywiadowczych
- Big Data API ETL do ekstrakcji danych z mediów społecznościowych
- Tekst, obraz, metadane i wideo
- Analiza nastrojów z mediów społecznościowych
- Kontekstowe i bezkontekstowe filtrowanie treści w mediach społecznościowych
- Social Media Panel do integracji różnorodnych mediów społecznościowych
- Zautomatyzowane profilowanie profilu w mediach społecznościowych
- Demo na żywo każdej analizy będzie dostępne za pośrednictwem narzędzia Treeminer.
Dzień-4: Sesja-3: Big Data Analityka w przetwarzaniu obrazu i materiałach wideo
- Techniki przechowywania obrazów w Big Data – Rozwiązanie do przechowywania danych przekraczających petabajty
- LTFS i LTO
- GPFS-LTFS (warstwowe rozwiązanie do przechowywania danych w formacie Big Image)
- Podstawy analityki obrazu
- Rozpoznawanie obiektów
- Segmentacja obrazu
- Śledzenie ruchu
- Rekonstrukcja obrazu 3D
Dzień-4: Sesja-4: Big Data wnioski w NIH:
- Pojawiające się obszary Bio-informatyki
- Metagenomika i Big Data zagadnienia górnictwa
- Big Data Analityka predykcyjna dla farmakogenomiki, metabolomiki i proteomiki
- Big Data w dalszym procesie genomiki
- Zastosowanie analiz predykcyjnych Big Data w zdrowiu publicznym
Big Data Panel kontrolny zapewniający szybki dostęp do różnorodnych danych i wyświetlaczy:
- Integracja istniejącej platformy aplikacyjnej z Big Data Dashboardem
- Big Data zarządzanie
- Studium przypadku Big Data Panelu: Tableau i Pentaho
- Użyj aplikacji Big Data, aby przesyłać usługi oparte na lokalizacji w Govt.
- System śledzenia i zarządzanie
Dzień-5: Sesja-1: Jak uzasadnić Big Data wdrożenie BI w organizacji:
- Zdefiniowanie ROI dla wdrożenia Big Data.
- Studia przypadków oszczędzające czas analityka na gromadzenie i przygotowywanie danych – wzrost wydajności
- Studia przypadków dotyczące wzrostu przychodów wynikającego z oszczędności kosztów licencjonowanej bazy danych
- Przychody z usług opartych na lokalizacji
- Oszczędzanie na zapobieganiu oszustwom
- Zintegrowana metoda arkusza kalkulacyjnego pozwala obliczyć ok. wydatek a przychody/oszczędności wynikające z wdrożenia Big Data.
Dzień-5: Sesja-2: Procedura krok po kroku w celu zastąpienia starszego systemu danych na Big Data System:
- Zrozumienie praktyczne Big Data Mapa drogowa migracji
- Jakie są ważne informacje potrzebne przed zaprojektowaniem Big Data wdrożenia
- Jakie są różne sposoby obliczania objętości, prędkości, różnorodności i prawdziwości danych?
- Jak oszacować przyrost danych
- Studium przypadku
Dzień-5: Sesja 4: Przegląd Big Data dostawców i przegląd ich produktów. Sesja pytań i odpowiedzi:
- Accenture
- APTEAN (dawniej CDC Software)
- Cisco Systemy
- Chmura
- Dell
- EMC
- GoOdData Corporation
- Guavus
- Systemy danych Hitachi
- Hortonworks
- HP
- IBM-a
- Informatyka
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dawniej 10Gen)
- MU Sigma
- Netapp
- Rozwiązania Opery
- Oracle
- Pentaho
- Platforma
- Qliktech
- Kwant
- Miejsce na stojaki
- Analityka rewolucji
- Salesforce
- SAP
- SAS Instytut
- Sisense
- Oprogramowanie AG/Terakota
- Automatyzacja Soft10
- Splunk
- Sqrl
- Supermikro
- Tableau Oprogramowanie
- Teradata
- Pomyśl o wielkich analizach
- Systemy Tidemark
- Górnik
- VMware (Część EMC)
Wymagania
- Podstawowa znajomość operacji biznesowych i systemów danych w sektorze rządowym w swojej dziedzinie
- Podstawowa znajomość SQL/Oracle lub relacyjnej bazy danych
- Podstawowa znajomość Statistics (na poziomie arkusza kalkulacyjnego)
35 godzin
Opinie uczestników (1)
Zdolność trenera do dostosowania kursu do wymagań organizacji, a nie tylko do zapewnienia kursu dla samego jego przeprowadzenia.
Masilonyane - Revenue Services Lesotho
Szkolenie - Big Data Business Intelligence for Govt. Agencies
Przetłumaczone przez sztuczną inteligencję