Plan Szkolenia

Każda sesja trwa 2 godziny

Dzień-1: Sesja -1: Business Przegląd powodów Big Data Business Inteligencja w Gowt.

  • Studia przypadków z NIH, DoE
  • Big Data współczynnik adaptacji w Govt. Agencje i sposób, w jaki dostosowują swoje przyszłe działania do Big Data Predictive Analytics
  • Szeroki obszar zastosowań w DoD, NSA, IRS, USDA itp.
  • Łączenie Big Data ze starszymi danymi
  • Podstawowa wiedza na temat technologii wspomagających w analityce predykcyjnej
  • Data Integration & Wizualizacja dashboardu
  • Zarządzanie oszustwami
  • Business Generowanie reguły/wykrywania oszustw
  • Wykrywanie i profilowanie zagrożeń
  • Analiza kosztów i korzyści dla Big Data wdrożenia

Dzień-1: Sesja-2: Wprowadzenie do Big Data-1

  • Główne cechy Big Data – objętość, różnorodność, prędkość i prawdziwość. Architektura MPP zapewniająca głośność.
  • Data Warehouses – schemat statyczny, wolno rozwijający się zbiór danych
  • MPP Database, takie jak Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Hadoop Rozwiązania oparte – brak warunków dotyczących struktury zbioru danych.
  • Typowy wzorzec: HDFS, MapReduce (crunch), pobierz z HDFS
  • Wsadowe – odpowiednie do zastosowań analitycznych/nieinteraktywnych
  • Wolumen: Dane przesyłane strumieniowo CEP
  • Typowe wybory – produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowości produkcyjnej – Storm/S4
  • NoSQL Database s – (kolumnowe i klucz-wartość): Najlepiej nadaje się jako dodatek analityczny do hurtowni/bazy danych

Dzień-1: Sesja -3: Wprowadzenie do Big Data-2

NoSQL rozwiązań

  • Sklep KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Sklep KV — Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Sklep KV (hierarchiczny) - GT.m, pamięć podręczna
  • Sklep KV (zamówiony) — TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Pamięć podręczna KV - Memcached, Repcached, spójność, Infinispan, EXtremeScale, JBoss Pamięć podręczna, prędkość, Terracoqua
  • Sklep Tuple — Gigaspaces, Coord, Apache River
  • Obiekt Database - ZopeDB, DB40, Shoal
  • Magazyn dokumentów — CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML–Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Szeroki sklep kolumnowy - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Odmiany danych: Wprowadzenie do Data Cleaning wydanie w Big Data

  • RDBMS – statyczna struktura/schemat, nie promuje zwinnego, eksploracyjnego środowiska.
  • NoSQL – półstrukturalna, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych
  • Problemy z czyszczeniem danych

Dzień-1: Sesja-4: Big Data Wprowadzenie-3: Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURALNE — hurtownie/bazy danych przedsiębiorstwa mogą przechowywać ogromne ilości danych (za opłatą), ale narzucają strukturę (nie nadają się do aktywnej eksploracji)
  • Dane PÓŁSTRUKTURYZOWANE – trudne do wykonania w przypadku tradycyjnych rozwiązań (DW/DB)
  • Magazynowanie danych = OGROMNY wysiłek i statyka nawet po wdrożeniu
  • Różnorodność i ilość danych przetwarzanych na standardowym sprzęcie – HADOOP
  • Towar sprzętowy potrzebny do utworzenia Hadoop klastra

Wprowadzenie do Map Redukuj /HDFS

  • MapReduce – dystrybuuj przetwarzanie na wielu serwerach
  • HDFS – udostępnianie danych lokalnie dla procesu obliczeniowego (z redundancją)
  • Dane – mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za zrozumienie danych
  • Programming MapReduce = praca z Java (zalety/wady), ręczne ładowanie danych do HDFS

Dzień-2: Sesja-1: Big Data Budowanie ekosystemu Big Data ETL: wszechświat Big Data Narzędzia – których użyć i kiedy?

  • Hadoop a inne NoSQL rozwiązania
  • Do interaktywnego, losowego dostępu do danych
  • Hbase (baza danych zorientowana kolumnowo) na górze Hadoop
  • Losowy dostęp do danych, ale z nałożonymi ograniczeniami (max 1 PB)
  • Nie nadaje się do analiz ad hoc, jest dobry do rejestrowania, liczenia i szeregów czasowych
  • Sqoop - Import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume – przesyłaj strumieniowo dane (np. dane dziennika) do HDFS

Dzień-2: Sesja-2: Big Data Management System

  • Ruchome części, uruchomienie/awaria węzłów obliczeniowych: ZooKeeper — dla usług konfiguracji/koordynacji/nazewnictwa
  • Złożony potok/przepływ pracy: Oozie – zarządzaj przepływem pracy, zależnościami, łańcuchem
  • Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacja itp. (administrator sys): Ambari
  • W chmurze: Wir

Dzień-2: Sesja-3: Analityka predykcyjna w Business Inteligencja -1: Podstawowe techniki i BI oparte na uczeniu maszynowym:

  • Wprowadzenie do uczenia maszynowego
  • Nauka technik klasyfikacji
  • Plik szkoleniowy umożliwiający przygotowanie prognozy Bayesa
  • Maszyna wektorów nośnych
  • KNN Algebra p-drzewa i górnictwo pionowe
  • Sieć neuronowa
  • Big Data problem z dużą zmienną - Losowy las (RF)
  • Big Data Problem automatyzacji – zespół wielomodelowy RF
  • Automatyzacja poprzez Soft10-M
  • Narzędzie do analizy tekstu — Treeminer
  • Agile nauka
  • Uczenie się oparte na agentach
  • Uczenie się rozproszone
  • Wprowadzenie do narzędzi open source do analityki predykcyjnej: R, Rapidminer, Mahut

Dzień 2: Sesja 4 Ekosystem analityki predykcyjnej 2: Typowe problemy analizy predykcyjnej w Govt.

  • Analiza wglądu
  • Analiza wizualizacji
  • Ustrukturyzowana analiza predykcyjna
  • Nieustrukturyzowana analiza predykcyjna
  • Profilowanie zagrożeń/oszustów/dostawców
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Odkrywanie reguł/scenariuszy – porażka, oszustwo, optymalizacja
  • Odkrycie przyczyny źródłowej
  • Analiza sentymentów
  • Analityk CRM
  • Analityka sieciowa
  • Analityka tekstu
  • Przegląd wspomagany technologią
  • Analiza oszustw
  • Analityka w czasie rzeczywistym

Dzień-3: Sesja-1: Czas rzeczywisty i Scalakoniec analizy Hadoop

  • Dlaczego popularne algorytmy analityczne zawodzą w Hadoop/HDFS
  • Apache Hama - dla masowego synchronicznego przetwarzania rozproszonego
  • Apache SPARK - do obliczeń klastrowych do analiz w czasie rzeczywistym
  • CMU Graphics Lab2 — asynchroniczne podejście do przetwarzania rozproszonego oparte na grafach
  • Podejście KNN oparte na p-Algebrze firmy Treeminer w celu zmniejszenia kosztów obsługi sprzętu

Dzień 3: Sesja 2 : Narzędzia do pozyskiwania elektronicznych materiałów dowodowych i kryminalistyki

  • eDiscovery over Big Data a starsze dane – porównanie kosztów i wydajności
  • Kodowanie predykcyjne i przegląd wspomagany technologią (TAR)
  • Demo na żywo produktu Tar (vMiner), aby zrozumieć, jak działa TAR w celu szybszego odkrywania
  • Szybsze indeksowanie dzięki HDFS – prędkość danych
  • Przetwarzanie NLP lub języka naturalnego – różne techniki i produkty open source
  • eDiscovery w językach obcych – technologia przetwarzania języków obcych

Dzień 3: Sesja 3: Big Data BI dla Cyber Security – Zrozumienie pełnego widoku 360 stopni na szybkie gromadzenie danych w celu identyfikacji zagrożeń

  • Zrozumienie podstaw analityki bezpieczeństwa – powierzchnia ataku, błędna konfiguracja zabezpieczeń, obrona hosta
  • Infrastruktura sieciowa/Duży potok danych/Reakcja ETL do analizy w czasie rzeczywistym
  • Normatywne a predykcyjne — naprawiono regułę opartą na automatycznym wykrywaniu reguł zagrożeń na podstawie metadanych

Dzień 3: Sesja 4: Big Data w USDA: Zastosowanie w rolnictwie

  • Wprowadzenie do IoT (Internetu Rzeczy) dla rolnictwa opartego na czujnikach Big Data i sterowaniu
  • Wprowadzenie do obrazowania satelitarnego i jego zastosowania w rolnictwie
  • Integracja danych z czujników i obrazów dotyczących żyzności gleby, zaleceń dotyczących uprawy i prognozowania
  • Ubezpieczenia rolnicze i Big Data
  • Prognozowanie strat w uprawach

Dzień-4: Sesja-1: BI zapobiegania oszustwom z Big Data w Govt-Analiza nadużyć finansowych:

  • Podstawowa klasyfikacja analityki oszustw – analiza oparta na regułach i analiza predykcyjna
  • Nadzorowane i nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Oszustwo dostawcy/nadmierne pobieranie opłat za projekty
  • Medicare i Medicaid oszustw — techniki wykrywania oszustw w celu przetwarzania roszczeń
  • Oszustwa związane ze zwrotem kosztów podróży
  • Oszustwa związane ze zwrotem podatku IRS
  • Studia przypadków i demonstracja na żywo będą udostępniane wszędzie tam, gdzie dostępne będą dane.

Dzień-4: Sesja-2: Social Media Analityka – gromadzenie i analiza informacji wywiadowczych

  • Big Data API ETL do ekstrakcji danych z mediów społecznościowych
  • Tekst, obraz, metadane i wideo
  • Analiza nastrojów z mediów społecznościowych
  • Kontekstowe i bezkontekstowe filtrowanie treści w mediach społecznościowych
  • Social Media Panel do integracji różnorodnych mediów społecznościowych
  • Zautomatyzowane profilowanie profilu w mediach społecznościowych
  • Demo na żywo każdej analizy będzie dostępne za pośrednictwem narzędzia Treeminer.

Dzień-4: Sesja-3: Big Data Analityka w przetwarzaniu obrazu i materiałach wideo

  • Techniki przechowywania obrazów w Big Data – Rozwiązanie do przechowywania danych przekraczających petabajty
  • LTFS i LTO
  • GPFS-LTFS (warstwowe rozwiązanie do przechowywania danych w formacie Big Image)
  • Podstawy analityki obrazu
  • Rozpoznawanie obiektów
  • Segmentacja obrazu
  • Śledzenie ruchu
  • Rekonstrukcja obrazu 3D

Dzień-4: Sesja-4: Big Data wnioski w NIH:

  • Pojawiające się obszary Bio-informatyki
  • Metagenomika i Big Data zagadnienia górnictwa
  • Big Data Analityka predykcyjna dla farmakogenomiki, metabolomiki i proteomiki
  • Big Data w dalszym procesie genomiki
  • Zastosowanie analiz predykcyjnych Big Data w zdrowiu publicznym

Big Data Panel kontrolny zapewniający szybki dostęp do różnorodnych danych i wyświetlaczy:

  • Integracja istniejącej platformy aplikacyjnej z Big Data Dashboardem
  • Big Data zarządzanie
  • Studium przypadku Big Data Panelu: Tableau i Pentaho
  • Użyj aplikacji Big Data, aby przesyłać usługi oparte na lokalizacji w Govt.
  • System śledzenia i zarządzanie

Dzień-5: Sesja-1: Jak uzasadnić Big Data wdrożenie BI w organizacji:

  • Zdefiniowanie ROI dla wdrożenia Big Data.
  • Studia przypadków oszczędzające czas analityka na gromadzenie i przygotowywanie danych – wzrost wydajności
  • Studia przypadków dotyczące wzrostu przychodów wynikającego z oszczędności kosztów licencjonowanej bazy danych
  • Przychody z usług opartych na lokalizacji
  • Oszczędzanie na zapobieganiu oszustwom
  • Zintegrowana metoda arkusza kalkulacyjnego pozwala obliczyć ok. wydatek a przychody/oszczędności wynikające z wdrożenia Big Data.

Dzień-5: Sesja-2: Procedura krok po kroku w celu zastąpienia starszego systemu danych na Big Data System:

  • Zrozumienie praktyczne Big Data Mapa drogowa migracji
  • Jakie są ważne informacje potrzebne przed zaprojektowaniem Big Data wdrożenia
  • Jakie są różne sposoby obliczania objętości, prędkości, różnorodności i prawdziwości danych?
  • Jak oszacować przyrost danych
  • Studium przypadku

Dzień-5: Sesja 4: Przegląd Big Data dostawców i przegląd ich produktów. Sesja pytań i odpowiedzi:

  • Accenture
  • APTEAN (dawniej CDC Software)
  • Cisco Systemy
  • Chmura
  • Dell
  • EMC
  • GoOdData Corporation
  • Guavus
  • Systemy danych Hitachi
  • Hortonworks
  • HP
  • IBM-a
  • Informatyka
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Rozwiązania Opery
  • Oracle
  • Pentaho
  • Platforma
  • Qliktech
  • Kwant
  • Miejsce na stojaki
  • Analityka rewolucji
  • Salesforce
  • SAP
  • SAS Instytut
  • Sisense
  • Oprogramowanie AG/Terakota
  • Automatyzacja Soft10
  • Splunk
  • Sqrl
  • Supermikro
  • Tableau Oprogramowanie
  • Teradata
  • Pomyśl o wielkich analizach
  • Systemy Tidemark
  • Górnik
  • VMware (Część EMC)

Wymagania

  • Podstawowa znajomość operacji biznesowych i systemów danych w sektorze rządowym w swojej dziedzinie
  • Podstawowa znajomość SQL/Oracle lub relacyjnej bazy danych
  • Podstawowa znajomość Statistics (na poziomie arkusza kalkulacyjnego) 
 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (1)

Propozycje terminów

Powiązane Kategorie