Plan Szkolenia

Dzień 01

Przegląd Big Data Business Intelligence dla analizy wywiadu kryminalnego

  • Studia przypadków z organów ścigania - Predictive Policing
  • Wskaźnik przyjęcia Big Data w organach ścigania i sposób, w jaki dostosowują one swoje przyszłe działania wokół Big Data Predictive Analytics.
  • Pojawiające się rozwiązania technologiczne, takie jak czujniki wystrzałów, nagrania wideo z monitoringu i media społecznościowe
  • Wykorzystanie technologii Big Data do złagodzenia przeciążenia informacyjnego
  • Łączenie Big Data ze starszymi danymi
  • Podstawowe zrozumienie technologii wspomagających w analityce predykcyjnej
  • Wizualizacja Data Integration i pulpit nawigacyjny
  • Zarządzanie oszustwami
  • Business Rules i wykrywanie oszustw
  • Wykrywanie i profilowanie zagrożeń
  • Analiza kosztów i korzyści dla wdrożenia Big Data

Wprowadzenie do Big Data

  • Główne cechy Big Data - objętość, różnorodność, szybkość i wiarygodność.
  • Architektura MPP (Massively Parallel Processing)
  • Data Warehouse - statyczny schemat, wolno ewoluujący zbiór danych
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
  • Hadoop Rozwiązania oparte - brak warunków dotyczących struktury zbioru danych.
  • Typowy wzorzec: HDFS, MapReduce (crunch), pobieranie z HDFS
  • Apache Spark dla przetwarzania strumieniowego
  • Wsadowe - odpowiednie do przetwarzania analitycznego/nieinteraktywnego
  • Objętość : Dane strumieniowe CEP
  • Typowy wybór - produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
  • Mniej gotowe do produkcji - Storm/S4
  • NoSQL Databases - (kolumnowe i klucz-wartość): Najlepiej nadają się jako analityczne uzupełnienie hurtowni danych/bazy danych.

NoSQL rozwiązania

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (Hierarchical) - GT.m, Cache
  • KV Store (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Object Database - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Odmiany danych: Wprowadzenie do Data Cleaning zagadnień w Big Data

  • RDBMS - statyczna struktura/schemat, nie promuje zwinnego, eksploracyjnego środowiska.
  • NoSQL - częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych.
  • Kwestie czyszczenia danych

Hadoop

  • Kiedy wybrać Hadoop?
  • STRUKTURYZOWANE - hurtownie danych / bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (kosztem), ale narzucają strukturę (nie są dobre do aktywnej eksploracji).
  • Dane SEMI STRUCTURED - trudne do przeprowadzenia przy użyciu tradycyjnych rozwiązań (DW/DB)
  • Magazynowanie danych = OGROMNY wysiłek i statyczność nawet po wdrożeniu
  • Różnorodność i ilość danych, przetwarzanych na sprzęcie typu commodity - HADOOP
  • Sprzęt komputerowy potrzebny do stworzenia klastra Hadoop

Wprowadzenie do Map Redukuj /HDFS

  • MapReduce - dystrybucja obliczeń na wiele serwerów
  • HDFS - udostępnia dane lokalnie dla procesu obliczeniowego (z redundancją)
  • Dane - mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
  • Odpowiedzialność programisty za nadanie sensu danym
  • Programming MapReduce = praca z Java (plusy/konsekwencje), ręczne ładowanie danych do HDFS

Dzień 02

Ekosystem Big Data - Budowanie Big Data ETL (Extract, Transform, Load) - Których Big Data narzędzi używać i kiedy?

  • Hadoop vs. Inne NoSQL rozwiązania
  • Dla interaktywnego, losowego dostępu do danych
  • Hbase (kolumnowa baza danych) na Hadoop
  • Losowy dostęp do danych, ale nałożone ograniczenia (maks. 1 PB)
  • Nie nadaje się do analizy ad-hoc, dobre do rejestrowania, liczenia, szeregów czasowych
  • Sqoop - import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
  • Flume - strumieniowe przesyłanie danych (np. danych dziennika) do HDFS

Big Data Management Układ

  • Ruchome części, uruchamianie/awaria węzłów obliczeniowych: ZooKeeper - do konfiguracji/koordynacji/usług nazewnictwa
  • Złożony potok/przepływ pracy: Oozie - zarządzanie przepływem pracy, zależnościami, daisy chain
  • Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacja itp. (administrator systemu) :Ambari
  • W chmurze: Whirr

Predictive Analytics — Podstawowe techniki i Machine Learning oparta na Business inteligencji

  • Wprowadzenie do Machine Learning
  • Uczenie się technik klasyfikacji
  • Przewidywanie bayesowskie - przygotowanie pliku szkoleniowego
  • Maszyna wektorów wspierających
  • KNN p-Tree Algebra i eksploracja pionowa
  • Neural Networks
  • Big Data Problem dużej zmiennej -- Las losowy (RF)
  • Big Data Problem automatyzacji - zespół wielu modeli RF
  • Automatyzacja przez Soft10-M
  • Narzędzie do analizy tekstu - Treeminer
  • Uczenie się Agile
  • Uczenie oparte na agentach
  • Uczenie rozproszone
  • Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Python, Rapidminer, Mahut

Predictive Analytics Ekosystem i jego zastosowanie w analizie wywiadu kryminalnego

  • Technologia i proces badawczy
  • Analityka wglądu
  • Analityka wizualizacji
  • Ustrukturyzowana analityka predykcyjna
  • Nieuporządkowana analiza predykcyjna
  • Profilowanie zagrożeń/fraudstar/sprzedawcy
  • Silnik rekomendacji
  • Wykrywanie wzorców
  • Wykrywanie reguł/scenariuszy - awaria, oszustwo, optymalizacja
  • Wykrywanie przyczyn źródłowych
  • Analiza nastrojów
  • Analityka CRM
  • Analityka sieciowa
  • Analiza tekstu w celu uzyskania wglądu w transkrypcje, zeznania świadków, rozmowy internetowe itp.
  • Przegląd wspomagany technologią
  • Analiza oszustw
  • Analityka w czasie rzeczywistym

Dzień 03

Analityka w czasie rzeczywistym i Scala ble w porównaniu do Hadoop

  • Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
  • Apache Hama - dla masowych synchronicznych obliczeń rozproszonych
  • Apache SPARK - do obliczeń klastrowych i analityki w czasie rzeczywistym
  • CMU Graphics Lab2 - asynchroniczne podejście do obliczeń rozproszonych oparte na grafach
  • KNN p -- Podejście oparte na algebrze z Treeminer w celu zmniejszenia kosztów eksploatacji sprzętu

Narzędzia do eDiscovery i kryminalistyki

  • eDiscovery nad Big Data vs. starsze dane - porównanie kosztów i wydajności
  • Kodowanie predykcyjne i przegląd wspomagany technologią (TAR)
  • Demonstracja vMiner na żywo w celu zrozumienia, w jaki sposób TAR umożliwia szybsze wykrywanie danych
  • Szybsze indeksowanie przez HDFS - szybkość danych
  • NLP (przetwarzanie języka naturalnego) - produkty i techniki open source
  • eDiscovery w językach obcych - technologia przetwarzania w językach obcych

Big Data BI dla Cyber Security – Uzyskanie widoku 360 stopni, szybkie gromadzenie danych i identyfikacja zagrożeń

  • Zrozumienie podstaw analizy bezpieczeństwa - powierzchnia ataku, błędna konfiguracja zabezpieczeń, obrona hosta
  • Infrastruktura sieciowa / Duży datapipe / Odpowiedź ETL dla analityki w czasie rzeczywistym
  • Preskryptywne vs predykcyjne - oparte na stałych regułach vs automatyczne wykrywanie reguł zagrożeń na podstawie metadanych

Gromadzenie różnych danych do analizy wywiadu kryminalnego

  • Wykorzystanie IoT (Internet of Things) jako czujników do przechwytywania danych
  • Wykorzystanie zdjęć satelitarnych do nadzoru krajowego
  • Wykorzystanie danych z monitoringu i obrazów do identyfikacji przestępców
  • Inne technologie gromadzenia danych - drony, kamery na ciele, systemy znakowania GPS i technologia termowizyjna
  • Łączenie zautomatyzowanego wyszukiwania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
  • [działalność przestępcza

Dzień 04

Zapobieganie oszustwom BI z Big Data w Fraud Analytics

  • Podstawowa klasyfikacja Fraud Analytics - analityka oparta na regułach a analityka predykcyjna
  • Nadzorowane i nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
  • Business do oszustw biznesowych, oszustw medycznych, oszustw ubezpieczeniowych, uchylania się od płacenia podatków i prania pieniędzy

Social Media Analityka – gromadzenie i analiza danych wywiadowczych

  • Jak Social Media jest wykorzystywane przez przestępców do organizowania, rekrutowania i planowania?
  • Big Data API ETL do wyodrębniania danych z mediów społecznościowych
  • Tekst, obraz, metadane i wideo
  • Analiza nastrojów z mediów społecznościowych
  • Kontekstowe i bezkontekstowe filtrowanie danych z mediów społecznościowych
  • Social Media Pulpit nawigacyjny do integracji różnych mediów społecznościowych
  • Zautomatyzowane profilowanie profilu w mediach społecznościowych
  • Demonstracja na żywo każdej analizy zostanie przeprowadzona za pomocą narzędzia Treeminer Tool

Big Data Analityka w przetwarzaniu obrazu i źródłach wideo

  • Techniki przechowywania obrazów w Big Data -- Rozwiązanie do przechowywania danych przekraczających petabajty
  • LTFS (Linear Tape File System) i LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - warstwowe rozwiązanie pamięci masowej dla dużych danych graficznych
  • Podstawy analizy obrazów
  • Rozpoznawanie obiektów
  • Segmentacja obrazu
  • Śledzenie ruchu
  • Rekonstrukcja obrazu 3-D

Biometryki, DNA i programy identyfikacji nowej generacji

  • Poza pobieraniem odcisków palców i rozpoznawaniem twarzy
  • Rozpoznawanie mowy, naciśnięcie klawisza (analiza wzorca pisania użytkownika) i CODIS (połączony system indeksu DNA)
  • Poza dopasowywaniem DNA: wykorzystanie fenotypowania kryminalistycznego DNA do konstruowania twarzy z próbek DNA

Big Data Panel kontrolny zapewniający szybki dostęp do różnorodnych danych i wyświetlaczy:

  • Integracja istniejącej platformy aplikacji z Big Data Dashboardem
  • Zarządzanie Big Data
  • Studium przypadku Big Data Dashboard: Tableau i Pentaho
  • Użycie aplikacji Big Data do wypychania usług opartych na lokalizacji w Govt.
  • System śledzenia i zarządzanie

Dzień 05

Jak uzasadnić wdrożenie Big Data BI w organizacji:

  • Definiowanie ROI (Return on Investment) dla wdrożenia Big Data
  • Studia przypadków dla oszczędności czasu analityków w gromadzeniu i przygotowywaniu danych - zwiększenie produktywności
  • Wzrost przychodów dzięki niższym kosztom licencjonowania baz danych
  • Wzrost przychodów dzięki usługom opartym na lokalizacji
  • Oszczędność kosztów dzięki zapobieganiu oszustwom
  • Zintegrowane podejście arkusza kalkulacyjnego do obliczania przybliżonych wydatków w porównaniu z zyskami/oszczędnościami z wdrożenia Big Data.

Procedura krok po kroku dotycząca wymiany starszego systemu danych na system Big Data.

  • Mapa drogowa migracji Big Data
  • Jakie krytyczne informacje są potrzebne przed zaprojektowaniem systemu Big Data?
  • Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i prawdziwości danych?
  • Jak oszacować przyrost danych
  • Studia przypadków

Przegląd Big Data dostawców i recenzja ich produktów.

  • Accenture
  • APTEAN (dawniej CDC Software)
  • Cisco Systemy
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (dawniej 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Instytut
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Oprogramowanie Tableau
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (część EMC)

Sesja pytań i odpowiedzi

Wymagania

  • Znajomość procesów egzekwowania prawa i systemów danych
  • Podstawowa znajomość SQL/Oracle lub relacyjnej bazy danych
  • Podstawowa znajomość statystyki (na poziomie arkusza kalkulacyjnego)

Odbiorcy

  • Specjaliści ds. egzekwowania prawa z wykształceniem technicznym
 35 godzin

Liczba uczestników


cena netto za uczestnika

Opinie uczestników (2)

Propozycje terminów

Powiązane Kategorie