Plan Szkolenia
Dzień 01
Przegląd Big Data Business Intelligence dla analizy wywiadu kryminalnego
- Studia przypadków z organów ścigania - Predictive Policing
- Wskaźnik przyjęcia Big Data w organach ścigania i sposób, w jaki dostosowują one swoje przyszłe działania wokół Big Data Predictive Analytics.
- Pojawiające się rozwiązania technologiczne, takie jak czujniki wystrzałów, nagrania wideo z monitoringu i media społecznościowe
- Wykorzystanie technologii Big Data do złagodzenia przeciążenia informacyjnego
- Łączenie Big Data ze starszymi danymi
- Podstawowe zrozumienie technologii wspomagających w analityce predykcyjnej
- Wizualizacja Data Integration i pulpit nawigacyjny
- Zarządzanie oszustwami
- Business Rules i wykrywanie oszustw
- Wykrywanie i profilowanie zagrożeń
- Analiza kosztów i korzyści dla wdrożenia Big Data
Wprowadzenie do Big Data
- Główne cechy Big Data - objętość, różnorodność, szybkość i wiarygodność.
- Architektura MPP (Massively Parallel Processing)
- Data Warehouse - statyczny schemat, wolno ewoluujący zbiór danych
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica itp.
- Hadoop Rozwiązania oparte - brak warunków dotyczących struktury zbioru danych.
- Typowy wzorzec: HDFS, MapReduce (crunch), pobieranie z HDFS
- Apache Spark dla przetwarzania strumieniowego
- Wsadowe - odpowiednie do przetwarzania analitycznego/nieinteraktywnego
- Objętość : Dane strumieniowe CEP
- Typowy wybór - produkty CEP (np. Infostreams, Apama, MarkLogic itp.)
- Mniej gotowe do produkcji - Storm/S4
- NoSQL Databases - (kolumnowe i klucz-wartość): Najlepiej nadają się jako analityczne uzupełnienie hurtowni danych/bazy danych.
NoSQL rozwiązania
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (Hierarchical) - GT.m, Cache
- KV Store (Ordered) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Object Database - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Odmiany danych: Wprowadzenie do Data Cleaning zagadnień w Big Data
- RDBMS - statyczna struktura/schemat, nie promuje zwinnego, eksploracyjnego środowiska.
- NoSQL - częściowo ustrukturyzowane, wystarczająca struktura do przechowywania danych bez dokładnego schematu przed zapisaniem danych.
- Kwestie czyszczenia danych
Hadoop
- Kiedy wybrać Hadoop?
- STRUKTURYZOWANE - hurtownie danych / bazy danych przedsiębiorstw mogą przechowywać ogromne ilości danych (kosztem), ale narzucają strukturę (nie są dobre do aktywnej eksploracji).
- Dane SEMI STRUCTURED - trudne do przeprowadzenia przy użyciu tradycyjnych rozwiązań (DW/DB)
- Magazynowanie danych = OGROMNY wysiłek i statyczność nawet po wdrożeniu
- Różnorodność i ilość danych, przetwarzanych na sprzęcie typu commodity - HADOOP
- Sprzęt komputerowy potrzebny do stworzenia klastra Hadoop
Wprowadzenie do Map Redukuj /HDFS
- MapReduce - dystrybucja obliczeń na wiele serwerów
- HDFS - udostępnia dane lokalnie dla procesu obliczeniowego (z redundancją)
- Dane - mogą być nieustrukturyzowane/bez schematu (w przeciwieństwie do RDBMS)
- Odpowiedzialność programisty za nadanie sensu danym
- Programming MapReduce = praca z Java (plusy/konsekwencje), ręczne ładowanie danych do HDFS
Dzień 02
Ekosystem Big Data - Budowanie Big Data ETL (Extract, Transform, Load) - Których Big Data narzędzi używać i kiedy?
- Hadoop vs. Inne NoSQL rozwiązania
- Dla interaktywnego, losowego dostępu do danych
- Hbase (kolumnowa baza danych) na Hadoop
- Losowy dostęp do danych, ale nałożone ograniczenia (maks. 1 PB)
- Nie nadaje się do analizy ad-hoc, dobre do rejestrowania, liczenia, szeregów czasowych
- Sqoop - import z baz danych do Hive lub HDFS (dostęp JDBC/ODBC)
- Flume - strumieniowe przesyłanie danych (np. danych dziennika) do HDFS
Big Data Management Układ
- Ruchome części, uruchamianie/awaria węzłów obliczeniowych: ZooKeeper - do konfiguracji/koordynacji/usług nazewnictwa
- Złożony potok/przepływ pracy: Oozie - zarządzanie przepływem pracy, zależnościami, daisy chain
- Wdrażanie, konfiguracja, zarządzanie klastrami, aktualizacja itp. (administrator systemu) :Ambari
- W chmurze: Whirr
Predictive Analytics — Podstawowe techniki i Machine Learning oparta na Business inteligencji
- Wprowadzenie do Machine Learning
- Uczenie się technik klasyfikacji
- Przewidywanie bayesowskie - przygotowanie pliku szkoleniowego
- Maszyna wektorów wspierających
- KNN p-Tree Algebra i eksploracja pionowa
- Neural Networks
- Big Data Problem dużej zmiennej -- Las losowy (RF)
- Big Data Problem automatyzacji - zespół wielu modeli RF
- Automatyzacja przez Soft10-M
- Narzędzie do analizy tekstu - Treeminer
- Uczenie się Agile
- Uczenie oparte na agentach
- Uczenie rozproszone
- Wprowadzenie do narzędzi open source do analizy predykcyjnej: R, Python, Rapidminer, Mahut
Predictive Analytics Ekosystem i jego zastosowanie w analizie wywiadu kryminalnego
- Technologia i proces badawczy
- Analityka wglądu
- Analityka wizualizacji
- Ustrukturyzowana analityka predykcyjna
- Nieuporządkowana analiza predykcyjna
- Profilowanie zagrożeń/fraudstar/sprzedawcy
- Silnik rekomendacji
- Wykrywanie wzorców
- Wykrywanie reguł/scenariuszy - awaria, oszustwo, optymalizacja
- Wykrywanie przyczyn źródłowych
- Analiza nastrojów
- Analityka CRM
- Analityka sieciowa
- Analiza tekstu w celu uzyskania wglądu w transkrypcje, zeznania świadków, rozmowy internetowe itp.
- Przegląd wspomagany technologią
- Analiza oszustw
- Analityka w czasie rzeczywistym
Dzień 03
Analityka w czasie rzeczywistym i Scala ble w porównaniu do Hadoop
- Dlaczego typowe algorytmy analityczne zawodzą w Hadoop/HDFS
- Apache Hama - dla masowych synchronicznych obliczeń rozproszonych
- Apache SPARK - do obliczeń klastrowych i analityki w czasie rzeczywistym
- CMU Graphics Lab2 - asynchroniczne podejście do obliczeń rozproszonych oparte na grafach
- KNN p -- Podejście oparte na algebrze z Treeminer w celu zmniejszenia kosztów eksploatacji sprzętu
Narzędzia do eDiscovery i kryminalistyki
- eDiscovery nad Big Data vs. starsze dane - porównanie kosztów i wydajności
- Kodowanie predykcyjne i przegląd wspomagany technologią (TAR)
- Demonstracja vMiner na żywo w celu zrozumienia, w jaki sposób TAR umożliwia szybsze wykrywanie danych
- Szybsze indeksowanie przez HDFS - szybkość danych
- NLP (przetwarzanie języka naturalnego) - produkty i techniki open source
- eDiscovery w językach obcych - technologia przetwarzania w językach obcych
Big Data BI dla Cyber Security – Uzyskanie widoku 360 stopni, szybkie gromadzenie danych i identyfikacja zagrożeń
- Zrozumienie podstaw analizy bezpieczeństwa - powierzchnia ataku, błędna konfiguracja zabezpieczeń, obrona hosta
- Infrastruktura sieciowa / Duży datapipe / Odpowiedź ETL dla analityki w czasie rzeczywistym
- Preskryptywne vs predykcyjne - oparte na stałych regułach vs automatyczne wykrywanie reguł zagrożeń na podstawie metadanych
Gromadzenie różnych danych do analizy wywiadu kryminalnego
- Wykorzystanie IoT (Internet of Things) jako czujników do przechwytywania danych
- Wykorzystanie zdjęć satelitarnych do nadzoru krajowego
- Wykorzystanie danych z monitoringu i obrazów do identyfikacji przestępców
- Inne technologie gromadzenia danych - drony, kamery na ciele, systemy znakowania GPS i technologia termowizyjna
- Łączenie zautomatyzowanego wyszukiwania danych z danymi uzyskanymi od informatorów, przesłuchań i badań
- [działalność przestępcza
Dzień 04
Zapobieganie oszustwom BI z Big Data w Fraud Analytics
- Podstawowa klasyfikacja Fraud Analytics - analityka oparta na regułach a analityka predykcyjna
- Nadzorowane i nienadzorowane uczenie maszynowe do wykrywania wzorców oszustw
- Business do oszustw biznesowych, oszustw medycznych, oszustw ubezpieczeniowych, uchylania się od płacenia podatków i prania pieniędzy
Social Media Analityka – gromadzenie i analiza danych wywiadowczych
- Jak Social Media jest wykorzystywane przez przestępców do organizowania, rekrutowania i planowania?
- Big Data API ETL do wyodrębniania danych z mediów społecznościowych
- Tekst, obraz, metadane i wideo
- Analiza nastrojów z mediów społecznościowych
- Kontekstowe i bezkontekstowe filtrowanie danych z mediów społecznościowych
- Social Media Pulpit nawigacyjny do integracji różnych mediów społecznościowych
- Zautomatyzowane profilowanie profilu w mediach społecznościowych
- Demonstracja na żywo każdej analizy zostanie przeprowadzona za pomocą narzędzia Treeminer Tool
Big Data Analityka w przetwarzaniu obrazu i źródłach wideo
- Techniki przechowywania obrazów w Big Data -- Rozwiązanie do przechowywania danych przekraczających petabajty
- LTFS (Linear Tape File System) i LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - warstwowe rozwiązanie pamięci masowej dla dużych danych graficznych
- Podstawy analizy obrazów
- Rozpoznawanie obiektów
- Segmentacja obrazu
- Śledzenie ruchu
- Rekonstrukcja obrazu 3-D
Biometryki, DNA i programy identyfikacji nowej generacji
- Poza pobieraniem odcisków palców i rozpoznawaniem twarzy
- Rozpoznawanie mowy, naciśnięcie klawisza (analiza wzorca pisania użytkownika) i CODIS (połączony system indeksu DNA)
- Poza dopasowywaniem DNA: wykorzystanie fenotypowania kryminalistycznego DNA do konstruowania twarzy z próbek DNA
Big Data Panel kontrolny zapewniający szybki dostęp do różnorodnych danych i wyświetlaczy:
- Integracja istniejącej platformy aplikacji z Big Data Dashboardem
- Zarządzanie Big Data
- Studium przypadku Big Data Dashboard: Tableau i Pentaho
- Użycie aplikacji Big Data do wypychania usług opartych na lokalizacji w Govt.
- System śledzenia i zarządzanie
Dzień 05
Jak uzasadnić wdrożenie Big Data BI w organizacji:
- Definiowanie ROI (Return on Investment) dla wdrożenia Big Data
- Studia przypadków dla oszczędności czasu analityków w gromadzeniu i przygotowywaniu danych - zwiększenie produktywności
- Wzrost przychodów dzięki niższym kosztom licencjonowania baz danych
- Wzrost przychodów dzięki usługom opartym na lokalizacji
- Oszczędność kosztów dzięki zapobieganiu oszustwom
- Zintegrowane podejście arkusza kalkulacyjnego do obliczania przybliżonych wydatków w porównaniu z zyskami/oszczędnościami z wdrożenia Big Data.
Procedura krok po kroku dotycząca wymiany starszego systemu danych na system Big Data.
- Mapa drogowa migracji Big Data
- Jakie krytyczne informacje są potrzebne przed zaprojektowaniem systemu Big Data?
- Jakie są różne sposoby obliczania objętości, szybkości, różnorodności i prawdziwości danych?
- Jak oszacować przyrost danych
- Studia przypadków
Przegląd Big Data dostawców i recenzja ich produktów.
- Accenture
- APTEAN (dawniej CDC Software)
- Cisco Systemy
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (dawniej 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Instytut
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Oprogramowanie Tableau
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (część EMC)
Sesja pytań i odpowiedzi
Wymagania
- Znajomość procesów egzekwowania prawa i systemów danych
- Podstawowa znajomość SQL/Oracle lub relacyjnej bazy danych
- Podstawowa znajomość statystyki (na poziomie arkusza kalkulacyjnego)
Odbiorcy
- Specjaliści ds. egzekwowania prawa z wykształceniem technicznym
Opinie uczestników (2)
Deepthi była super dostosowana do moich potrzeb, potrafiła powiedzieć, kiedy dodać warstwy złożoności, a kiedy powstrzymać się i przyjąć bardziej ustrukturyzowane podejście. Deepthi naprawdę pracowała w moim tempie i upewniła się, że jestem w stanie samodzielnie korzystać z nowych funkcji / narzędzi, najpierw pokazując, a następnie pozwalając mi samodzielnie odtworzyć elementy, co naprawdę pomogło osadzić szkolenie. Nie mógłbym być bardziej zadowolony z wyników tego szkolenia i poziomu wiedzy Deepthi!
Deepthi - Invest Northern Ireland
Szkolenie - IBM Cognos Analytics
Przetłumaczone przez sztuczną inteligencję
Forma prowadzenia jako zajęć interaktywnych