Adresaci szkolenia

Szkolenie jest adresowane do analityków i programistów, którzy chcą zrobić swój pierwszy krok w kierunku poznania Big Data - technologii, gdzie wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnej architektury i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych.

Cel szkolenia

Uczestnicy szkolenia zdobędą podstawową wiedzę dotyczącą problemów skali Big Data, zrozumieją algorytm MapReduce, poznają BigTable, bazy NoSQL na przykładzie HBase oraz rozproszone systemy plikowe HDFS, poznają narzędzia przetwarzania danych Spark i Hive. Uczestnicy będą wiedzieli jakie są zalety i wady danych technologii, będą wiedzieli kiedy użyć danej technologii.

Mocne strony szkolenia

Program oferuje szybki przegląd podstawowych technologii z ekosystemu Apache Hadoop. Oprócz prezentacji dla uczestników jest przygotowany warsztat, gdzie w praktyce będą mieli okazje samodzielnie eksplorować zbiory danych.

Wymagania

Od uczestników szkolenia wymagana jest podstawowa wiedza z SQL, bash’a, Python (lub innego języka skryptowego), Java.

Parametry szkolenia

8 godzin (7 godzin netto) wykładów i warsztatów (z wyraźną przewagą warsztatów).

Program szkolenia

  1. Wstęp do BigData
    1. Definicja
    2. Czym jest BigData?
      1. Geneza i historia BigData
      2. Strony w projektach BigData
      3. Big Data a Hurtownie danych
      4. Bazy NoSQL
    3. Problemy BigData
    4. Typy przetwarzania BigData
      1. Wsadowe
      2. Strumieniowe
    5. Przegląd ekosystemu Apache Hadoop
    6. Dystrybucje Big Data
    7. Rozwiązania w chmurze
  2. Wprowadzenie do Apache Hadoop
    1. Architektura
    2. Przechowywanie danych w HDFS
    3. Przetwarzanie danych w opraciu o YARN
    4. Wprowadzenie do MapReduce
  3. Wprowadzenie do analizy danych na przykładzie Hive
    1. Architektura
    2. Tryby pracy
    3. Typy danych
    4. Składnia
    5. Formaty danych
    6. Porównanie z Pig
    7. Warsztat Hive
  4. Przetwarzanie danych w oparciu o Apache Spark
    1. Wstęp
      1. Historia
      2. Spark a Hadoop
      3. Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
      4. Przetwarzanie w pamięci a z dysku
      5. Architektura
      6. Warianty uruchomienia
    2. Spark Core
      1. Wstęp
      2. Java vs Spark vs Python
      3. RDD vs Dataset vs DataFrame
      4. Łączenie z klastrem
      5. Rozproszone dane
      6. Operacje RDD
      7. Transformacje
      8. Akcje
    3. Spark SQL
      1. Wstęp
      2. Spark SQL a Hive
      3. Zasada działania
      4. Dane i schematy
      5. Zapytania
      6. Integracja z Hive
  5. Wprowadzenie do NoSQL na podstawie HBase
    1. Czym jest NoSQL, NoSQL vs bazy relacyjne
    2. Przegląd baz nierelacyjnych, CAP theorem
    3. Projektowanie baz nierelacyjnych
    4. Architektura
    5. Model danych
    6. Korzystanie z HBase
  6. Monitorowanie i zarządzanie klastrem na przykładzie Ambari

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email