Partner merytoryczny

Adresaci szkolenia

Szkolenie jest adresowane do programistów, którzy chcą rozwijać systemy służące do składowania i/lub analizowania dużych zbiorów danych z wykorzystaniem platformy Apache Hadoop. Szkolenie jest dedykowane zarówno początkującym użytkownikom tej platformy jak i takim którzy mają już pierwsze kroki za sobą i chcą rozwinąć bądź ugruntować swoją wiedzę.

Cel szkolenia

Uczestnicy szkolenia zdobędą wiedzę niezbędną do rozpoczęcia pracy z systemem Apache Hadoop, w tym jak implementować wydajne algorytmy w oparciu o MapReduce oraz jak składować i importować dane do systemu. Przedstawione zostaną wzorce projektowe oraz tak zwane dobre praktyki programistyczne. Szkolenie kładzie nacisk zarówno na aspekty teoretyczne jak i przede wszystkim praktyczne.

Mocne strony szkolenia

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i szczegółowe przedstawienie narzędzi Apache Hadoop na poziomie pozwalającym zacząć pracę w tym środowisku. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój omawianych rozwiązań. Prezentowana wiedza jest wynikiem kilku lat praktyki trenerów w budowaniu systemów oparty o platformę Apache Hadoop.

Wymagania

Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawy baz danych i języka SQL.

Parametry szkolenia

3*8 godzin (3*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce. Wielkość grupy: maks. 8-10 osób.

Program szkolenia

  1. Wstęp do BigData
    1. Definicja
    2. Czym jest BigData?
      1. Geneza i historia BigData
      2. Strony w projektach BigData
    3. Problemy BigData
    4. Typy przetwarzania BigData
      1. Wsadowe
      2. Strumieniowe
    5. Dystrybucje Big Data
    6. Rozwiązania w chmurze
  2. Apache Hadoop
    1. HDFS
      1. Wprowadzenie do rozproszonego systemu plików
      2. Zarządzanie za pomocą linii komend
      3. Dostęp przez WWW
      4. Korzystanie za pomocą API
      5. Importowanie i eksportowanie danych
    2. MapReduce
      1. Wprowadzenie do paradygmatu MapReduce
      2. Formaty wejścia i wyjścia, tworzenie własnych formatów
      3. Wbudowane i własne typy danych
      4. Partitioner i Combiner, kiedy i jak używać
      5. Liczniki danych
      6. Konfiguracja zadań za pomocą parametrów
      7. Łańcuchy zadań MapReduce
      8. Wykorzystanie kompresji dla zmniejszenia liczby danych
      9. Optymalizacja zadań MapReduce
    3. YARN
      1. Wprowadzenie
      2. Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  3. Apache Spark
    1. Wstęp
      1. Historia
      2. Spark a Hadoop
      3. Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
      4. Przetwarzanie w pamięci a z dysku
      5. Architektura
      6. Warianty uruchomienia klastra
        1. Własny klaster Spark
        2. Apache Mesos
        3. Apache YARN
    2. Spark Core
      1. Wstęp
      2. Java vs Spark vs Python
      3. RDD vs Dataset vs DataFrame
      4. Łączenie z klastrem
      5. Rozproszone dane
      6. Operacje RDD
      7. Transformacje
      8. Akcje
      9. Współdzielone zmienne
      10. Uruchomienie i testowanie
      11. Dostrajanie zadań
      12. Serializacja
      13. Pamięć
    3. Spark SQL
      1. Wstęp
      2. Spark SQL a Hive
      3. Zasada działania
      4. Dane i schematy
      5. Zapytania
      6. Integracja z Hive
      7. Uruchomienie i testowanie
    4. Apache Hive w Spark
      1. Czym jest Hive
      2. Architektura
      3. Unikalne cechy Hive
      4. HiveQL
      5. Tabele w Hive
        1.Wykorzystanie apache Hive w Spark
    5. Spark Streaming
      1. Wstęp
      2. Zasada działania
      3. Strumienie
      4. Wejście
      5. Transformacja
      6. Wyjście
      7. Uruchomienie i testowanie
    6. Spark MLlib
      1. Wstęp
      2. Dostępne algorytmy
      3. Transformery i estymatory
      4. Dostępne transformacje
      5. Budowa pipeline’u
      6. Uczenie modeli
  4. Apache Kafka
    1. Wprowadzenie
      1. Historia
      2. Zastosowania
      3. Terminologia
      4. Porównanie z innymi narzędziami typu producent konsument
    2. Korzystanie z API
      1. Wysyłanie wiadomości
      2. Odbieranie wiadomości
      3. Serializacja
      4. Konfiguracja producentów i konsumentów
      5. Projektowanie rozwiązań w oparciu o Apache Kafka
      6. Integracja z Hadoop i Spark
    3. Zarządzanie
      1. Instalacja
      2. Konfiguracja
      3. Replikacja
      4. Kompresja danych
  5. Przegląd Apache Hadoop & Family

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email