Partner merytoryczny

Adresaci szkolenia

Szkolenie jest adresowane do programistów, którzy chcą rozwijać systemy służące do składowania i/lub analizowania dużych zbiorów danych z wykorzystaniem platformy Apache Hadoop. Szkolenie jest dedykowane zarówno początkującym użytkownikom tej platformy jak i takim którzy mają już pierwsze kroki za sobą i chcą rozwinąć bądź ugruntować swoją wiedzę.

Cel szkolenia

Uczestnicy szkolenia zdobędą wiedzę niezbędną do rozpoczęcia pracy z systemem Apache Hadoop, w tym jak implementować wydajne algorytmy w oparciu o MapReduce oraz jak składować i importować dane do systemu. Przedstawione zostaną wzorce projektowe oraz tak zwane dobre praktyki programistyczne. Szkolenie kładzie nacisk zarówno na aspekty teoretyczne jak i przede wszystkim praktyczne.

Mocne strony szkolenia

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i szczegółowe przedstawienie narzędzi Apache Hadoop na poziomie pozwalającym zacząć pracę w tym środowisku. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój omawianych rozwiązań. Prezentowana wiedza jest wynikiem kilku lat praktyki trenerów w budowaniu systemów oparty o platformę Apache Hadoop.

Wymagania

Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawy baz danych i języka SQL.

Parametry szkolenia

3*8 godzin (3*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce. Wielkość grupy: maks. 8-10 osób.

Program szkolenia

  1. Wstęp do Big Data

  2. Hadoop

    • Wstęp i historia

    • Architektura i elementy składowe

    • Tryby uruchomieniowe

    • Wprowadzenie do ekosystemu

    • Użytkownicy i zastosowania

  3. HDFS

    • Wprowadzenie do rozproszonego systemu plików

    • Zarządzanie za pomocą linii komend

    • Dostęp przez WWW

    • Korzystanie za pomocą API

    • Importowanie i eksportowanie danych

  4. Wprowadzenie do MapReduce

    • Wprowadzenie do paradygmatu MapReduce

    • Porównanie kolejnych wersji MapReduce

  5. Wykorzystanie Java API MapReduce

    • Formaty wejścia i wyjścia, tworzenie własnych formatów

    • Wbudowane i własne typy danych

    • Partitioner i Combiner, kiedy i jak używać

    • Liczniki danych

    • Sortowanie danych

    • Konfiguracja zadań za pomocą parametrów

    • Tworzenie własnych komparatorów danych

    • Realizacje złączeń danych w MapReduce

    • Łańcuchy zadań MapReduce

    • Wykorzystanie kompresji dla zmniejszenia liczby danych

    • Optymalizacja zadań MapReduce

    • Wykorzystanie DistributedCache

  6. Przykładowe realizacje znanych algorytmów w paradygmacie MapReduce

  7. Inne podejścia programistyczne

    • Streaming czyli korzystanie z programów napisanych w innych językach programowania

    • Pisanie algorytmów MapReduce z użyciem biblioteki Cascading

  8. Dobre praktyki programowania w paradygmacie MapReduce

    • Wzorce projektowe MapReduce

    • Testy jednostkowe w środowisku Apache Hadoop

  9. Uruchamianie i monitorowanie zadań na klastrze

  10. Uruchamianie przepływu zadań MapReduce

    • Wykorzystanie klasy JobControl

    • Apache Oozie

  11. HBase

    • Wprowadzenie do HBase

    • Korzystanie z HBase za pomocą API

    • MapReduce w HBase

    • Testy jednostkowe z HBase

  12. Korzystanie z biblioteki Spring Framework

    • Tworzenie projektu (Java + Maven)

    • Konfiguracja Hadoop’a w Springu

    • Obsługa ekosystemu

    • Testowanie

    • Dependency Injection w środowisku MapReduce

  13. Hive

    • Wprowadzenie

    • Tworzenie i uruchamianie zapytań

    • Wykorzystanie własnych funkcji (User-Defined Function)

  14. Pig

    • Wprowadzenie

    • Tworzenie i uruchamianie skryptów

    • Wykorzystanie własnych funkcji (User-Defined Function)

  15. Przegląd wybranych elementów ekosystemu

    • YARN

    • Flume

    • Zookeeper

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email