Partner merytoryczny

Adresaci szkolenia

Szkolenie jest adresowane do programistów, którzy chcą rozwijać systemy służące do składowania i/lub analizowania dużych zbiorów danych z wykorzystaniem platformy Apache Hadoop. Szkolenie jest dedykowane zarówno początkującym użytkownikom tej platformy jak i takim którzy mają już pierwsze kroki za sobą i chcą rozwinąć bądź ugruntować swoją wiedzę.

Cel szkolenia

Uczestnicy szkolenia zdobędą wiedzę niezbędną do rozpoczęcia pracy z systemem Apache Hadoop, w tym jak implementować wydajne algorytmy w oparciu o MapReduce oraz jak składować i importować dane do systemu. Przedstawione zostaną wzorce projektowe oraz tak zwane dobre praktyki programistyczne. Szkolenie kładzie nacisk zarówno na aspekty teoretyczne jak i przede wszystkim praktyczne.

Mocne strony szkolenia

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i szczegółowe przedstawienie narzędzi Apache Hadoop na poziomie pozwalającym zacząć pracę w tym środowisku. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój omawianych rozwiązań. Prezentowana wiedza jest wynikiem kilku lat praktyki trenerów w budowaniu systemów oparty o platformę Apache Hadoop.

Wymagania

Od uczestników wymagana jest podstawowa umiejętność programowania w języku Java oraz podstawy baz danych i języka SQL.

Parametry szkolenia

3*8 godzin (3*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce. Wielkość grupy: maks. 8-10 osób.

Program szkolenia

 1. Wstęp do Big Data

 2. Hadoop

  • Wstęp i historia

  • Architektura i elementy składowe

  • Tryby uruchomieniowe

  • Wprowadzenie do ekosystemu

  • Użytkownicy i zastosowania

 3. HDFS

  • Wprowadzenie do rozproszonego systemu plików

  • Zarządzanie za pomocą linii komend

  • Dostęp przez WWW

  • Korzystanie za pomocą API

  • Importowanie i eksportowanie danych

 4. Wprowadzenie do MapReduce

  • Wprowadzenie do paradygmatu MapReduce

  • Porównanie kolejnych wersji MapReduce

 5. Wykorzystanie Java API MapReduce

  • Formaty wejścia i wyjścia, tworzenie własnych formatów

  • Wbudowane i własne typy danych

  • Partitioner i Combiner, kiedy i jak używać

  • Liczniki danych

  • Sortowanie danych

  • Konfiguracja zadań za pomocą parametrów

  • Tworzenie własnych komparatorów danych

  • Realizacje złączeń danych w MapReduce

  • Łańcuchy zadań MapReduce

  • Wykorzystanie kompresji dla zmniejszenia liczby danych

  • Optymalizacja zadań MapReduce

  • Wykorzystanie DistributedCache

 6. Przykładowe realizacje znanych algorytmów w paradygmacie MapReduce

 7. Inne podejścia programistyczne

  • Streaming czyli korzystanie z programów napisanych w innych językach programowania

  • Pisanie algorytmów MapReduce z użyciem biblioteki Cascading

 8. Dobre praktyki programowania w paradygmacie MapReduce

  • Wzorce projektowe MapReduce

  • Testy jednostkowe w środowisku Apache Hadoop

 9. Uruchamianie i monitorowanie zadań na klastrze

 10. Uruchamianie przepływu zadań MapReduce

  • Wykorzystanie klasy JobControl

  • Apache Oozie

 11. HBase

  • Wprowadzenie do HBase

  • Korzystanie z HBase za pomocą API

  • MapReduce w HBase

  • Testy jednostkowe z HBase

 12. Korzystanie z biblioteki Spring Framework

  • Tworzenie projektu (Java + Maven)

  • Konfiguracja Hadoop’a w Springu

  • Obsługa ekosystemu

  • Testowanie

  • Dependency Injection w środowisku MapReduce

 13. Hive

  • Wprowadzenie

  • Tworzenie i uruchamianie zapytań

  • Wykorzystanie własnych funkcji (User-Defined Function)

 14. Pig

  • Wprowadzenie

  • Tworzenie i uruchamianie skryptów

  • Wykorzystanie własnych funkcji (User-Defined Function)

 15. Przegląd wybranych elementów ekosystemu

  • YARN

  • Flume

  • Zookeeper

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email