Partner merytoryczny

TOP 3 w naszej ofercie

Ponad 250 osób przeszkolonych z tej technologii w ciągu ostatniego roku
98,8% zadowolonych uczestników poprzednich realizacji
Temat prezentowany na konferencji Voxxed Days Berlin 2016
Szkolenie prowadzone jest przez praktyków na co dzień pracujących w projektach związanych z big data i data mining

Adresaci szkolenia:

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family.

Cel szkolenia:

Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Apache Hadoop.

Mocne strony szkolenia:

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie.

Wymagania:

Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.

Parametry szkolenia:

5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość grupy: maks. 8-10 osób

Program szkolenia

  1. Wstęp do BigData
    1. Definicja
    2. Czym jest BigData?
      1. Geneza i historia BigData
      2. Strony w projektach BigData
    3. Problemy BigData
    4. Typy przetwarzania BigData
      1. Wsadowe
      2. Strumieniowe
    5. Dystrybucje Big Data
    6. Rozwiązania w chmurze
  2. Apache Hadoop
    1. HDFS
      1. Wprowadzenie do rozproszonego systemu plików
      2. Zarządzanie za pomocą linii komend
      3. Dostęp przez WWW
      4. Korzystanie za pomocą API
      5. Importowanie i eksportowanie danych
    2. MapReduce
      1. Wprowadzenie do paradygmatu MapReduce
      2. Formaty wejścia i wyjścia, tworzenie własnych formatów
      3. Wbudowane i własne typy danych
      4. Partitioner i Combiner, kiedy i jak używać
      5. Liczniki danych
      6. Konfiguracja zadań za pomocą parametrów
      7. Łańcuchy zadań MapReduce
      8. Wykorzystanie kompresji dla zmniejszenia liczby danych
      9. Optymalizacja zadań MapReduce
    3. YARN
      1. Wprowadzenie
      2. Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  3. Apache Pig
    1. Wstęp
    2. PigLatin w szczegółach
    3. Funkcje wbudowane
    4. Funkcje użytkownika (UDF)
    5. Wydajność
    6. Testowanie i diagnostyka
  4. Apache Hive
    1. Czym jest Hive
    2. Architektura
    3. Unikalne cechy Hive
    4. HiveCLI
    5. HiveQL
    6. PigLatin vs HiveQL
    7. Tabele w Hive
  5. Apache HBase
    1. Wstęp
      1. Wprowadzenie do baz danych NoSQL
      2. Przyczyna powstania baz chmurowych
      3. Spójność, Dostępność, Odporność na partycjonowanie
      4. Twierdzenie CAP
      5. Co różni bazy NoSQL od baz relacyjnych
      6. Podstawowe parametry baz NoSQL
      7. Klasyfikacja i przegląd baz NoSQL
      8. Unikalne cechy HBase
    2. Architektura HBase
      1. Elementy składowe
        1. Master Servers
        2. Regiony i Region Servers
        3. Zookeeper
      2. Zasada działania
    3. Model danych
      1. Model koncepcyjny a fizyczny
      2. Przestrzeń nazw
      3. Tabela
      4. Wiersz
      5. Kolumna
      6. Wersja
      7. Komórka
    4. Wykorzystanie HBase
      1. HBase API
      2. Z poziomu platformy Apache Hadoop i zadań MapReduce
      3. Za pomocą API zewnętrznych - REST API, Apache Thrift etc.
      4. Testowanie aplikacji HBase
    5. Zarządzanie
      1. Optymalizacja i konfiguracja
      2. Dobre praktyki korzystania z bazy
      3. Diagnostyka
      4. Snapshoty i backup danych
      5. Podstawowe operacje administracyjne
      6. Bezpieczeństwo
    6. Apache HBase w porównaniu do innych baz danych NoSQL
  6. Apache Spark
    1. Wstęp
      1. Historia
      2. Spark a Hadoop
      3. Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
      4. Przetwarzanie w pamięci a z dysku
      5. Architektura
      6. Warianty uruchomienia klastra
        1. Własny klaster Spark
        2. Apache Mesos
        3. Apache YARN
    2. Spark Core
      1. Wstęp
      2. Java vs Spark vs Python
      3. RDD vs Dataset vs DataFrame
      4. Łączenie z klastrem
      5. Rozproszone dane
      6. Operacje RDD
      7. Transformacje
      8. Akcje
      9. Współdzielone zmienne
      10. Uruchomienie i testowanie
      11. Dostrajanie zadań
      12. Serializacja
      13. Pamięć
    3. Spark SQL
      1. Wstęp
      2. Spark SQL a Hive
      3. Zasada działania
      4. Dane i schematy
      5. Zapytania
      6. Integracja z Hive
      7. Uruchomienie i testowanie
    4. Spark Streaming
      1. Wstęp
      2. Zasada działania
      3. Strumienie
      4. Wejście
      5. Transformacja
      6. Wyjście
      7. Uruchomienie i testowanie
    5. Spark MLlib
      1. Wstęp
      2. Dostępne algorytmy
      3. Transformery i estymatory
      4. Dostępne transformacje
      5. Budowa pipeline’u
      6. Uczenie modeli
  7. Apache Kafka
    1. Wprowadzenie
      1. Historia
      2. Zastosowania
      3. Terminologia
      4. Porównanie z innymi narzędziami typu producent konsument
    2. Korzystanie z API
      1. Wysyłanie wiadomości
      2. Odbieranie wiadomości
      3. Serializacja
      4. Konfiguracja producentów i konsumentów
      5. Projektowanie rozwiązań w oparciu o Apache Kafka
      6. Integracja z Hadoop i Spark
    3. Zarządzanie
      1. Instalacja
      2. Konfiguracja
      3. Replikacja
      4. Kompresja danych
  8. Apache Oozie
    1. Akcje HDFS
    2. Akcje MapReduce
    3. Akcje Spark
    4. Akcje Pig
    5. Akcje Hive
    6. Akcje Subworkflow
  9. Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family
    1. Apache Ambari
  10. Przegląd Apache Hadoop & Family

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email