Partner merytoryczny

TOP 3 w naszej ofercie

Ponad 250 osób przeszkolonych z tej technologii w ciągu ostatniego roku
98,8% zadowolonych uczestników poprzednich realizacji
Temat prezentowany na konferencji Voxxed Days Berlin 2016
Szkolenie prowadzone jest przez praktyków na co dzień pracujących w projektach związanych z big data i data mining

Adresaci szkolenia:

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family.

Cel szkolenia:

Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Apache Hadoop.

Mocne strony szkolenia:

Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie.

Wymagania:

Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.

Parametry szkolenia:

5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość grupy: maks. 8-10 osób

Program szkolenia

  1. Wstęp
    1. Czym jest Big Data, BigTable, BigQuery, MapReduce
    2. Paradygmat MapReduce w szczegółach
    3. MapReduce a inne paradygmaty przetwarzania rozproszonego np.: MPI, PVM etc.
    4. Przegląd Apache Hadoop & Family
  2. Apache Hadoop
    1. Architektura
    2. Hadoop 1.0 vs 2.0
    3. Hadoop Shell Commands
    4. Apache Hadoop Distributed File System (HDFS)
      1. Architektura, NameNodes, DataNodes
      2. Federacja I klastrowanie
      3. Uprawnienia i atrybuty plików
      4. Snapshoty
      5. WebHDFS, HttpFS, FUSE
      6. Porównanie do innych rozproszonych systemów plików
    5. Apache Hadoop NextGen MapReduce (YARN, MRv2)
      1. Architektura
        • ResourceManager
        • Scheduler
        • ApplicationsManager
        • JobTracker i TaskTracker
      2. YARN shell
      3. Hadoop/YARN API
      4. YARN REST API
      5. MapReduce 1.0 vs MapReduce 2.0, kompatybilność API
      6. Przykłady z omówieniem
    6. Administracja Apache Hadoop i składowymi
      1. Instalacja i podstawowa konfiguracja
      2. Demony, piki konfiguracyjne, pliki logów
      3. Hadoop On Demand, Hadoop Cluster Setup
      4. Administracja HDFS
        • Uprawnienia systemu plików
        • Quota
      5. Administracja MaReduce
        • Zarządzanie jobami
        • Scheduling
      6. Równoważenie klastra
      7. Monitorowanie
      8. Narzędzia administracyjne
  3. Apache PIG
    1. Wstęp
      1. Architektura
      2. Tryby pracy
      3. Podstawy PigLatin
      4. Hadoop/YARN API a PigLatin
    2. PigLatin w szczegółach
      1. Słowa kluczowe
      2. Typy danych
      3. Operatory
      4. Funkcje wbudowane i funkcje użytkownika
    3. Funkcje wbudowane
      1. Funkcje proste (eval functions)
      2. Funkcje do ładowania/zapisu danych
      3. Funkcje matematyczne
      4. Funkcje do operowania na łańcuchach znakowych
      5. Funkcje do operowania na dacie i czasie
      6. Pozostałe
    4. Funkcje użytkownika (UDF)
      1. Funkcje UDF pisane w Java
      2. Funkcje UDF pisane w JavaScript
      3. Funkcje UDF pisane w innych językach: Python/Jython/Groovy
      4. Piggybank
    5. Wydajność
      1. Combiner
      2. Multi-Query Execution
      3. Reguły optymalizacji wykorzystywane przez Pig
      4. Dobre praktyki
    6. Testowanie i diagnostyka
      1. Operatory diagnostyczne
      2. Dane statystyczne
      3. Testy jednostkowe z wykorzystaniem PigUnit
  4. Apache HBase
    1. Wstęp
      1. Wprowadzenie do baz danych NoSQL
      2. Przyczyna powstania baz chmurowych
      3. Spójność, Dostępność, Odporność na partycjonowanie
      4. Twierdzenie CAP
      5. Co różni bazy NoSQL od baz relacyjnych
      6. Podstawowe parametry baz NoSQL
      7. Klasyfikacja i przegląd baz NoSQL (Cassandra, Hbase, Mongo, Riak, CouchDB, Tokyo Cabinet, Voldemort, etc.)
      8. Unikalne cechy HBase
    2. Architektura HBase
      1. Tabele katalogowe
      2. Master Servers
      3. Regiony i Region Servers
    3. Model danych
      1. Model koncepcyjny a fizyczny
      2. Przestrzeń nazw
      3. Tabela
      4. Wiersz
      5. Kolumna
      6. Wersja
      7. Cela
    4. Wykorzystanie HBase
      1. HBase API
      2. Z poziomu platformy Apache Hadoop i zadań MapReduce
      3. Za pomocą API zewnętrznych - REST API, Apache Thrift etc.
    5. Wydajność
      1. Optymalizacja odczytów
      2. Optymalizacja zapisów
      3. Optymalizacja parametrów JVM, sieci, systemu operacyjnego, systemu plików
      4. Dobre praktyki
    6. Diagnostyka
      1. Logi
      2. Narzędzia
    7. Bezpieczeństwo
      1. Uwierzytelnianie i autoryzacja dostępu
      2. Bezpieczeństwo i szyfrowanie danych
    8. Administracja bazą danych HBase
      1. Instalacja i podstawowa konfiguracja
      2. Najczęstsze czynności administracyjne (operations manual)
      3. Aktualizacja do wyższych wersji
      4. Migracja, backupowanie i snapshoty danych
      5. Dodawanie/usuwanie węzłów do repliki/klastra oraz resynchronizacja
      6. Panele administracyjne i monitorujące, narzędzia wspomagające
    9. Apache HBase w porównaniu do innych baz danych Apache NoSQL
      1. Apache Accumulo
      2. Apache Cassandra
  5. Apache Hive
    1. Czym jest Hive
    2. Architektura
    3. Unikalne cechy Hive
    4. HiveCLI
    5. HiveQL
    6. PigLatin vs HiveQL
    7. Tabele w Hive
    8. Administracja Hive
      1. Instalacja i podstawowa konfiguracja
        • Hive Metastore
        • HCatalog
        • WebHCat
      2. Najczęstsze czynności administracyjne (operations manual)
      3. Aktualizacja do wyższych wersji
      4. Panele administracyjne i monitorujące, narzędzia wspomagające
  6. Apache Avro
    1. Apache Avro IDL
    2. Typy danych
    3. Serializacja i deserializacja
    4. Avro RPC
  7. Apache Mahout
    1. Czym jest uczenie maszynowe, eksploracja danych, data mining
    2. Możliwości Mahout
      1. Algorytmy klasyfikacji
      2. Algorytmy grupowania
      3. Algorytmy ewolucyjne i genetyczne
      4. Redukcja wymiarów
      5. Pozostałe
    3. Instalacja i podstawowa konfiguracja
    4. Zastosowanie Apache Mahout w powiązaniu z Apache Hadoop
    5. Przykłady z omówieniem
  8. Tworzenie aplikacji przetwarzania danych
    1. Apache Oozie
      1. Akcje MapReduce
      2. Akcje Pgi
      3. Akcje Hive
      4. Akcje Subworkflow
    2. Cascading
  9. Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family
    1. Apache ZooKeeper
    2. Apache Flume
    3. Apache Ambari
  10. Pozostałe
    1. Apache Storm
    2. Apache Spark
    3. Cascalog

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email