Adresaci szkolenia:

Analitycy danych oraz programiści, którzy chcą rozpocząć swoją przygodę z analizą dużych zbiorów danych.

Cel szkolenia:

Przekrojowe szkolenie mające na celu zapoznanie się z narzędziami przeznaczonymi dla analityka big data. Szkolenie skupia się na płynnym wejściu w podstawy każdego narzędzia, tak aby analityk danych mógł w przyszłości bez problemu poruszać się po ekosystemie Hadoop.

Mocne strony szkolenia:

Zapoznanie z wieloma narzędziami i językami programowania, szkolenie ma na celu pokazanie jak łatwo można analizować dane bez użycia konsoli i narzędzi IDE.

Wymagania:

Podstawy SQL, podstawowa umiejętność programowania, najlepiej w: Python, R, Java lub Scala

Parametry szkolenia:

Szkolenie trwa cztery dni, każdy dzień to 8h wykładów i warsztatów, z wyraźną przewagą warsztatów, w tym dwie przerwy kawowe i jedna obiadowa (7h netto). Wielkość grupy: maks. 8-10 osób.

Program szkolenia

  1. Wprowadzenie do Big Data
    1. Czym jest Big Data?
      1. Definicja
      2. Geneza i historia Big Data
      3. Problemy Big Data
      4. Zastosowania i przypadki użycia
      5. Umiejętności w projektach Big Data
      6. Big Data a Business Intelligence (Hurtownie danych)
      7. Data Science i sztuczna inteligencja w Big Data
      8. Bazy NoSQL
    2. Architektura systemów Big Data
      1. Przetwarzanie wsadowe
      2. Architektura Lambda
      3. Architektura Kappa
      4. Data Lake
    3. Dystrybucje Big Data
      1. Geneza powstania
      2. Zastosowania i przypadki użycia
      3. Porównanie popularnych dystrybucji Big Data
      4. Zalety i wady korzystania z dystrybucji Big Data
    4. Przegląd ekosystemu Apache Hadoop
    5. Rozwiązania w chmurze
  2. Apache Hadoop
    1. HDFS
      1. Wprowadzenie do rozproszonego systemu plików
      2. Architektura
      3. Zarządzanie za pomocą linii komend
      4. Dostęp przez WWW
      5. Korzystanie za pomocą API
      6. Importowanie i eksportowanie danych
      7. Formaty plików popularne w Big Data
      8. Wykorzystanie kompresji danych
    2. YARN & MapReduce
      1. Wprowadzenie do platformy obliczeniowej YARN
      2. Zasada działania i podstawowa konfiguracja YARN
      3. Podstawowe operacje YARN
      4. Przetwarzanie zadań za pomocą MapReduce
      5. Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN
  3. Apache Hive
    1. Czym jest Hive
    2. Architektura
    3. Unikalne cechy Hive
    4. HiveQL
    5. Model danych w Hive
    6. Uruchamianie zadań
    7. Różne źródła danych
    8. Korzystanie w konsoli
    9. Interfejsy użytkownika
    10. Funkcje wbudowane
    11. Funkcje użytkownika (UDF)
    12. Wykorzystanie Apache Tez i optymalizacja zadań
  4. Apache Pig
    1. Wstęp
    2. PigLatin w szczegółach
    3. PigLatin vs HiveQL
    4. Uruchamianie zadań
    5. Różne źródła danych
    6. Funkcje wbudowane
    7. Funkcje użytkownika (UDF)
  5. Apache Spark
    1. Wstęp
      1. Historia
      2. Spark a Hadoop
      3. Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs)
      4. Przetwarzanie w pamięci a z dysku
      5. Architektura
      6. Warianty uruchomienia klastra
        1. Własny klaster Spark
        2. Apache YARN
        3. Apache Mesos
        4. Gooogle Kubernetes
      7. Konfiguracja i zarządzanie
    2. Spark Core
      1. Wstęp
      2. Języki programowania (Scala vs Python vs Java vs R)
      3. RDD vs Dataset vs DataFrame
      4. Łączenie z klastrem
      5. Rozproszone dane
      6. Operacje RDD
        1. Transformacje
        2. Akcje
      7. Współdzielone zmienne
      8. Uruchomienie i testowanie
      9. Dostrajanie zadań
        1. Serializacja
        2. Pamięć
    3. Spark SQL
      1. Wstęp
      2. Spark SQL a Hive
      3. Zasada działania
      4. Dane i schematy
      5. Zapytania
      6. Integracja z Hive
      7. Uruchomienie i testowanie
    4. Spark Streaming i Structured Streaming
      1. Wstęp
      2. Zasada działania
      3. Strumienie
        1. Wejście
        2. Transformacja
        3. Wyjście
      4. Uruchomienie i testowanie
    5. Spark MLlib
      1. Wstęp
      2. Dostępne algorytmy
      3. Transformery i estymatory
      4. Dostępne transformacje
      5. Budowa pipeline'u
      6. Uczenie modeli
  6. Środowisko pracy i wizualizacja danych
    1. Apache Zeppelin
    2. Jupyter
    3. HUE
  7. Przegląd innych narzędzi Sztucznej Inteligencji i Data Science

Pytania?

* Wymagane.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email