Adresaci szkolenia:

Analitycy danych oraz programiści, którzy chcą rozpocząć swoją przygodę z analizą dużych zbiorów danych.

Cel szkolenia:

Przekrojowe szkolenie mające na celu zapoznanie się z narzędziami przeznaczonymi dla analityka big data. Szkolenie skupia się na płynnym wejściu w podstawy każdego narzędzia, tak aby analityk danych mógł w przyszłości bez problemu poruszać się po ekosystemie Hadoop.

Mocne strony szkolenia:

Zapoznanie z wieloma narzędziami i językami programowania, szkolenie ma na celu pokazanie jak łatwo można analizować dane bez użycia konsoli i narzędzi IDE.

Wymagania:

Podstawy SQL, podstawowa umiejętność programowania, najlepiej w: Python, R, Java lub Scala

Parametry szkolenia:

Szkolenie trwa cztery dni, każdy dzień to 8h wykładów i warsztatów, z wyraźną przewagą warsztatów, w tym dwie przerwy kawowe i jedna obiadowa (7h netto). Wielkość grupy: maks. 8-10 osób.

Program szkolenia

  1. Wprowadzenie do Big Data
    • Definicja
    • Geneza Big Data
    • Klasyfikacja problemu
    • Przegląd ekosystemu Hadoop
    • Dystrybucje Big Data
    • Bazy NoSQL
  2. Architektura systemów Big Data
    • Przetwarzanie wsadowe
    • Architektura Lambda
    • Architektura Kappa
  3. Wprowadzenie do MapReduce na przykładzie platformy Hadoop
    • HDFS and YARN
    • Warsztat Map Reduce
  4. Apache Hive
    • Architektura
    • Tryby pracy
    • Typy danych
    • Składnia
    • Formaty danych
    • Warsztat Hive
    • Ładowanie danych
    • Zapytania
    • Partycjonowanie
    • Silnik przetwarzania
    • UDF
  5. Apache Spark
    • Architektura
    • Ekosystem Spark
    • Przetwarzanie w pamięci, a z dysku
    • Warianty uruchomienia klastra
      • Własny klaster Spark
      • Apache YARN
      • Apache Mesos
      • Gooogle Kubernetes
    • Transformacje i akcje RDD
    • Dataframe i SparkSQL
  6. Środowisko pracy i wizualizacja danych
    • Zeppelin
    • Jupyter
    • Hue
  7. Rozwiązania chmurowe na przykładzie Google Cloud Platform
  8. Warsztaty Spark z użyciem Zeppelin
    • Praca z notatnikami Zeppelina
    • Polecenia systemu operacyjnego
    • Operacje na HDFS
    • Spark
    • Integracje z Hive

Pytania?

* Wymagane.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email