Adresaci szkolenia:
Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać hurtownie danych (DWH) z wykorzystaniem Pentaho Business Intelligence Suite.
Cel szkolenia:
Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów i elementów hurtowni danych, poznają ogólne założenia hurtowni danych tj. najpopularniejsze schematy relacyjnych hurtowni danych. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Pentaho Business Intelligence Suite.
Mocne strony szkolenia:
Program obejmuje zarówno ogólne wprowadzenie w tematykę ETL, DWH, OLAP, jak i całościowe przedstawienie stosu produktowego Pentaho Business Intelligence. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie.
Wymagania:
Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.
Parametry szkolenia:
5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych, implementując własne procesy ETL, modelują struktury hurtowni danych, wykonują podstawowe czynności administracyjne.
Program szkolenia
- Wprowadzenie do hurtowni danych i platformy Pentaho BI Suite
- OLTP, OLAP, bazy danych, hurtownie danych, data marty
- ROLAP, MOLAP, HOLAP
- Normalizacja, agregacja, fakty, wymiary
- SQL, MDX, XML/A
- ETL i integracja offline
- BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
- Architektura i składowe Pentaho BI Suite
- Business intelligence a hurtownie danych
- Fizyczne struktury danych w hurtowni danych
- Tabele faktów i tabele wymiarów
- Indeksy, widoki, widoki zmaterializowane
- ROLAP w szczegółach: schemat gwiazdy, płatka śniegu, konstelacji faktów
- Testy wydajności ROLAP: The TPC Benchmark H
- ROLAP vs MOLAP
- Metody optymalizacji szczególnie przydatne w przypadku hurtowni danych
- Wykorzystanie Pentaho Aggregate Designer do optymalizacji hurtowni danych
- Znaczenie wymiaru czasu w hurtowniach danych
- Dziedzinowe hurtownie danych a dedykowane struktury danych np.: GeoSpatial DWH
- Zasilanie hurtowni danych z wykorzystaniem Pentaho Data Integration (PDI)
- ETL
- Ekstrakcja danych
- Transformacja, oczyszczenie i uzupełnianie danych
- Ładowanie
- Wyznaczniki i ocena jakości danych
- Stage’ing
- Hurtownie czasu rzeczywistego
- Kwestie wydajnościowe w kontekście procesów ETL
- Przegląd narzędzi ETL dostępnych na rynku
- Pentaho Data Integration
- Architektura
- Składowe
- Praca ze Spoon
- Instalacja, uruchomienie, Look&Feel (perspektywy, zakładki etc.)
- Zmienne
- Hop’y
- Praca z repozytorium i plikami XML
- Współdzielenie obiektów tj. połączenia z bazami danych, partycje, klastry
- Czytanie i zapisywanie danych z różnych źródeł danych
- Transformacje
- Walidacja danych
- Uzupełnianie danych
- Transformacja danych
- Optymalizacja
- Wykorzystanie własnego kodu w transformatach
- Utlilities
- Monitorowanie wydajności i analiza logów
- Wersjonowanie i praca grupowa
- Zadania
- Zadania (kjb) a transformacje (ktr)
- Tworzenie złożonych zadań
- Wykorzystanie własnego kodu w zadaniach
- Przepływ pracy
- Praca z plikami
- Monitorowanie wydajności i analiza logów
- Wersjonowanie i praca grupowa
- Praca z Kitchen i Pan
- Uruchamianie zadań i transformat z plików i z repozytorium
- Scheduling
- Obsługa błędów
- Przekierowanie wejścia/wyjścia
- Praca z Cartle
- ETL
- Analityka z wykorzystaniem OLAP oraz Pentaho Analysis Services (Mondian)
- Definiowanie kostek OLAP na hurtowni danych
- Pentaho Schema Workbench (PSW)
- Model logiczny i model fizyczny
- kostki
- miary
- wymiary, hierarchie, levele
- tabele
- relacje
- agregaty
- wyrażenia
- MDX w szczegółach
- peracje Slice, Dice, Drill na kostkach
- Optymalizacja na potrzeby OLAP
- Raportowanie danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Report Designer (PRD)
- Definiowanie raportów za pomocą PRD
- Źródła danych
- Modelowanie zapytań
- Wydobywanie danych
- Zawężanie i filtrowanie wyników
- Wizualizacja danych na raporcie
- Osadzanie raportów
- Eksport do PDF, HTML, RTF etc.
- Report Wizard
- Definiowanie raportów za pomocą PRD
- Raportowanie i analiza ad-hoc
- Pentaho BI Platform/Portal (BA Platform)
- Pentaho Interactive Reporting (PIR)
- Pentaho Metadata Editor (PME)
- Pentaho Analyzer (PAZ)
- Kokpity i dashboardy managerskie na danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Dashboard Designer (PDD)
- Definiowanie dashboardów za pomocą PDD
- Praca z wykresami - simple bar, line, area, pie, dial charts
- Praca z tabelami
- Praca z raportami
- Parametry
- Szablony
- Osadzanie dashboardów
- Definiowanie dashboardów za pomocą PDD
- Eksploracja danych zgromadzonych w hurtowni danych z wykorzystaniem Pentaho Data Mining (WEKA)
- Architektura
- Praca z Explorer’em
- Preprocessing i praca z danymi
- Format danych ARFF
- Przygotowanie danych do analizy
- Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc.
- Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc.
- Wizualizacja
- Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
- Przetwarzanie strumieni oraz uczenie przyrostowe
- Eksploracja danych
- Klasyfikacja
- Grupowanie
- Odkrywanie reguł asocjacyjnych
- Ograniczanie i transformacja przestrzeni atrybutów
- Pozostałe algorytmy i techniki eksploracji danych dostępne w WEKA
- Rozbudowa możliwości WEKA
- Wykorzystanie możliwości w połączeniu z innymi produktami Pentaho
- Pentaho Mobile BI