Adresaci szkolenia:

Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać procesy eksploracji danych z wykorzystaniem Pentaho Data Mining (WEKA). Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z hurtowaniami danych (DWH) oraz ich realizacją z wykorzystaniem oprogramowania Pentaho Business Intelligence Suite.

Cel szkolenia:

Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą projektowania, implementowania, monitorowania, uruchamiania, strojenia procesów DM, odświeżą wiedzę na temat podstawowych pojęć statystycznych, poznają najpopularniejsze algorytmy DM w szczegółach, poznają założenia hurtowni danych. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Pentaho Business Intelligence a w szczególności na Pentaho Data Mining (WEKA).

Mocne strony szkolenia:

Program obejmuje zarówno ogólne wprowadzenie w tematykę DM i DWH, jak i całościowe przedstawienie stosu produktowego Pentaho Data Mining. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie.

Wymagania:

Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.

Parametry szkolenia:

4*8 godzin (4*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy eksploracji danych wykorzystując i strojąc algorytmy DM. Wielkość grupy: maks. 8-10 osób

Program szkolenia

  1. Wstęp
    1. Wprowadzenie do hurtowni danych:
      1. OLTP, OLAP, bazy danych, hurtownie danych, data marty
      2. ROLAP, MOLAP, HOLAP
      3. Normalizacja, agregacja, fakty, wymiary
      4. SQL, MDX, XML/A
      5. ETL
      6. BigData, BigTable, NoSQL, nierelacyjne hurtownie danych
      7. Pozostałe
    2. Platforma Pentaho BI Suite
  2. Eksploracja danych
    1. Sztuczna inteligencja, uczenie maszynowe, eksploracja danych etc.
    2. Podstawy algorytmów eksploracji danych
      1. Algorytmy
        • klasyfikacja
        • grupowanie
        • odkrywanie wzorców i reguł asocjacji
        • ograniczanie i transformacja przestrzeni atrybutów
      2. Techniki:
        • drzewa i tabele decyzyjne
        • regresja liniowa
        • sieci bayesa
        • sieci neuronowe
        • algorytmy genetyczne i ewolucyjne
      3. Podstawowe pojęcia statystyczne
        • Minimum, Maximum
        • Średnia, Mediana
        • Odchylenie standardowe, Wariancja
        • Prawdopodobieństwo
        • Korelacja
        • Metryka odległości danych
        • Statystyczna istotność
      4. pozostałe
    3. Przegląd narzędzi eksploracji danych dostępnych na rynku
  3. Pentaho Data Mining (WEKA)
    1. Architektura
    2. Weka Gui Chooser
      • Explorer
      • Experimenter
      • Knowledge Flow
      • Simple CLI
      • Tools: ARFF Viewer, SQL Viewer etc.
      • Weka Light, Weka Server
    3. Praca z Explorer’em
  4. Preprocessing i praca z danymi
    1. Format danych ARFF
    2. Przygotowanie danych do analizy
    3. Odpowiedni dobór atrybutów np.: korelacja atrybutów a wyniki eksploracji danych etc.
    4. Filtrowanie i rodzaje filtrów w WEKA np.: filtrowanie, dyskretyzacja, normalizacja etc.
    5. Wizualizacja
    6. Przetwarzanie dużych zbiorów danych, ograniczenia JVM 32bit
    7. Przetwarzanie strumieni oraz uczenie przyrostowe
  5. Klasyfikacja
    1. Definicja problemu klasyfikacji
    2. Odpowiedni zbiór danych uczących i testujących a wyniki klasyfikacji
    3. Rodzaje algorytmów klasyfikacji dostępnych w WEKA
    4. Najpopularniejsze algorytmy klasyfikacji w szczegółach
      1. Sieci Bayesa np.: naiwny klasyfikator bayesowski
      2. Regresja np.: regresja liniowa
      3. Drzewa i tablice decyzyjne
    5. Walidacja krzyżowa, nadmierne dopasowanie
    6. Interpretacja wyników klasyfikacji
  6. Grupowanie
    1. Definicja problemu grupowania
    2. Odpowiedni zbiór danych uczących i testujących a wyniki grupowania
    3. Rodzaje algorytmów grupowania dostępnych w WEKA
    4. Najpopularniejsze algorytmy grupowania w szczegółach
      1. Centroidy np.: k-średnich
      2. Gęstościowe np.: DBSCAN
    5. Interpretacja wyników grupowania
  7. Odkrywanie reguł asocjacyjnych
    1. Definicja problemu odkrywania wzorców i reguł asocjacyjnych
    2. Odpowiedni zbiór danych uczących i testujących a odkryte reguły
    3. Rodzaje algorytmów odkrywania reguł asocjacyjnych dostępnych w WEKA
    4. Najpopularniejsze algorytmy odkrywania reguł asocjacyjnych w szczegółach
      1. Apriori
      2. Frequent Pattern Growth
    5. Interpretacja odkrytych reguł
  8. Ograniczanie i transformacja przestrzeni atrybutów
    1. Definicja problemu selekcji, ograniczenia, transformacji atrybutów
    2. Odpowiedni zbiór danych uczących i testujących a wybrane atrybuty
    3. Rodzaje algorytmów ograniczania i transformacji przestrzeni atrybutów w WEKA
    4. Najpopularniejsze algorytmy ograniczania i transformacji przestrzeni atrybutów w szczegółach
      1. Przeszukiwania np.: BestFirst, ExhaustiveSearch, GeneticSearch
      2. Analizy głównych składowych np.: PCA/PrincipalComponents
      3. Maszyna wektorów nośnych np.: SVM/SVMAttributeEval
    5. Interpretacja wyników
  9. Pozostałe algorytmy i techniki eksploracji danych dostępne w WEKA
  10. Rozbudowa możliwości WEKA
    1. Pentaho Data Mining Plug-Ins
    2. Własne algorytmy DM w WEKA
  11. Wykorzystanie możliwości w połączeniu z innymi produktami Pentaho
    1. Knowledge Flow Plugin oraz Pentaho Data Integration

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email