Partner merytoryczny

Adresaci szkolenia

Dane tekstowe stanowią co najmniej 70% wszystkich danych generowanych w systemach informatycznych, a dodatkowo są to dane rzadko wykorzystywane w celu analizy i odkrywania wiedzy. Szkolenie ma przybliżyć problemy przetwarzania i analizy danych tekstowych. Szkolenie skierowane jest do:

  • programistów, pragnących zastosować w swoich systemach metody odkrywania wiedzy z danych tekstowych

  • dla analityków, którzy chcą rozbudować swój warsztat analityczny o narzędzie analizy danych tekstowych

  • osób zainteresowanych zastosowaniem narzędzi statystycznych, metod uczenia maszynowego w pracy z danymi tekstowymi

Wymagana podstawowa wiedza z programowania w dowolnym języku (np. Python, R, matlab itp).

Cel szkolenia

Nauczenie szeregu narzędzi do pracy z danymi tekstowymi, przedstawienie szeregu przykładów użycia pokrywających większość tematów tej dziedziny. Zaprezentowanie podstawowych języków w pracy z tekstami: R, Python oraz Java.

Mocne strony szkolenia

Dużo przykładów użycia do wykorzystania w życiu/pracy, szerokie zapoznanie słuchacza z dziedziną analizy danych tekstowych, i możliwościami jej wykorzystania w pracy

Wymagania

Minimalne doświadczenie z programowaniem, doświadczenie w analizie danych.

Parametry szkolenia

3*8 godzin (3*7 godzin netto) wykładów i warsztatów (z wyraźną przewagą warsztatów).

Wielkość grupy: maks. 8-10 osób.

Program szkolenia

  1. Praca z danymi tekstowymi

    • Dane tekstowe - ich charakterystyka, trendy

    • Analiza danych tekstowych a odkrywanie wiedzy z danych tekstowych

    • Krajobraz dziedziny - spacer po różnych obszarach i ich zastosowaniach

    • Języki programowania do pracy nad analizą danych tekstowych

    • Data Scientist - zawód, który głównie pracuje z danymi tekstowymi

  2. Wstępne przetwarzanie danych oraz proste narzędzia statystyczne

    • Wprowadzenie do R

    • Pakiet ‘tm’ do pracy z tekstami

    • Czytanie danych

      • istniejące korpusy np. crude, acq.

      • z katalogu plików

      • z pliku tekstowego

      • z Internetu

    • Czyszczenie i Normalizacja danych

      • usuwanie nieistotnych słów tzw. stop words

      • usuwanie znaków punktacji oraz liczb

      • sprowadzanie do małych liter

      • stemming/lemmatyzacja

    • Budowanie macierzy Term-Document

    • Wyszukiwanie częstych terminów

    • Wyszukiwanie asocjacji

    • Usuwanie rzadkich terminów

    • Mierzenie podobieństwa między dokumentami i terminami

      • Miara Cosinusowa

      • Miara Jaccarda

    • Wizualizacja ważności terminów w postaci chmury słów

    • Tagowanie tekstu częściami mowy

    • Przykłady użycia wstępnego przetwarzania tekstów na zbiorach wpisów StackOverflow, korpusach crude, acq, czy danych z Internetu

    • Przykłady czytania danych z dobrze zdefiniowanych API (np. TwiiterR)

    • Web scrapping z użyciem R na przykładzie pobierania i agregowanie statystyk NHL

    • Parsowanie HTML z użyciem R

  3. Zaawansowane przetwarzanie i wizualizacja danych

    • Analiza Sentymentu

      • podejście słownikowe,

      • oparte na probabilistycznych modelach bayesowskich

    • Rozpoznawanie nazw własnych (ang. Name Entity Recognition)

    • Wykrywanie fraz (np. rzeczownikowych czy czasownikowych)

    • Drzewa rozkładu

      • Penn TreeBank

      • Składnica

    • Przekrój metod wizualizacji danych w R

      • word length counts plot,

      • word frequency plots,

      • word clouds,

      • correlation plots,

      • letter frequency plot,

      • letter position,

      • heatmap

    • Grupowanie tekstów za pomocą różnych metod

      • Metody data-centric

        • Hierarchical Agglomerative Clustering,

        • K-means,

      • Metody description-centric

        • Carrot2 oraz Yippy,

        • SnSRC,

    • Klasyfikacja na przykładzie detekcji spamu

      • K Nearest Neighbours,

      • SVM,

      • Naive Bayes

    • Semantyczne podobieństwo tekstów

  4. Przetwarzanie danych tekstowych – przykłady użycia zaczerpnięte z komercyjnych projektów

    • Python i NLTK w kilku krokach na przykładach: wykrywanie wzorców w danych tekstowych, budowanie słowników nazw własnych, pełno tekstowe wyszukiwanie z użyciem Apache Lucene, miary współwystępowanie jako podstawa mierzenia podobieństwa semantycznego.

    • Budowanie bag-of-words z użyciem filtrów części mowy oraz nazw własnych

    • Indukcja znaczeń słów oraz grupowanie wyników według znaczeń

    • Budowanie w Javie ekstraktorów danych np. ScholarExtractor

    • Ekstrakcja słów kluczowych z tekstów w Javie

    • Klasyfikacja publikacji według taksonomii OSJ w Javie

    • Wyszukiwanie podobnych kierunków studiów w oparciu o ich opisy kompetencji zapisane w plikach doc(x)/pdf (przetwarzanie tekstów za pomoca Apache Tika, oraz ekstrakcja symboli z tekstów w celu zbudowanie ustrukturyzowanej reprezentacji wektorowej, miara Jaccarda jak alternatywa dla cosinusowej)

    • Wzbogacanie semantyczne z użyciem Javy oraz zasobów wiedzy (np. Wikipedia and BabelNet)

Pytania?

* Wymagane.
** Szczegóły promocji w Regulaminie.


Konsultant on-line
Skorzystaj z usług naszego konsultanta on-line.
Naciśnij przycisk ‘Skorzystaj’ aby przejść do okienka czatu
Kontakt
ul. Nowogrodzka 62c
02-002 Warszawa
Telefon +48 22 2035600
Fax +48 22 2035601
Email