Základní info
Tento jednodenní kurz je určen těm, kteří se zajímají o možnosti získávání a vyhodnocování informací z textových dokumentů, nejčastěji z webových zdrojů, ale i ze souboru textových dokumentů nebo různých databází. Cílem kurzu je ukázat možnosti jak pracovat s vágními textovými informacemi a jak z nich získat užitečnou informaci pro další zpracování a rozhodování. Využití text miningu lze spatřovat například v oblasti sledování trendů technologického vývoje, vyhodnocování konkurence, zákaznické vnímání vlastní společnosti apod.
Program kurzu
- Úvod
- Základní informace o softwaru STATISTICA
- Výukové zdroje pro software a možnosti nápovědy
- Účel, princip a zdroje text miningu
- Účel Seznámení s prostředím STATISTICA
- Načtení dat, různé typy výstupů, získání dat z databáze
- Možnosti grafických výstupů
- Účel, princip a zdroje text miningu
- Nastavení podmínek pro prohledávání a nastavení filtrů
- Výběr jazyka, zastoupení slov,…
- Nastavení frází, povolených, zakázaných slov, synonym
- Nastavení délky slov, max. počet souhlásek, povolených znaků, atd.
- Vytvoření a práce s indexovým souborem a frekvenční maticí
- Výběr významných příznaků (prediktorů) pro klasifikační úlohu
- Klasifikace
- Klasifikační stromy
- Metody strojového učení
- Neuronové sítě
- Shluková analýza nad získanými daty
Předpokládané znalosti účastníků -
- Běžná obsluha počítače v prostředí Windows.