Základní info
Příprava dat je klíčem k úspěchu při dolování dat. Tento kurz IV úrovně je určen pro data minery a IT profesionály, kteří se zabývají transformací surových dat na smysluplné vstupy prediktivních modelů.
Přínos pro účastníka
Školení představuje programátorské techniky užívané analytiky při přípravě dat do formy vhodné k modelování. Naučíte se, jak extrahovat potřebné informace ze zdrojů surových dat a převádět transakční data či data popisující události do formy, která je nutná k modelování. Rovněž se naučíte, jak do modelů efektivně zahrnout nenumerická data, jak se vyrovnat s výjimkami či extrémními hodnotami. Po absolvování tohoto školení budete rovněž schopni dokumentovat proces přípravy dat.
Účastník by měl mít:
- zkušenost s technikami prediktivního modelování, přibližně v rozsahu školení AAEM / AAEM53
- zkušenost při práci s tabulkami v SAS, zhruba v rozsahu školení PRG2
Obsah kurzu
Úvod
- struktury surových dat
- struktura dat vhodná pro prediktivní modelování
- přehled problematiky přípravy dat
Extrakce relevantních dat
- "problémy" v datech
- ohodnocení dostupnosti dat
- přístup k datům
- vytvoření reprezentativního vzorku dat pro modelování
Transformace transakčních dat a dat popisujících události
- výhody a nevýhody transakčních dat
- běžně užívané struktury pro uložení transakcí
- definice časového okna
- fixní a variabilní časové okno
- implementace běžně užívaných transformací transakčních dat
Použití nenumerických dat
- definice a "problémy" nenumerických dat
- detekce a řešení problémů manuálně vkládaných dat
- řízení stupňů volnosti
- geokódování, specifika České Republiky
Výjimky a extrémní hodnoty
- odlehlá pozorování, chybějící a neaplikovatelné hodnoty, extrémní hodnoty
- detekce vyjímek a extrémů
- ošetření odlehlých a extrémních hodnot