Základy datové analytiky
Data, kvalita dat
Pojmy
DATA ANALYSIS = procedura analyzování dat, techniky interpretace výsledků
DATA ANALYTICS = aplikace pc systémů na analyzování velkých datasetů pro podporu rozhodování
ANALYSIS vs ANALYTICS = analýza (zaměřuje se na již uskutečněné události), analytika (budoucí události)
DATA SCIENCE =interdisciplinární obor s cílem analyzovat a porozumět datům
DATA MINING = proces získávání vzorů z velkých datasetů
MACHINE LEARNING = tvorba algoritmů pro zpracování dat a tvorbu modelů, aniž by byly explicitně naprogramovány
ARTIFICIAL INTELLIGENCE = věda studující inteligentní agenty (entita, která vnímá prostředí a podniká kroky k maximalizaci úspěšného dosažení stanovených cílů)
Datové zdroje -- Interní – souhrn dat zaznamenaných v rámci firmy -- Externí – open data, lze k nim získat přístup mimo firmu -- Strukturované – databáze -- Semi-strukturované – XML, JSON -- Nestrukturované – bez organizace
Nástroje pro zajištění datové kvality se proto zabývají zpracováním dat s cílem zajistit jejich:
- Úplnost – identifikována a ošetřena chybějící nebo nepoužitelná data
- Soulad – identifikována a ošetřena data, která nejsou uložena ve standardním formátu
- Konzistenci – identifikována a ošetřena data, jejichž hodnoty jsou v konfliktu s jinými
- Přesnost – identifikována a ošetřena data, která jsou nepřesná nebo zastaralá
- Unikátnost – identifikovány a ošetřeny duplicitní záznamy
- Integritu – identifikována a ošetřena data, která postrádají vztahy vůči ostatním datům