Základy datové analytiky

Data, kvalita dat

Pojmy

  • DATA ANALYSIS = procedura analyzování dat, techniky interpretace výsledků

  • DATA ANALYTICS = aplikace pc systémů na analyzování velkých datasetů pro podporu rozhodování

  • ANALYSIS vs ANALYTICS = analýza (zaměřuje se na již uskutečněné události), analytika (budoucí události)

  • DATA SCIENCE =interdisciplinární obor s cílem analyzovat a porozumět datům

  • DATA MINING = proces získávání vzorů z velkých datasetů

  • MACHINE LEARNING = tvorba algoritmů pro zpracování dat a tvorbu modelů, aniž by byly explicitně naprogramovány

  • ARTIFICIAL INTELLIGENCE = věda studující inteligentní agenty (entita, která vnímá prostředí a podniká kroky k maximalizaci úspěšného dosažení stanovených cílů)

  • Datové zdroje -- Interní – souhrn dat zaznamenaných v rámci firmy -- Externí – open data, lze k nim získat přístup mimo firmu -- Strukturované – databáze -- Semi-strukturované – XML, JSON -- Nestrukturované – bez organizace

Nástroje pro zajištění datové kvality se proto zabývají zpracováním dat s cílem zajistit jejich:

  • Úplnost – identifikována a ošetřena chybějící nebo nepoužitelná data
  • Soulad – identifikována a ošetřena data, která nejsou uložena ve standardním formátu
  • Konzistenci – identifikována a ošetřena data, jejichž hodnoty jsou v konfliktu s jinými
  • Přesnost – identifikována a ošetřena data, která jsou nepřesná nebo zastaralá
  • Unikátnost – identifikovány a ošetřeny duplicitní záznamy
  • Integritu – identifikována a ošetřena data, která postrádají vztahy vůči ostatním datům
Previous
Přidaná hodnota dat pro business