DMS Pregled područja: razumijevanje podataka

Razumijevanje podataka

Nakon što smo postavili cilj projekta i okvirni plan za njegovo ostvarenje, možemo se okrenuti centralnom dijelu procesa obrade podataka - podacima. Prije same primjene specifičnih tehnika modeliranja potrebno je proučiti osnovne karakteristike podataka koji su nam na raspolaganju.

Prikupljanje podataka

Preliminarno prikupljanje podataka poslužit će stvaranju osnovne slike o podacima na raspolaganju za proces obrade:

stvaranje popisa prikupljenih i dostupnih podataka
lokacije podataka te metode potrebne za njihovo prikupljanje
problemi u prikupljanju podataka i njihovo otklanjanje

Osnovni opis podataka

U osnovni opis podataka spadaju:

dimenzije (volumen) podataka: broj primjera i broj varijabli (atributa);
identitet i značenje pojedinih variajbli (atributa);
format pojedinih atributa odnosno vrijednosti atributa.

Istraživanje osnovnih karakteristika podataka

Ovaj korak nije nužan jer otkrivanje svojstava i međuovisnosti u podacima jest osnovna zadaća tehnika modeliranja, no koristan je s mnogo aspekata. Osnovni cilj ove aktivnosti jest provjera da li podaci sadrže u svojoj strukturi dovoljno informacija za rješavanje problema.

Osnovne tehnike istraživanja svojstava podataka uključuju jednostavne statističke tehnike, koje daju osnovna svojstva distribucija vrijednosti pojedinih atributa (kod nominalnih odnosno kategoričkih atributa to su frekvencije pojavljivanja određenih vrijednosti, dok kod numeričkih atributa to uključuje srednje vrijednosti atributa, maksimume i minimume, std. devijaciju vrijednosti). Postoje i sofisticiranije metode (vidi Pyle, 1999) koje daju kvalitetniju informaciju o važnosti pojedinih atributa za rješavanje konkretnog problema (npr. korelacijske matrice, analiza osnovnih komponenti (Principal Component Analysis)).

Verifikacija kvalitete podataka

Kontrola kvalitete podataka, te uz to vezana poboljšanja i ispravke, bitno utječu na kasniju kvalitetu rezultata procesa modeliranja. Ukratko, verifikacija kvalitete podataka tiče se njihove potpunosti i ispravnosti. U ovu fazu pripadaju slijedeće aktivnosti:

određivanje konzistentnosti podataka s obzirom na vrijednost i tip atributa (nominalni odnosno kategorički ili numerički);
određivanje količine i distribucije primjera s neodređenim vrijednostima ("missing values") pojedinih atributa;
otkrivanje posebnih primjera, ili primjera koji 'odskaču' ("outliers"). Posebni primjeri (koje nazivamo i 'šum' u podacima) obično se svrstavaju u dvije kategorije: one koji predstavljaju greške, te one koji predstavljaju rijedak fenomen u odnosu na populaciju primjera u dostupnim podacima. Neke od tehnika modeliranja vrlo su osjetljive na pojavu posebnih primjera, tako da je poželjno isključiti takve primjere iz podataka i prije samog procesa modeliranja.