Priprema podataka
Iako smo se prethodnim aktivnostima značajno približili samom procesu modeliranja, preostaje nam još i konačna priprema podataka za proces modeliranja. Ugrubo ta se priprema može podijeliti u četiri faze: odabir podataka, 'čišćenje' podataka, formiranje novih atributa ili primjera, te formatiranje podataka. Ovaj korak predviđa odabir podskupa podataka prikupljenih u prethodnoj fazi, na bazi kriterija kvalitete podataka i tehničkih ograničenja:- kvaliteta podataka: u principu se odabiru primjeri koji su kompletni i ispravni, mogu se isključiti pojedini atributi koji imaju mnogo primjera s neodređenim vrijednostima i sl.;
- tehnička ograničenja: u slučaju da postoji ograničenje na volumen podataka koji se može na efikasan način modelirati odabranom tehnikom, potrebno je prethodno podijeliti ili izdvojiti podatke na dijelove koji zadovoljavaju ograničenja.
- normaliziranje podataka: npr. normaliziranje vrijednosti numeričkih atributa u interval (0,1) ili na vrijednost standardne devijacije vrijednosti pojedinog atributa;
- 'glađenje' podataka ("data smoothing"). Jedan od primjera je diskretizacija numeričkih atributa, koje je za neke logičke metode i nužna.
-
tretman primjera sa neodređenim vrijednostima ("missing values"). Za ovaj problem postoji nekoliko recepata, ali nijedan od njih nije u potpunosti korektan. Prije svega, poželjno je eksperimentirati u fazi modeliranja naizmjence koristeći atribute kod kojih je broj primjera
s neodređenim vrijednostima velik, a zatim bez njih. Na taj način može se provjeriti
vrijednost tih atributa (odnosno primjera) s neodređenim vrijednostima. Neka od jednostavnijih rješenja su:
- zamjena svih neodređenih vrijednosti jednom 'reprezentativnom', konstatnom, vrijednosti;
- zamjena neodređenih vrijednosti sa srednjom vrijednosti atributa (ili onom najčešćom , kod nominalnih atributa);
- zamjena neodređenih vrijednosti sa srednjom vrijednosti atributa (ili onom najčešćom , kod nominalnih atributa), za tu klasu primjera.
-
redukcija podataka. Razlozi za redukciju podataka su dvojaki: ili su podaci preobimni za efikasno modeliranje, ili bi pak proces modeliranja mogao trajati predugo. Metode redukcije su u principu efektivne ali nesavršene. Najčešće se na osnovu prethodno ispitane informativne vrijednosti atributa, pojedini atributi koji su neizražajni (bilo da su slabi prediktori ili su pak redundantni s nekim izražajnijim atributom) u smislu rješavanja problema, izbacuju iz skupa podataka. Tehnike redukcije atributa u skupu podataka počivaju na statističkim tehnikama:
- odabir na osnovu osnovnih distribucijskih pokazatelja (srednje vrijednosti, std. devijacija);
- korištenjem metode analize osnovnih komponenti ("principal component analysis"), za odbacivanje redundantih atributa;
- spajanjem više atributa uz određenu transformaciju (linearna, nelinearna).
- stvaranje novih atributa na osnovu više postojećih atributa iz skupa podataka;
- stvaranje novih primjera;
- transformacije atributa: prethodno navedene tehnike normaliziranja, i 'glađenja' postojećih atributa;
- spajanje tablica: ekstrakcija atributa iz više različitih tablica podataka ("merging");
- agregacija: stvaranje novih atributa sumiranjem informacija iz više primjera i/ili tablica.
- promjene u redoslijedu atributa odnosno primjera. Neke tehnike modeliranja traže da ciljni atribut (klasa), bude na početku odnosno na kraju tablice atributa. Isto tako neke tehnike postavljaju zahtjeve na redoslijed primjera (npr. neuralne mreže zahtijevaju potpuno slučajan redoslijed primjera).
- promjene koje se odnose na ograničenja u sintaksi: brisanje zareza, razmaka ili 'tab-ova', zamjene specijalnih oznaka, reduciranje duljine nominalnih atributa na dozvoljen broj slova i sl.
Napomena
Svaka od tehnika modeliranja u principu ima svoj vlastiti format podataka. Štoviše, neke od tehnika prihvaćaju samo određen tip atributa, bilo nominalni ili numerički. U tom smislu moguće je posebno transformirati podatke u tzv. standardni format podataka koji efektivno može koristiti vrlo širok spektar tehnika. Standardni format podataka definira dva tipa atributa:- binarni (1- ako atribut poprima određenu vrijednost; 0- ako ne poprima određenu vrijednost);
- numerički.
© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.