Struktura tehnika (algoritama) modeliranja
Već smo napomenuli da tehnike modeliranja u području obrade podataka svoje porijeklo vuku iz različitih područja istraživanja poput strojnog učenja, obrade signala, statistike, evolucijskog programiranja. Zajedniv ka karakteristika im je da automatski generiraju modele iz dostupnih podataka. Upravo ta činjenica uvjetuje da im je struktura medjusobno vrlo slična, karakterizirana trima funkcionalno povezanim komponentama:- Reprezentacija modela
- Ovo je ustvari funkcionalni (matematički) oblik modela. Formalno model se može prikazati kao funkcija y=f(x,P), gdje x predstavlja ulazne vrijednosti (dakle vrijednosti atributa pojedinih primjera iz skupa podataka), a P skup parametara koji definiraju specifični oblik modela. Npr. u slučaju da se radi o tehnici stabla odlučivanja y predstavlja graf sa odredjenim brojem čvorova i grana s definiranim svojstvima (P), dok u slučaju da se radi o metodi induciranja pravila y predstavlja skup pravila u obliku konjunkcija odnosno disjunkcija (CNF, DNF). Bitne karakteristike reprezentacije modela su: utjecaj na format ulaznih podataka, (numerički, kategorički, logički, svi), razumljivost i ekspresivnost reprezentacije, sposobnost aproksimiranja linearnih odnosno nelinearnih ovisnosti u podacima, konačni oblik rezultata (modela).
- Kriterij kvalitete aproksimacije
- Uz odredjenu reprezentaciju modela, interni kriterij kvalitete predstavlja procjenu kvalitete ponudjenog modela s obzirom na aproksimaciju odnosa medju varijablama podataka. Ovaj interni kriterij ne treba miješati s mjerama i metodologijom ocjene konačnog modeal podataka, koji su definirani na posebnim stranicama. Tipično, kriterij kvalitete modela ocjenjuje konstrukciju različitih instanci reprezentacije f, tijekom pretraživanja prostora mogućih rješenja posebnom metodom pretraživanja (treća komponenta!). Karakteristike internog kriterija kvalitete, koje bitno odredjuju konačni model podataka su: osjetljivost i robusnost na dimenzionalnost problema (broj atributa i primjera, te mogući broj instanci f), karakter kriterija (probabilistički, logički). Interni kriterij kvalitete bitno se razlikuje od metode do metode i ustvari je posljedica reprezentacije modela i metode pretraživanja prostora rješenja.
- Metoda pretraživanja
- Uz zadan oblik (reprezentaciju) modela, metoda pretraživanja predstavlja specifičan algoritam koji kontrolira pretraživanje prostora svih mogućih instanci f, koristeći se pritom internim kriterijem kvalitete (instanci) modela. To ustvari znači da uz specifičnu reprezentaciju modela, tehnike modeliranja podataka funkcioniraju u osnovi kao optimizacijski algoritmi. Osnovne karakteristike metoda pretraživanja su stoga identične onima kod optimizacijskih algoritama: osnovni način pretraživanja (heuristički, gradijentni, "greedy"); kompleksnost pretraživanja (da li se radi o optimizaciji prarametara modela P, ili postoji dodatna 'petlja' po različitim strukturama modela - primjer su neuralne mreže kod kojih možemo tražiti optimalne težine veza, ali i dodatno optimirati strukturu mreže); kontrola procesa pretraživanja (kriteriji za zaustavljanje pretraživanja).
Opisi različitih tehnika modeliranja navedenih na prethodnoj stranici, ilustriraju različitost ovih komponenti od tehnike do tehnike.
© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.