Osnovna stranica

Metodologija obrade podataka

Evaluacija modela (otkrivenog znanja)

ROC analiza

Senzitivnost i specifičnost opisuju kvalitetu modela jasnije od točnosti, no i te mjere imaju nedostataka. Za odredjeni model one predstavljaju dvije mjere, jednu za pozitivne primjere, drugu za negativne primjere. Jedna još obuhvatnija mjera kvalitete modela je ROC analiza ("ROC - Receiver Operating Characteristic"), klasična metodologija iz područja detekcije signala.

Najvažnije za razumijevanje ROC analize jest pojam graničnih vrijednosti pouzdanosti odredjenog klasifikatora. Za vrlo striktne granične vrijednosti pouzdanosti (visoka pouzdanost), senzitivnost klasifikatora je uvijek niska, a specifičnost visoka. Ako se taj kriterij pouzdanosti snizi, snzitivnost će rasti, a specifičnost padati. Na taj način možemo komparirati dva klasifikacijska modela preko širokog spektra pouzdanosti, tipično generirajući jednu krivulju koja opisuje ovisnost broja stvarno pozitivnih primjera naspram broja lav no pozitivnih primjera detektiranih modelom, ili pak senzitivnost naspram veličini (1-specifičnost). ROC krivulja (odnosno dijagonala) koja spaja lijevi donji ugao i gornji desni ugao, predstavlja potpuno slučajnu klasifikaciju. Savršeni klasifikator bi u ROC grafu slijedio lijevu i gornju os grafa. Krivulje realnih klasifikatora leže izmedju ova dva slučaja (lijevi gornji trokut grafa).

Slika: ROC krivulja

Modificiranje grešaka: troškovi pogrešne klasifikacije

Primarna mjera rada klasifikacijskog modela jest količina grešaka. Postoje brojne varijacije na temu grešaka.

Prirodna alternativa je uključivanje troškova za pojedine vrste grešaka. Tipično je za realne situacije da nastojimo konstruirati klasifikator koji minimizira troškove odnosno štetu napravljenu krivom klasifikacijom. Trošak krive klasifikacije ("misclassification cost") jest 'kazna' za krivo klasificiranje odredjenog primjera. Na primjer, kod klasifikacijskog problema s dvije klase, trošak za lažno-pozitivnu klasifikaciju može iznositi jedan, a za lažno-negativnu klasifikaciju, dva. Prosječni trošak pogrešne klasifikacije primjera može se dobiti usrednjavanjem ukupnog troška po broju pogrešno klasificiranih primjera.

Svaka matrica grešaka ima n2 članova, gdje n predstavlja broj klasa Na dijagonali leži broj korektno klasficiranih primjera po klasama, dok elementi van dijagonale, predstavljaju broj različitih tipova pogrešne klasifikacije primjera. Ukoliko pridjelimo trošak svakom pojedinom tipu greške, ukupni se trošak može izračunati kao suma troškova svih tipova grešaka. Ako je svim tipovima pridijeljen trošak/težina 1, tada je ukupni trošak jednak ukupnoj količini grešaka.

Podizanjem ili spuštanjem troškova pogrešne klasifikacije, moguće je 'usmjeravati' odluke, odnosno klasifikaciju primjera u odredjenom smjeru, kao da se radi o povećanju ili smanjenju primjera odredjene klase. Formalno, za bilo koju matricu grešaka, ukoliko pretpostavimo da je Eij broj grešaka tipa ij, a Cij trošak vezan uz taj tip greške, tada je ukupan trošak dan jednadžbom:

Dosad smo govorili samo o trošku vezanom uz pogrešnu klasifikaciju, ali ne i o potencijalnom, očekivanom dobitku od korektne klasifikacije. U tzv. analizi rizika ili analizama vezanim uz proces odlučivanja, uključeni su pored troškova i dobici, pri analizi rada klasifikacijskog modela. Uobičajeno je da su u tim primjenama maksimizira dobitak. Očekivani dobitak (ili gubitak!), jest razlika izmedju dobitaka prouzrokovanih korektnom klasifikacijom i gubitaka zbog pogrešne klasifikacije.

U ekonomskim analizama koristi se još i tzv. teorija korisnosti ("utility theory"), gdje se barata rizicima (koji se izračunavaju preko troškova odnosno dobitaka), te posebnim funkcijama koji modificiraju pojam rizika, u procesu koji prethodi samoj konstrukciji klasifikacijskih modela.

U svim prethodno opisanim slučajecima, odluke o klasifikaciji se baziraju na modificiranom pojmu gre v ske (pogrešne klasifikacije), kako bi se omogućilo mjerenje rada klasifikacijskog modela u jedinicama tipičnim za domenu problema i time donošenje ispravnih odluka.





© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.