Osnovna stranica

Metodologija obrade podataka

Stabla odlučivanja

Stabla odlučivanja vrlo su moćne i popularne tehnike modeliranja za klasifikacijske i predikcijske probleme. Privlačnost stabla odlučivanja leži u činjenici da, u odnosu na npr. neuralne mreže nude modela podataka u 'čitljivom', razumljivom obliku - ustvari u obliku pravila. Ta pravila se lako mogu direktno interpretirati običnim jezikom, ili pak koristiti u nekom od jezika za rad s bazama podataka (SQL), tako da se odredjeni primjeri iz baze mogu izdvojiti korištenjem pravila generiranih stablom odlučivanja.

Za neke je probleme od ključne važnosti samo točnost klasifikacije ili predikcije modela. U takvim slučajevima čitljivost modela nije od presudne važnosti. No, u drugim situacijama upravo sposobnost interpretiranja modela 'ljudskim' jezikom je od ključne važnosti. U marketingu potrebno je npr. dobro opisati različite segmente populacije kupaca za marketinške stručnjake kako bi oni mogli organizirati efektivnu kampanju radi povećanja prometa odredjenih proizvoda. Dakle, generirani modeli moraju biti čitljivi za eksperte iz domene problema i oni moraju prepoznati i odobriti primjenu znanja sadržanog u novim modelima. Postoji čitav niz različitih algoritama za konstruiranje stabla odlučivanja koji nude imaju ove osnovne kvalitete ove tehnike. Najpoznatiji i vjerojatno najviše korišten algoritam stabla odlučivanja jest C4.5 (odnosno njegova poboljšana iako komercijalne verzija See5/C5.0).

Što je stablo odlučivanja ?

Stablo odlučivanja jest klasifikacijski algoritam u formi stablaste strukture (Slika 1), u kojoj se razlikuju dva tipa čvorova povezanih granama:

Stablo odlučivanja može se koristiti za klasifikaciju primjera, tako da se krene od prvog čvora odlučivanja u korijenu stabla i kreće po onim granama stabla koja primjer sa svojim vrijednostima zadovoljava sve do krajnjeg čvora koji klasificira primjer u jednu od postojećih klasa problema.

Osnovni preduvjeti za korištenje tehnike stabla odlučivanja su: