Uvod za nove korisnike
Pretpostavimo da ste zainteresirani za problem pušenja, odnosno želite saznati glavne značajke pušača i po čemu se oni razlikuju od nepušača. Da bi to učinili, prvo morate imati podatke o skupini ljudi koja vas zanima i koja se sastoji od pušača i nepušača. Za svaku osobu potrebno je prikupiti podatke (atribute) kao što su starost, spol, obrazovanje, zanimanje, prihodi i slično. Nadalje, za svaku osobu potrebno je zabilježiti da li je pušač ili nepušač. U mnogim primjenama, stvarno prikupljanje podataka nije nužno budući da zanimljivi podaci često već postoje u nekom obliku. Tipičan zadatak prikupljanja podataka je potraga za prikladnim izvorima podataka i njihovo kombiniranje i/ili transformiranje.
U svakom slučaju, prikupljanje podataka ima za konačan rezultat datoteku u kojoj je svaki primjer opisan skupom atributa. U problemu 'pušača' primjeri su osobe, a atributi su godine starosti, spol itd. Identifikacijski atributi kao što su ime ili matični broj isto tako mogu biti uključeni u pripremljenu datoteku. Atributi mogu sadržavati i nepoznate vrijednosti. Na primjer, umjesto nepoznatog zanimanja ili starosti osobe upišite jednostavno '?'. Svaka osoba (primjer) predstavljena je u datoteci u zasebnom redu.
Prikupljeni podaci trebaju se na kraju pripremiti u obliku prikladnom za analizu podataka. U problemu 'pušača', atribut koji sadrži informaciju da li je pojedina osoba pušač ili nepušač predstavlja ciljni atribut. To znači da nas zanimaju odnosi koji povezuju značajke pušača s ostalim atributima. Svaka zadaća analize podataka na osnovi indukcije znanja mora imati ciljni atribut. Svi ostali atributi su automatski ulazni atributi koji se koriste kako bi se izgradio model pušača.
Nakon što smo odabrali ciljni atribut, potrebno je i odabrati ciljnu klasu. U našem primjeru ciljni atribut ima dvije klase: pušače i nepušače. Možemo odabrati bilo koju od te dvije klase za ciljnu (pozitivnu) klasu. Preostala klasa (ili u slučaju kada ciljni atribut ima više klasa, sve preostale klase) je negativna klasa. Rezultat analize podataka su jedan ili više modela (pravila) koji opisuju najvažnije podgrupe ciljne (pozitivne) klase. Modeli opisuju razlike svojstava pozitivne i negativne klase. Modeli su opisani s vrijednostima ulaznih atributa. Važno je uočiti kako je postojanje primjera i za ciljnu (pozitivnu) i za negativnu klasu obvezno jer je zadatak indukcije traganje za razlikama izmedju klasa. U našem primjeru možemo odabrati ili pušače ili nepušače za ciljnu klasu. Odabir ovisi samo o tome za koju grupu želimo stvoriti model. Ali neovisno o tome koju klasu odaberemo za ciljnu klasu, u ulaznoj datoteci moramo imati i pušače i nepušače. Ovdje je ista datoteka, ali sada pripremljena na način da je 'PUSAC' označen kao ciljni atribut, a klasa 'da' je odabrana za ciljnu klasu. Datoteku možete spremiti i isprobati je na poslužitelju. Korišteni znak razdvajanja je TAB. O načinu označavanja ciljnog atributa i ciljne klase možete naučiti usporedbom polazne i pripremljene datoteke ili u uputama o pripremi podataka.
Model (pravilo) koji je rezultat analize podataka za problem 'pušača' je:
PUSAC AKO SPOL je muski I PRIHOD je manji od 15000
slijedeća stranica
© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.