Kako smo pripremili datoteku sa meningitis podacima ?

1. korak pohranite podatke na svoje računalo
Počnite s izvornom datotekom, (koja je kopija datoteke pripremljene za JSAI KDD izazov 2001). Datoteku možete spremiti pritiskom desne tipke miša i odabirom opcije SAVE ... AS.
2. korak uklonite nepotrebne retke (komentare)
Izbrišite retke 1, 2, 3, i 126 koji se koriste kao kometari u datoteci.
3. korak odaberite znak radvajanja
U datoteci je korišten zarez kao znak razdvajanja što nije potrebno mijenjati. U svim predstojećim eksperimentima odaberite zarez kao znak razdvajanja, broj polaznih modela 1, parametar generalizacije 1 i ne koristite mogućnost detekcije šuma.
4. korak zamijenite sve '(' i ')' sa '_'
Ukoliko s tako pripremljenom datotekom krenete u analizu podataka za očekivati je da eksperiment neće uspjeti jer nije označen ciljni atribut. Ipak, poslužitelj će javiti slijedeću grešku: 'Greška je E1001 / 23'. Problem je u znaku '(' prepoznatom u prvom retku datoteke. Ne zaboravite da poslužitelj javlja samo prvu prepoznatu pogrešku u analizi podataka. Ostale pogreške u datoteci poslužitelj prepoznaje samo nakon što se ukloni prvo prepoznata pogreška.
5. korak odaberite ciljni atribut
Do ovog koraka javljena greška je E1001 / 31 jer još uvijek nije označen ciljni atribut. Pretpostavimo da nas zanimaju razlike izmedju dijagnoza BACTERIA i VIRUS i želimo inducirati pravila za dijagnozu BACTERIA koju uzimamo za pozitivnu klasu. 'Diag2' odabiremo za ciljni atribut zamjenom oznake 'Diag2' s oznakom '!Diag2'. Sada kada smo odredili pozitivnu klasu, sve vrijednosti atributa s nazivom 'BACTERIA' iz četvrte kolone treba zamijeniti s nazivom '!BACTERIA'. Zadatak nije potpuno jednostavan jer i u trećoj koloni datoteke postoje nazivi 'BACTERIA', a njih se ne smije mijenjati.
6. korak zamijenite '-' i '+' znakove
Do ovog koraka javljena greška je E1001 / 35 jer znak '-' nije ispravan naziv za ulaznu vrijednost atributa. Problem možemo ukloniti tako da znak '-' zamijenimo s nizom slova 'minus', a znak '+' s 'plus'. Ukoliko nam se više dopadaju kraći nazivi, možemo jednostavno koristiti slova 'm' i 'p'.
7. korak RADI ali .. korisno je izostaviti neke ulazne atribute
Nakon svih ovih ispravki poslužitelj će dati prvo pravilo. Ono ne izgleda vrlo korisno jer se koristi podacima iz trećeg stupca koji se zove 'DIAG', a koji sadrži iste informacije kao i ciljni atribut iz četvrtog stupca. Savjet je isključiti treći stupac iz procesa indukcije tako što ćemo naziv 'DIAG' zamijeniti s nazivom '?DIAG'. Na isti način korisnik može izostaviti i ostale atribute i tako utjecati na dobivena inducirana pravila.
8. korak promijena znaka razdvajanja (po potrebi)
U datoteci je moguće jednostvano zamijeniti zarez kao znak razdvajanja sa znakom točka-zarez ili TAB. Ukoliko pak odlučite koristiti 'razmak' za znak razdvajanja svakako uočite da postoje neke nepoznate vrijednosti atributa koje nisu označene s '?'. One su u polaznoj datoteci označene sa dva uzastopna zareza koji eventualno mogu biti razdvojeni 'razmakom'. Kada koristimo 'razmak' za znak razdvajanja, te vrijednosti atributa moraju se označiti s '?'.





© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.