Kako smo pripremili datoteku sa meningitis podacima ?
- 1. korak pohranite podatke na svoje računalo
- Počnite s izvornom datotekom,
(koja je kopija datoteke pripremljene za
JSAI KDD izazov 2001). Datoteku možete spremiti pritiskom desne
tipke miša i odabirom opcije SAVE ... AS.
- 2. korak uklonite nepotrebne retke (komentare)
- Izbrišite retke 1, 2, 3, i 126 koji se koriste kao kometari u datoteci.
- 3. korak odaberite znak radvajanja
- U datoteci je korišten zarez kao znak razdvajanja što nije potrebno mijenjati.
U svim predstojećim eksperimentima odaberite zarez kao znak razdvajanja,
broj polaznih modela 1, parametar generalizacije 1 i
ne koristite mogućnost detekcije šuma.
- 4. korak zamijenite sve '(' i ')' sa '_'
- Ukoliko s tako pripremljenom datotekom krenete u analizu
podataka za očekivati je da eksperiment neće
uspjeti jer nije označen ciljni atribut. Ipak, poslužitelj će
javiti slijedeću grešku:
'Greška je E1001 / 23'. Problem je u znaku '(' prepoznatom u prvom
retku datoteke. Ne zaboravite da poslužitelj javlja samo prvu
prepoznatu pogrešku u analizi podataka. Ostale
pogreške u datoteci poslužitelj prepoznaje samo nakon što
se ukloni prvo prepoznata pogreška.
- 5. korak odaberite ciljni atribut
- Do ovog koraka javljena greška je E1001 / 31 jer
još uvijek nije označen ciljni atribut. Pretpostavimo da nas zanimaju razlike
izmedju dijagnoza BACTERIA i VIRUS i želimo inducirati pravila za dijagnozu BACTERIA
koju uzimamo za pozitivnu klasu. 'Diag2' odabiremo za ciljni atribut zamjenom oznake 'Diag2'
s oznakom '!Diag2'. Sada kada smo odredili pozitivnu klasu, sve vrijednosti atributa s nazivom
'BACTERIA' iz četvrte kolone treba zamijeniti s nazivom '!BACTERIA'. Zadatak nije
potpuno jednostavan jer i u trećoj koloni datoteke postoje nazivi
'BACTERIA', a njih se ne smije mijenjati.
- 6. korak zamijenite '-' i '+' znakove
- Do ovog koraka javljena greška je E1001 / 35 jer znak '-' nije ispravan
naziv za ulaznu vrijednost atributa. Problem možemo ukloniti tako da znak '-'
zamijenimo s nizom slova 'minus', a znak '+' s 'plus'.
Ukoliko nam se više dopadaju kraći nazivi, možemo jednostavno koristiti
slova 'm' i 'p'.
- 7. korak RADI ali .. korisno je izostaviti neke ulazne atribute
- Nakon svih ovih ispravki poslužitelj će dati prvo pravilo. Ono ne izgleda
vrlo korisno jer se koristi podacima iz trećeg stupca koji se zove 'DIAG', a koji
sadrži iste informacije kao i ciljni atribut iz četvrtog stupca. Savjet je isključiti
treći stupac iz procesa indukcije tako što ćemo naziv 'DIAG' zamijeniti s nazivom '?DIAG'.
Na isti način korisnik može izostaviti i ostale atribute i tako utjecati
na dobivena inducirana pravila.
- 8. korak promijena znaka razdvajanja (po potrebi)
- U datoteci je moguće jednostvano zamijeniti zarez kao znak
razdvajanja sa znakom točka-zarez ili TAB.
Ukoliko pak odlučite koristiti 'razmak' za znak razdvajanja
svakako uočite da postoje neke
nepoznate vrijednosti atributa koje nisu označene s '?'. One su u polaznoj datoteci
označene sa dva uzastopna zareza
koji eventualno mogu biti razdvojeni 'razmakom'. Kada koristimo 'razmak' za znak
razdvajanja, te vrijednosti atributa moraju se označiti s '?'.
© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.