Poslužitelj za analizu podataka - opis ulazne datoteke

Kako treba izgledati datoteka ?

N - broj primjera .............. max. 250
M - broj ulaznih atributa ....... max. 50
W - broj znakova u nazivu ili vrijednosti atributa .... max. 30

Ulazna datoteka za indukciju znanja je ASCII datoteka s primjerima. Primjeri su jedini izvor informacija o problemu koje poslužitelj koristi. Zato datoteka treba sadržavati što više primjera (do 250 za ovaj poslužitelj) a oni trebaju biti raznovrsni i čim bolje predstavljati problem. Primjeri sadržani u ulaznoj datoteci ponekad se nazivaju učnim primjerima za razliku od testnih primjera koji se koriste za provjeru kvalitete predvidjanja induciranih pravila (znanja).

Svaki primjer u datoteci predstavljen je u zasebnom retku. Redci su odvojni sa znakom povratka na početak retka (CR, ASCII vrijednost 13 decimalno) ili znakom novog retka (LF, ASCII vrijednost 10 decimalno) ili s kombinaciom ova oba znaka. Ulazna datoteka s N primjera sadrži N+1 redaka. U prvom retku nalaze se nazivi atributa, a preostalih N redaka predstavljaju primjere koji su opisani vrijednostima atributa. Svaki primjer opisan je s M+1 vrijednosti atributa: 1 ciljni atribut i M ulaznih atributa. Dakle, ulazna datoteka ima oblik tablice s N+1 redaka i M+1 stupaca. Poredak atributa mora biti jednak u svim primjerima, tj. vrijednosti moraju odgovarati nazivima atributa iz prvog retka. Ime ili vrijednost atributa može sadržavati najviše W znakova. Imena atributa u prvom retku i vrijednosti atributa u drugom do N+1 retka moraju biti odvojene znakom razdvajanja. Poslužitelj dozvoljava četiri različita znaka razdvajanja koja se ne smiju miješati u jednoj datoteci.

Za vrijeme pripreme podataka korisnik mora odabrati jedan (i samo jedan) atribut koji će biti objekt procesa modeliranja. Taj atribut se zove ciljni atribut. Svi ostali atributi su ulazni atributi. Rezultat analize podatka je informacija o povezanosti ciljnog atributa s ulaznim atributima. Ovaj poslužitelj prihvaća samo one probleme u kojima ciljni atribut ima točno dvije klase: pozitivnu i negativnu klasu. Svaki primjer sadržan u ciljnom atributu mora pripadati jednoj od te dvije klase. Rezultat analize podataka su jedan ili više modela (pravila) koja preko svojstava ulaznih atributa opisuju pozitivnu (ciljnu) klasu u odnosu prema negativnoj klasi.

slijedeća stranica