Poslužitelj za analizu podataka

Detaljni opis razine A

(Dokumentacija na ovoj stranici i s njom povezanim stranicama opisuje kako smo namjeravali izvesti projekt. Većina teksta napisana je prije siječnja 2001. godine. Opis stvarno realiziranog sustava je na Poslužitelj za analizu podataka .)

Ograničenja na kompleksnost problema na razini A su: 150 primjera 30 atributa i do 30 znakova u pojedinom ulaznom nizu.

Izgled datoteke

Na razini A je samo jedna datoteka koja se može prenjeti na poslužitelj. Datoteka neće eksplicitno uključivati informaciju o broju primjera i broju atributa. Datoteka treba biti u čistom ASCII obliku sa M+1 redaka (M je broj primjera) i N+1 stupaca (N je broj atributa). Svaki redak ima N+1 elemenata jer pored N atributa, postoji i niz koji odredjuje klasu primjera. Redosljed atributa (uključujući i klasu) treba biti jednak u svim primjerima. Prvi redak u datoteci definira imena atributa i ime varijable za klasifikaciju. To je razlog što datoteka sa M primjera treba M+1 redaka.

Na razini A, zbog zahtijevane jednostavnosti komunikacije, stupac klase je definiran tako što mu ime počinje sa $ . Njegova pozicija u datoteci je proizvoljna. Primjeri ciljne klase su oni čije ime klase započinje sa znakom "1" a svi ostali primjeri su negativna klasa.

Atributi mogu biti tipa ,nominalni' 'kontinuirani' i 'diskretni'. Tip svakog atributa se odredjuje automatski za vrijeme procesa indukcije.

Zamišljeni izgled razine A

Na razini A potencijalni korisnici će praktično odmah ići na prijenos datoteke. Na istoj stranici biti će pokazivač na stranice koje opisuju potrebni format datoteke i pokazivač na sigurnosne informacije. Ovaj će uključivati programe koje korisnik može uzeti i primjeniti za kodiranje svojih podataka, kao i upute za njihovo korištenje. Biti će tu i primjeri datoteka koje će korisnik moći uzeti i koristiti za testiranja.

Ime datoteke sa podacima neće biti ograničeno. Za vrijeme izvodjenja na poslužitelju podaci će se spremati u datoteke sa interno generiranim imenima. Neposredno poslije indukcije, sve datoteke vezane uz tu obradu će se obrisati. Indukcija pravila će biti zasnovana na 'potvrdjujućim' pravilima generiranim heurističnim pretraživanjem realiziranim u 'gerules' programu. Korisnik će moći izabrati a) broj generiranih modela i b) vrijednost parametra generalizacije. Rezultat indukcije će biti jedan ili više (do tri) pravila. Svako pravilo prikazat će se kao konjunkcija uvjeta, tako da je svaki uvjet ispisan u svom retku.

Na razini A, pored pravila generiranih sa 'gerules' programom, koji će biti glavni rezultat, postojati će još dva data mining alata. Prvi je jednostavna statistička analiza svih ulaznih atributa za primjere ciljne (pozitivne) i negativne klase. Rezultat će biti srednja vrijednost, median i standardna devijacija za svaki numerički atribut za svaku klasu. Za kategoričke atribute rezultat će biti lista nekoliko najčešćih vrijednosti za svaku klasu. Drugi data mining alat biti će detekcija šuma iz standardnog ILLM paketa. Rezultat će biti lista potencijalno šumnih primjera. Korisnik neće moći birati parametre dekecije šuma. Obe opcije bi mogle zahtijevati znatno vrijeme procesiranja te će se obe moći po potrebi isključiti.

Ostale važne pretpostavke za sve razine:

Svaki atribut u datoteci mora biti jednog i samo jednog tipa. Postoje nominalni, kontinuirani i diskretni tip. Nominalni atributi (ili s atributi) moraju biti nizovi koji počinju sa slovom a-z ili A-Z. Pored slova oni mogu uključivati brojeve 0-9 i '_' kao jedini specijalni znak. Razmak nije dozvoljen jer je on znak razdvajanja za ulazne nizove. Izuzetno prvi znak smije biti ? a značenje je nepoznata vrijendost niza.

Diskretni (ili i atributi) i kontinuirani (ili f atributi) moraju početi sa brojevima 0-9 ili sa znakom (+ ili -). Izuzetno kontinuirani atributi mogu početi i sa točkom (.). Eksponencijalna ulazna forma nije dozvoljena. Razmaci ne mogu biti uključeni u atribute. Atributi sa prvim znakom ? znače nepoznatu vrijednost. Diskretni atributi trebaju biti u području 0 - 1000 , dok kontinuirani atributi trebaju biti u području - 1 000 000 do + 1 000 000. Brojčani atribut je automatski prepoznat kao diskretni ako su mu sve vrijednsoti (osim nepoznatih vrijednosti) cjelobrojne u području 0-1000. U suprotnom atribut se deklarira kao kontinuirani. ILLM obradjuje diskretne atribute različito od kontinuiranih. Za njih se konstruiraju literali 'jednak' i 'nejednak' pored standardnih literala 'veći' i 'manji' za sve numeričke atribute. Numeričke atribute za koje ima smisla konstruirati literale 'jednak' i 'nejednak' korisnik u svojoj datoteci treba pretvoriti u cjelobrojne vrijednosti u području 0-1000. U slučaju kada ti literali nemaju smisla a ulazne vrijednosti su cjelobrojne u području 0-1000, korisnik treba barem jednu ulaznu vrijednost u odgovarajućem stupcu pretvoriti u vrijednost sa decimalnom točkom.

Opis projekta

Detaljni opis razine A

(Dokumentacija na ovoj stranici i s njom povezanim stranicama opisuje kako smo namjeravali izvesti projekt. Većina teksta napisana je prije siječnja 2001. godine. Opis stvarno realiziranog sustava je na Poslužitelj za analizu podataka .)

Izgled datoteke

Zamišljeni izgled razine A