Osnovni opis sustava
(Dokumentacija na ovoj stranici i s njom povezanim stranicama opisuje kako smo namjeravali izvesti projekt. Većina teksta napisana je prije siječnja 2001. godine. Opis stvarno realiziranog sustava je na Poslužitelj za analizu podataka .)
Data Mining Server (DMS) će imati dva osnovna dijela. Prvi je implementacija data mining algoritama a drugi je data mining dokumentacija. Dokumentacijski dio uključivati će općenite data mining informacije, upute za implementirane algoritme i neke ekspertne savjete o načinu korištenja data mining algoritama. Upute o implementiranom sustavu trebaju biti čvrsto povezane sa realiziranim algoritmima tako da korisnici mogu lako doći do potrebnih informacija, posebno u slučajevima detektiranih pogrešaka ili problema sa podacima prenesenim na poslužitelja. Općenit i ekspertni dio dokumetacije trebaju imati pokazivače na sve relevantne mrežne resurse iz ovog područja.Općeniti koncepti
Projekt bi trebao sažeti osnovne ILLM algoritme u jedinstven alat koji će se jednostavno koristiti. Dokumtacijski dio će biti širi, ali je važno da su upute jasne i dobro povezane sa implementacijom. I ralizacija algoritama i dokumentacija moraju biti takvi da su moguće buduće nadopune.Alat koji će se realizirati je sustav za indukciju pravila na osnovi vrijednosti atributa za probleme sa dvije klase. Ulaz je datoteka sa učnim primjerima, eventualno u kombinaciji sa nekim opcijama i nekim imenima atributa. Ulazna datoteka mora uključivati primjere dvije klase: pozitivne i negativne. Izlaz je jedno ili više pravila koja opisuju pozitivne primjere. Pravila trebaju biti točna za mnogo pozitivnih primjera a niti za jedan (ili čim manje) negativnih primjera. Pravila se biraju tako da predstavljaju općenita svojstva raspoloživih učnih primjera. Na taj način se može pretpostaviti a) da inducirana pravila opisuju modele pozitivne klase (prema primjerima iz primljene datoteke) i b) da se pravila mogu koristiti za predikciju klasa još ne klasificiranih primjera.
Realizacija
U ovom trenutka pretpostavlja se da će realizacija imati dva dijela. Prvi je osnovna razina koja će biti ekstremno jednostavna za korištenje ali koja će imati ograničene mogućnosti. Druga razina bi trebala omogućiti složenije operacije, prihvaćati veće datoteke a uključivati će i opcije za izbor načina generiranja hipoteza. Prva razina se naziva razina A i treba biti realizirana u potpunosti prije početka realizacije razine B. U slučaju poteškoća, pojekt može završiti sa realiziranom samo razinom A.Bitna razlika izmedju razina A i B je da je na razini A kompletna informacija o korisniku i njegovim podacima privremena. Na razini B, korisnik se identificira imenom koje se koristi za kreiranje poddirektorija samo za tog korisnika. Taj poddirektorij se automatski briše nakon nekoliko sati (ili jedan dan) ali će postojanje poddirektorija omogućiti da korisnik, pored datoteka sa podacima, može prenjeti i datoteke sa opcijama i primjerima za testiranje. Na razini B korisnik će moći dobiti i datoteke sa poslužitelja koje su nastale radom algoritama, kao što su datoteka sa pravilima, datoteka sa popisom grešaka i datoteka nastala prevodjenjem njegovih podataka.
Sigurnost
Sustav neće trajno spremati korisničke podatke ali on neće imati nikakve posebne sigurnosne mehanizme. Teoretski, korisnik neće imati garancije da njegovi podaci neće biti pročitani i spremljeni od strane sustava ili čak drugih korisnika budućeg poslužitelja. Ovo mora biti jasno istaknuto na početnoj stranici realiziranog sustava. Ako takvo ograničenje može biti problem za korisnika, njegova je dužnost kodirati učne primjere tako da nije moguće rekonstuirati ključne privatne podatke. Općenito to nije težak zadatak. Prema projektnoj dokumentaciji, mi trebamo pripremiti program za automasko kodiranje podataka. Kodiranje mora izvoditi korisnik na svom stroju. Programi za kodiranje moći će se prenjeti sa glavne stranice poslužitelja. Trenutno se predvidja da će postojati egzekutabilna verzija programa za Windows okruženje i program u C jeziku koji se može kompajlirati na raznim platformama. Rezultat kodiranja će biti datoteka spremna za prenos na poslužitelj, i datoteka šifara koja će ostati na računalu korisnika i koja će se koristiti za interpretaciju pravila dobivenih procesom indukcije. Pored kodiranja, program će testirati da li podaci imaju formu prihvatljivu od strane poslužitelja. Prednost primjene tog programa je što će se korektnost podataka provjeravati prije fizičkog prenosa na poslužitelj.Jezik
Konačna verzija poslužitelja, prema ugovoru, treba biti i na Engleskom i na Hrvatskom jeziku. Tijekom izgradnje koristiti će se samo Engleski jezik a u zadnjoj fazi projekta svakoj HTML stranici pridružiti će se odgovarajuća hrvatska stranica. Hrvatske stranice biti će medjusobno povezane na isti način kao i odgovarajuće engleske stranice. Na svakoj engleskoj stranici biti će veza na odgovarajuću hrvatsku stranicu, i obratno.U detalji razine A opisane su značajke osnovne data mining razine.
© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.