Osnovna stranica

Metodologija obrade podataka

Popis pojmova u području inteligentne analize podataka

Ovaj popis bi trebao olakšati razumijevanje ostalih tekstova na poslužitelju, posebno one koji se odnose na tehnike modeliranja i metodologiju evaluacije modela. S obzirom da se radi o relativno novom području moguće je da neki prijevodi pojmova s engleskog nisu usklađeni s prijevodima drugih autora, ili su na određeni način čudni. Autori su nastojali da, u okviru vlastitih mogućnosti, prijevod prenese originalno značenje.



("accuracy") - točnost

Točnost je važna mjera u ocjenjivanju podataka i modela. Kada se primjenjuje na podatake, točnost se odnosi na količinu točnih vrijednosti u podacima. Kada se primjenjuje na modele, točnost pokazuje koliko dobro model reproducira vrijednosti određene varijable (tipično model koristi vrijednosti nezavisnih varijabli da bi reproducirao vrijednosti zavisnih varijabli). Budući da točnost ne koristi informaciju o cijeni određenog tipa grešaka, moguće je da model s manjom točnosti bude povoljniji za određenu primjenu. (Pogledati također pod preciznost).

("categorical data") - kategorički podaci

Kategorički podaci su podaci koji poprimaju određen broj diskretnih vrijednosti (tipično imena, oznake, kategorije). Kategorički podaci mogu biti nominalnog tipa (npr. spol, ime grada), ili 'stupnjevanog' tipa (npr. visoke, srednje, niske temperature).

("classification") - klasifikacija

Tip problema u kojem je potrebno odrediti kojoj kategoriji (klasi) ciljnog atributa (zavisna varijabla), pripada određeni primjer iz skupa podataka. Npr., uz zadanu klasifikaciju pacijenata kojom ih se svrstava prema stupnju oboljenja, treba identificirati kojoj klasi pripada određeni pacijent, ali na osnovu ostalih dijagnostičkih vrijednosti (atributa).

"clustering (segmentation)" - segmentiranje

Segmentiranje se bazira na principu identificiranja grupa primjera koji su međusobno slični, a istovremeno se primjeri iz različitih grupa moraju međusobno značajno razlikovati. Budući da ne postoji unaprijed određena kategorizacija primjera, ove se metode često nazivaju metodama učenja bez nadzora ("unsupervised learning").

("confidence") pouzdanost (u području analize podataka)

Pouzdanost pravila "B uz zadano A" mjera je koliko je vjerojatnija pojava B, ukoliko znamo da se pojavio A (B i A su tipično vrijednosti raziličitih atributa). Obično se izražava kao postotak; 100% znači da se B uvijek pojavljuje, ukoliko se pojavio A. U statistici govori se i o uvjetnoj vjerojatnosti B od A (p(B|A)).

("confidence") - pouzdanost (u statistici)

Obično se odnosi na vjerojatnost da neki interval vrijednosti sadrži stvarnu vrijednost traženog parametra. Interval s 95% pouzdanošću, sadrži s vjerojatnosti od 0.95, stvarnu srednju vrijednost traženog parametra.

("confusion matrix") - matrica grešaka

Mjera koja se tipično koristi u klasifikacijskim problemima, s više (>2) klasa.Matrica grešaka pokazuje broj stvarnih primjera određene klase naspram broju primjera koji su u tu klasu svrstani određenim modelom (predikcija). S obzirom da se radi o tablici (dvije dimenzije, stvarna klasa primjera, procijenjena klasa), matrica grešaka ne samo da pokazuje koliko dobro model reproducira vrijednosti klasa, nego daje i detaljni prikaz koji tipovi grešaka su najčešći.

"conjunctive normal form - CNF") konjunktivni oblik pravila

Konjunktivni oblik pravila(CNF) predstavlja konjunkciju uvjeta ("clauses"), gdje su uvjeti u obliku parova atributa-vrijednosti odnosno disjunkcija takvih parova. Na primjer,

(boja=crvena ili boja=zelena) i (oblik=pravokutni)

predstavlja pravilo u konjunktivnom obliku(CNF).

("consequent" - right-hand side of the rule) - posljedica (desna strana pravila)

Kada se radi o asocijativnim pravilima izneđu dviju parova atributa-vrijednosti, tada se drugi dio (desna strana pravila) takvog pravila naziva posljedicom. Na primjer, u pravilu: "Kada kupac kupuje pivo, istovremeno kupuje i 'čips' u 25% slučajeva", dio "kupuje čips", predstavlja posljedicu.

("continuous data") - podaci s kontinuiranim/realnim numeričkim vrijednostima

Podaci koji su u formatu realnih brojeva. Naziv kontinuirani, jest da bi se istakla suprotnost prema diskretnim (cjeli brojevi), odnosno kategoričkim podacima.

("cross validation") - unakrsna validacija (provjera)

Metoda ocjenjivanja točnosti klasifikacijskog odnosno regresijskog modela. Podaci su podijeljeni u n odvojenih skupova. Klasifikacijski model se n puta iznova generira na podacima iz n-1 skupova i testira na preostalom skupu.

("data") - podaci

Vrijednosti atributa/varijabli koje su skupljene za određene primjere (eksperimenti, pacijenti, transakcije, kupci) mjerenjem, anketama, statističkim analizama, te organizirani i strukturirani za kasnije obrade ili analize.

("data description and summarization") - opis i sumarni prikaz podataka

Koncizni opis karakteristika podataka u elementarnoj ili agregatnoj formi, koji daje pregled strukture podataka. Ovaj prikaz je obično dio inteligentne analize podataka ("data mining-a"), a bazira se na jednostavnim statističkim pokazateljima i vizualizaciji podataka (distribucija vrijednosti atributa, srednje vrijednosti, tablice frekvencija).

("data format") - format podataka)

Podaci postoje u različitom obliku: kao cjelobrojne vrijednosti, realne numeričke vrijednosti, tekstualni pojmovi odnosno znakovi. Format podataka obično označava oblik zapisa podataka u bazi podataka.

("data mining") - inteligentna analiza podataka

inteligentna analiza podataka ("data mining") predstavlja niz aktivnosti čiji je cilj ekstrakcija ili otkrivanje struktura i zakonitosti u podatacima. Kombinacijom tehnika iz područja strojnog učenja, statističke analize, tehnika modeliranja i tehnologijom baza podataka, inteligentnom analizom podataka pronalazimo strukturu i odnose između podataka, te izvodimo pravila i modele koji omogućavaju predviđanje i odlučivanje u novim (budućim) situacijama odnosno primjerima. Tipične primjene u ekonomskom/gospodarskom okruženju uključuju segmentiranje tržista za marketing, profiliranje kupaca, otkrivanje prijevara, analize rizika i slično.

("data set") - skup (baza) podataka

Skup ili baza podataka jest skup primjera, odnosno zapisa vrijednosti koji opisuju neki fenomen preko konačnog broja atributa/varijabli. Tipični primjeri su: baza podataka pacijenata (primjeri) s njihovim laboratorijski mjerenim rezultatima (atributi), lista vlasnika polica osiguranja (primjeri) s podacima koji ih opisuju (atributi), popis ljudi koji su anketirani (primjeri) s njihovim odgovorima (atributi) i sl.

("data warehouse") skladište podataka

Skladište podataka je kopija sirovih podataka (tipično transakcija), specifično strukturiranih da bi se omogućila analiza ("querying") i izvještavanje za potrebe odlučivanja.

DBMS

("DataBase Management Systems").

("decision tree") stablo odlučivanja

Tehnika modeliranja podataka kojom se stvaraju modeli u obliku stabala (grafova), odnosno hijerarhijski organiziranih pravila koja omogućavaju klasifikaciju novih primjera.

("deduction") dedukcija

Dedukcija je postupak kojim se izvode informacije iz podataka korištenjem logičkog formalizma.

("dependency analysis") analiza ovisnosti

Analiza ovisnosti omogućava pronalaženje modela koji otkrivaju međuvosnosti (ili asocijacija) između varijabli podataka ili događaja. Ovisnosti mogu poslužiti za predviđanje vrijednosti određenih atributa/varijabli uz zadane vrijednosti drugih atributa/variabli. Ovisnosti mogu biti izražene na egzaktan ili probabilistički način. Primjeri tehnika koje daju modele međuovisnosti su asocijacijska pravila i Bayesove mreže.

("deployment") primjena modela

Zadnji korak u procesu inteligentne analize podataka. Nakon što je generirani model testiran i provjeren, pristupa se njegovom korištenju u sklopu rješavanja originalnog problema (primjena na novim podacima: npr. klasifikacija novih primjera, predikcija budućih vrijednosti).

("dimension") dimenzija

Obično se odnosi na pojedini atribut primjera iz skupa podataka. U praksi predstavlja polje u datoteci s podacima, ili kolonu u relacijskoj bazi podataka.

("discrete data") - diskretni tip podataka

Atribut koji poprima konačan broj različitih vrijednosti, tipično značajno manji od broja primjera. U tu se kategoriju mogu svrstati i atributi koji poprimaju cjelobrojne vrijednosti, kao i tekstualne pojmove ili oznake.

("discriminant analysis") - diskriminantna analiza

Statistička metoda bazirana na pristupu maksimiziranja uvjetnih vjerojatnosti ("maximum likelihood"), namijenjena određivanju granica koje razdvajaju podatke u kategorije. Primjeri diskriminantnih metoda su 'naivni' Bayes-ov klasifikator ("naive Bayes") i linearni diskriminantni klasifikator.

("disjunctive normal form - DNF") - disjunktni oblik pravila

Disjunktni oblik pravila predstavlja disjunkciju uvjeta ("clauses"), gdje su uvjeti konjunkcije parova atribut-vrijednost. Na primjer,

(boja=crvena i oblik=pravokutni) ili (boja=zelena i oblik=pravokutni)

predstavlja pravilo u disjunktnom obliku (DNF).

("entropy") entropija

Mjera 'raznolikosti' u podacima. U stablima odlučivanja entropija pojedinih atributa se tipično koristi za odabir para atribut-vrijednost (minimalna entropija) u čvorovima odlučivanja.

("example") - primjer

Primjer u terminologiji inteligentne analize podataka označava osnovnu jedinicu skupa podataka, koja zapravo predstavlja vektor vrijednosti atributa/varijabli. To može biti skup rezultata dijagnostičkih testova određenog pacijenta u kliničkoj bazi pacijenata, skup podataka o vlasniku police osiguranja, vrijednosti dionica određene kompanije u zadnjih mjesec dana i sl.

("exploratory analysis") - eksploracijska analiza

Termin koji tipično označava osnovnu statističku analizu podataka, vizualizaciju podataka, radi otkrivanja odnosa među varijablama.

("feed-forward network") - neuralna mreža

Neuralne mreže ovog tipa 'provode' signal samo u jednom smjeru, od ulaznog sloja prema izlaznom.

("genetic algorithms") genetski algoritmi

Metoda generiranja i testiranja kombinacija vrijednosti ulaznih parametara nekog problema s ciljem pronalaženja optimalnog rješenja ("output") Genetski algoritmi koriste koncepte bazirane na prirodnim evolucijskim mehanizmima genetske rekombinacije, mutacije i prirodne selekcije.

GUI

("Graphical User Interface") Grafičko korisničko sučelje.

("hidden nodes") skriveni čvorovi

Čvorovi u 'skrivenim' slojevima neuralne mreže. Nasuprot ulaznom i izlaznom sloju neuralne mreže, broj čvorova u 'skrivenim slojevima' nije nužno predodređen problemom koji se rješava. No, točnost modela zavisi prije svega od broja 'skrivenih' čvorova. Budući da broj skrivenih čvorova u mreži direktno utječe na broj parametara modela, svaki problem zahtjeva dovoljan broj takvih čvorova u mreži kako bi mreža mogla kvalitetno aproksimirati proces koji se modelira. S druge strane, neuralna mreža s prevelikim brojem skrivenih čvorova će rezultirati modelom koji je prekomjerno specijaliziran u odnosu na skup primjera za učenje Neki od kompleksnijih paketa za razvoj neuralnih mreža uključuju algoritme koji automatski generiraju rješenja s različitim brojem 'skrivenih' čvorova, te na kraju odabiru onaj model koji daje najbolje rezultate, na taj način izbjegavajući problem prekomjerne specijalizacije.

("independent variable") nezavisna varijabla/atribut

Nezavisne varijable/atributi modela su one koje ulaze kao varijable u model kojim se predviđa ponašanje zavisne varijable/atributa.

("induction") indukcija

Tehnika kojom se iz informacija sadržanih u velikom broju primjera (podaci) stvaraju općeniti modeli (generalizacije).

("k-nearest neighbor") metoda k-najbližih susjeda

Klasifikacijska metoda kojom se klasificiraju novi primjeri izračunavanjem udaljenosti novog primjera prema primjerima iz skupa za učenje. Novi primjer se klasificira u onu klasu kojoj pripada većina primjera iz skupa k-najbližih susjeda (k=1,2,3...).

("Kohonen feature map") - Kohonenova mreža

Tip neuralne mreže kojim se koristeći koncept učenja bez nadzora ("unsupervised learning") otkrivaju (i grupiraju) primjeri iz podataka. Kohonenova mreža spada u tehnike segmentiranja ("cluster analysis").

("labeled example") - klasificirani primjer

Klasificirani primjer je primjer iz skupa podataka za kojeg postoji klasifikacija, odnosno primjer za kojeg je poznata vrijednost ciljne varijable/atributa.

("layer") - sloj (neur. mreže)

Čvorovi u neuralnoj mreži grupirani su u slojeve; tipično u tri tipa slojeva, ulazni, skriveni i izlazni. Izlazni sloj sadrži broj čvorova identičan ukupnom broju ulaznih varijabli (nezavisne varijable), dok je broj čvorova u izlazom sloju identičan broju zavisnih varijabli. Neuralne mreže sadrže tipično jedan do dva skrivena sloja, a broj čvorova u tim slojevima proporcionalan je kompleksnosti relacije(problema) koja se želi aproksimirati neuralnom mrežom.

("leaf node") - krajnji čvor (stablo odlučivanja)

Naziv za čvor kojim završava određena grana stabla odlučivanja. Vrijednost krajnjeg čvora u stablu odlučivanja određuje klasu primjera, koji zadovoljava kriterije grana stabla koji vode na taj čvor.

("learning") - učenje

Pod učenjem u području inteligentne analize podataka podrazumijeva se proces stvaranja modela na bazi dostupnih podataka.

("left-hand side") - lijeva strana pravila

U terminologiji pravila (asocijacijska pravila); kada definiramo povezanost dvije varijable/atributa, prvi član (uzrok) naziva se i lijevom strana pravila. Npr., u pravilu "Ako kupac kupuje pivo, u 25% slučajeva kupuje i čips", prvi dio "kupac kupuje pivo", predstavlja lijevu stranu pravila (uzrok).

("lift (chart)") - lift (krivulja)

("Lift") predstavlja mjeru efektivnosti prediktivnog modela koja je izražena omjerom predikcije dobivene modelom i predikcije bazirane na slučajnom odabiru (u klasifikacijskim problemima se u tom slučaju koristi relativna distribucija klasa primjera za učenje, kao vjerojatnost odabira određene klase). ("Lift curve") - krivulja "lift"-a pokazuje "lift" kao funkciju broja primjera koji su točno pokriveni određenim modelom.

("maximum likelihood")

Metoda učenja ili određivanja modela, odnosno parametara modela. ML parametra ili modela pokazuje koliko je vjerojatno da su podaci 'posljedica' parametra na kojem je model baziran, odnosno modela kao takvog.

("mean") - srednja vrijednost

Aritmetička sredina skupa numeričkih vrijednosti.

("median")

Vrijednost u sredini intervala svih vrijednosti nekog numeričkog (realne ili cjelobrojne vrijednosti) atributa ili varijable, brojeći sve primjere u skupu podataka. Drugim riječima, vrijednost varijable/atributa za koju vrijedi da je broj primjera koji imaju višu vrijednost od mediana, identičan broju primjera koji imaju nižu vrijednost.

("missing data") - neodređene vrijednosti u podacima

Vrijednosti pojedinih atributa u pojedinim primjerima iz skupa podataka, koje nisu određene (nedostaju). Razlozi za pojavu neodređenih vrijednosti u podacima, različiti su: ili te vrijednosti nisu izmjerene, nije dan odgovor, ili su izgubljene. Različite tehnike tretiraju neodređene vrijednosti na različite načine. Jedan od pristupa je da se one ignoriraju. Primjeri koji sadrže neodređene vrijednosti mogu se izbaciti iz skupa primjera, ili nadomjestiti srednjom vrijednosti toga atributa (obično u danoj klasi konkretnog primjera). Kompleksniji pristup je onaj kojim se nastoji procijeniti neodređena vrijednost na osnovu vrijednosti ostalih atributa iz skupa primjera, što samo po sebi predstavlja problem koji se treba rješavati tehnikama modeliranja podataka.

("mode")

Najčešča vrijednost nekog atributa u skupu podataka. Ako postoji nekoliko vrijednosti atributa, sa istom frekvencijom pojavljivanja, tada su podaci multi-modalni.

("model") - model

Osnovna funkcija inteligentne analize podataka jest stvaranje modela. Modeli mogu biti deskriptivni, ili prediktivni. Deskriptivni model pomaže u razumijevanju procesa ili ponašanja koje je opisano podacima. Na primjer, asocijativna pravila opisuju ponašanje kupaca. Prediktivni model je jednadžba, ili skup pravila koji omogućuje predikciju zavisne varijable/atributa, na osnovu skupa nezavisnih varijabli. Zavisno o prirodi problema, odnosno podataka, odabiremo najprikladniji oblik modela. Da bi odredili parametre modela, potrebno je primijeniti odabranu tehniku modeliranja, na prethodno pripremljene podatke za učenje.

("neural network") - neuralna mreža

Kompleksna nelinearna tehnika modeliranja bazirana na modelu ljudskog neurona. Neuralna mreža služi za predikciju izlaznih vrijednosti (zavisnih varijabli) na osnovu skupa ulaznih vrijednosti (nezavisnih varijabli), i to linearnom kombinacijom ulaznih vrijednosti, te nelinearnim transformacijama linearnih kombinacija korištenjem aktivacijskih funkcija. Može se teoretski pokazati da se takvim linearnim kombinacijama i transformacijama može aproksimirati praktički bilo koja funkcija. No, neuralne mreže koriste i velik broj parametara da bi aproksimirale neko ponašanje. Tipično se neuralne mreže koriste za predikciju neke buduće vrijednosti zavisne varijable (npr. vrijednost dionica, vjerojatnost odaziva kupca na poziv, i sl.).

("node") - čvor

Uobičajeno se pojam čvora povezuje s dvije tehnike modeliranja podataka: metodom stabla odlučivanja i neuralnim mrežama. Čvor (odnosno čvor odlučivanja) u stablu odlučivanja, je točka gdje se vrši odluka o particiji skupa podataka koji pripada tom čvoru, na podskupove koji su u smislu određene informativne mjere (npr. smanjenje entropije), optimalni u tom trenutku.
U terminologiji neuralnih mreža čvor je osnovna strukturalna jedinica u kojoj se kombiniraju ulazni podaci iz drugih čvorova u mreži i stvara izlazna vrijednost korištenjem aktivacijske funkcije.

("noise") - šum

U najvećem broju slučajeva pod šumom podrazumijevamo prisustvo pogrešnih i/ili neodređenih vrijednosti u podacima.

("nominal domains") - nominalne domene

U nominalnim domenama (ustvari se misli na jedan ili više atributa) moguće je pobrojiti sve moguće vrijednosti varijable. Također, ne postoji poredak vrijednosti prema nekoj skali (kao kod numeričkih atributa), već su sve vrijednosti jednake u tom smislu. Na primjer, skup boja {crvena, plava, zelena }, ili skup spolova (muški, ženski}, primjeri su nominalnih domena (atributa).

("normalization") - normalizacija (podataka)

Tipično se skup numeričkih vrijednosti normalizira tako da se od svih vrijednosti u svim primjerima skupa podataka, oduzme minimalna vrijednost tog atributa, a dobivena vrijednost podijeli razlikom maksimalne i minimalne vrijednosti atributa ("range"). Tako dobivene vrijednosti imaju isti oblik distribucije, ali se sve vrijednosti nalaze u rasponu od 0 do 1. Ta je operacija poželjna, a ponekad i nužna pri modeliranju neuralnim mrežama ili stvaranju regresijskih modela.

OLAP

("On-Line Analytical Processing") - naziv za niz tehnika koje omogućavaju multi-dimensionalnu analizu podataka.

("optimization criterion") - optimizacijski kriterij (u području tehnika modeliranja podataka)

U terminologiji tehnika modeliranja podataka, naziv za funkciju razlike između predikcija modela i onog što je zadano podacima, koji su odabrani radi optimizacije kriterija. Primjeri su razlika najmanjih kvadrata ("least squares") i maksimalna uvjetna vjerojatnost ("maximum likelihood").

("ordered domains") - domene s poretkom (hijerarhijom) vrijednosti

Drugi naziv za numeričke domene. Ponekad je moguće pobrojiti sve moguće vrijednosti u takvoj domeni (npr. godišta svih pacijenata u bazi podataka). U većini slučajeva, to nije moguće, naročito ako se radi o kontinuiranim domenama (realne varijable).

("outliers")

Tehnički, 'outlier'-i su primjeri iz skupa podataka kod kojih je vrijednost (jednog ili više) atributa značajno različita od vrijednosti ostalih sličnih primjera (npr. primjera iste klase). Takve vrijednosti leže značajno izvan intervala očekivanih vrijednosti za takav primjer (gledano sa strane razvijenog modela). 'Outlier'-i mogu biti posljedica pogrešno unešenih vrijednosti u bazu podataka, ili biti posljedica korištenja primjera iz posebnog dijela populacije, indicirajući tako poseban fenomen.

("overfitting") - prekomjerna specijalizacija modela

Tendencija da se pri modeliranju daje prevelika težina slučajnim varijacijama vrijednosti podataka. Takvi modeli tipično imaju veliku prediktivnu točnost na skupu primjera za učenje, a značajno nižu na novim, nepoznatim primjerima podataka, ili testnom skupu podataka.

("pattern") - uzorak

Uzorak (u podacima), može biti npr. snažna korelacija između dvije nezavisne varijable/atributa u skupu podataka. Tehnike inteligentne analize podataka omogućuju automatsko otkrivanje uzoraka. Uzorak signalizira povezanost između varijabli ali još uvijek ne govori ništa o njihovoj uzročno-posljedičnoj vezi.

("prediction") - predikcija

Predikcija (u užem smislu naziv za predikciju regresijskim modelima) je slična klasifikaciji. Jedina razlika je što se kod predikcije u užem smislu podrazumijeva da je ciljna ili zavisna varijabla kontinuiranog tipa (realna numerička varijabla). Cilj je predikcijskih metoda da predviđaju numeričke vrijednosti ciljane varijable na novim primjerima podataka.

("precision") - preciznost

Preciznost procjene vrijednosti nekog parametra u modelu jest mjera varijabilnosti procjene na nizu sličnih skupova podataka. Vrlo precizna procjena bi bila ona koja se ne mijenja značajno od skupa do skupa. Treba zapamtiti da preciznost ne mjeri točnost. Točnost je mjera koliko je procjena blizu stvarnoj vrijednosti parametra. Točnost se mjeri prosječnim odstupanjem parametra od stvarne vrijednosti za niz različitih skupova podataka. Procjene parametara dakle mogu biti točne, ali ne i precizne, ili pak precizne, ali ne i točne. Precizna ali ne i točna procjena tipično predstavlja neku sistematsku pogrešku u modeliranju. Takva sistematska pogreška ("bias") jednaka je prosječnom odstupanju od stvarne vrijednoati parametra.

("predictability") - prediktabilnost

Termin koji se u terminologiji asocijativnih pravila ponekad koristi umjesto termina pouzdanost.

("propositional-like representations") - propozicijska reprezentacija (modela)

Propozicijska reprezentacija modela koristi jednostavne logičke formule čiji su glavni dijelovi uvjeti bazirani na parovima atribut-vrijednost. Dvije alternativne reprezentacije predstavljaju ovu kategoriju: konjunktivna normalna forma ("Conjunctive Normal Form (CNF)") i disjunktivna normalna forma ("Disjunctive Normal Form (DNF)").

("pruning") - rezidba (stabla odlučivanja)

Eliminacija grana stabla u nižem nivou, odnosno čitavih pod-stabala u stablu odlučivanja. Ovaj se termin također ponekad odnosi na algoritme koji podešavaju topologiju neuralnih mreža, rezanjem određenih čvorova u skrivenim slojevima mreže.

("range") - raspon

Raspon vrijednosti podataka jest razlika između maksimalne i minimalne vrijednosti nekog numeričkog atributa/varijable.

RDBMS

("Relational Database Management System") Sistem za upravljanje relacijskim bazama podataka.

("regression tree") - regresijsko stablo

Stablo odlučivanja koje omogućuje predviđanje vrijednosti kontinuiranih (realnih) numeričkih varijabli.

("resubstitution error") - greška modela na skupu podataka za učenje

Procjena greške modela koja se bazira na razlikama između predikcija (klasifikacija) baziranih na modelu, za primjere iz skupa za učenje i stvarnim vrijednostima ciljne varijable/atributa iz istog skupa podataka.

("right-hand side") - desna strana pravila

U asocijativnim pravilima, drugi dio pravila (posljedica). Na primjer, u pravilu "Ako kupac kupuje pivo, tada u 25% slučajeva kupuje i čips", "kupuje i čips" je desna strana pravila, ili posljedica.

("ROC curve") - ROC krivulja

("ROC - Receiver Operating Characteristic") krivulja, jest graf koji predstavlja ovisnost omjera lažno-pozitivnih primjera (x-os), naspram omjeru stvarno-pozitivnih primjera (y-os) za danu klasu primjera.

("r-squared") - greška

Broj u intervalu od 0 do 1, kojim se određuje koliko dobro model reproducira ciljne vrijednosti na skupu primjera. Vrijednost 1 označava idealno točan model, a 0 model bez prediktivnih sposobnosti. Ova mjera koristi se za ocjenjivanje prediktivnih modela, kod kojih je ciljna varijabla/atribut, realnog numeričkog tipa. Izračunava se kao kovarijanca između predikcijskih vrijednosti (model) i stavrnih vrijednosti (skup podataka), podijeljena sa standardnom devijacijom predikcijskih i stvarnih vrijednosti.

("sampling")

Stvaranje podskupa primjera podataka iz cijelog skupa podataka. Slučajni "sampling" trebao bi dobro reprezentirati cijeli skup, kako bi učenje modela na podskupu bilo kvalitetno.

("sensitivity analysis") - analiza osjetljivosti (modela)

Tehnike kojima se variranjem parametara modela određuje osjetljivost tako da se mjere promjene u izlaznim vrijednostima, odnosno promjene u kvaliteti predikcije ili klasifikacije.

("significance") -

Mjera vjerojatnosti koja pokazuje koliko jako podaci 'podupiru' određeni rezultat (tipično statistički test). Ako kažemo da je značajnost rezultata 0.05, to znači da je vjerojatnost da se rezultat desio slučajno, samo 0.05. Niska značajnost (ispod 0.05) obično se uzima kao dokaz da je neki model pogodan za objašnjenje zavisnosti u podacima, budući da se događaji sa vjerojatnošću ispod 0.05 rijetko događaju. Stoga, ukoliko procjena nekog parametra u modelu ima značajnost od 0.01, to se može uzeti kao dokaz da taj parametar mora biti u modelu.

("supervised learning") - 'učenje pod nadzorom'

Naziv za niz tehnika modeliranja podataka (termin iz područja strojnog učenja - "machine learning") kod kojih se koriste dobro poznate vrijednosti zavisne varijable/atributa, da bi se generirao model koji u sebi uključuje nezavisne varijable. Sve regresijske (predikciske) metode i klasifikacijske tehnike spadaju u tehnike učenja pod nadzorom.

("support") - podrška

Mjera koja pokazuje koliko često se neki skup elemenata pojavljuje kao dio transkacija (terminologija asocijativnih pravila) u skupu svih transakcija (skup primjera podataka). Na primjer, "U 3% svih kupovina u trgovini, pojavljuju se zajedno pivo i čips".

("target variable") - ciljna varijabla (atribut)

Ciljna varijabla, ili ciljni atribut, jest onaj atribut u skupu podataka koji nam opisuje fenomen koji nas zanima, t.j. fenomen za koji želimo izraditi model, odnosno raditi predikcije, koristeći nezavisne varijable/atribute.

("test set") - testni skup podataka

Testni skup podataka sastoji se od skupa primjera koji imaju neodređenu vrijednost ciljne varijable/atributa. Tipično se pod testnim skupom podataka podrazumijeva dio podataka koji se koristi za ispitivanje kvalitete generiranih modela. To znači da su vrijednosti ciljne varijable poznate unaprijed, no ovaj skup nije korišten u procesu učenja modela.

("test error") - greška na testnom skupu primjera

Procjena greške nekog modela koja se bazira na razlici predikcije vrijednosti modela i stvarnih vrijednosti ciljane varijable/atributa na testnom skupu primjera. Testni skup primjera je poseban dio podataka koji nije korišten za učenje(generiranje) modela, već upravo za stvaranje bolje ocjene njegove kvalitete.

("time series") - vremenska serija

Serija mjerenja (opažanja) koja su napravljena u određenom nizu vremenskih intervala. Tipično je da tehnike modeliranja, koje su namijenjene modeliranju vremenskih serija imaju posebne operatore kao npr. "moving average", odnosno "windowing").

("time series model") - model vremenske serije

Model kojim se predviđaju vrijednosti u budućnosti na bazi vrijednosti u prošlosti. Model kao i način njegovog stvaranja (tehnika modeliranja) tipično uzimaju u obzir korelacije vrijednosti varijabli kao funkcije vremena.

("topology") - topologija

Termin koji se njačešće koristi za opis strukture neuralne mreže (broj slojeva i broj čvorova po sloju).

("training") - stvaranje modela (učenje)

Stvaranje modela (učenje) predstavlja proces određivanja parametara modela, koji se bazira na skupu primjera za učenje ("training set").

("training set") - skup primjera za učenje modela

Skup primjera za učenje jest skup primjera kod kojih su vrijednosti ciljane varijable/atributa poznate. Ovaka skup koristi se da bi se odredili optimalni parametri modela koji opisuju odnos između nezavisnih varijabli/atributa i ciljane varijable/atributa.

("transformation") - transformacija

Transformacija je naziv za operacije kojima se podaci u skupu analiziranih podataka transformiraju u novi oblik (npr. normalizacija vrijednosti numeričkih atributa, agregacija određenih atributa, mijenjanje mjere atributa, logaritmiranje i sl.)

("unlabeled example") - 'neodređeni' primjer

Pod pojmom 'neodređeni' primjer podrazumijeva se primjer iz skupa podataka za koji vrijednost ciljne varijable/atributa nije poznata.

("unsupervised learning") - učenje bez nadzora

Ovaj termin odnosi se na skup tehnika koje segmentiraju/grupiraju primjere bez definiranja ciljne varijable/atributa. Primjeri takvih tehnika su metode segmentiranja (asocijacijativna pravila, Kohonenon-ova mreža).

("validation") - validacija, provjera

Proces testiranja modela na skupu podataka različitom od skupa podataka za učenje modela.

("variable") - varjiabla

Varijabla, također se koristi i naziv atribut ili svojstvo, označava pojam jedne dimenzije primjera iz skupa podataka. Varijabla poprima skup vrijednosti definiran prirodom problema, koji još nazivamo i domenom varijable. Realni problemi uključuju vrlo heterogene domene varijabli. Osnovna podjela domena je na nominalne i numeričke.

("variance") - varijanca

Najčešća statistička mjera disperzije vrijednosti numeričke varijable. Prvi korak je izračunavanje kvadrata odstupanja određene vrijednosti od srednje vrijednosti varijable. Potom se izračunava prosječna vrijednost svih kvadratnih odstupanja na skupu primjera, za tu varijablu, što predstavlja varijancu, ili mjeru varijabilnosti vrijednosti određene varijable na skupu podataka.

("visualization") - vizualizacija

Pod vizualizacijom podrazumijevamo računalne metode grafičkog prikazivanja podataka radi boljeg razumijevanja odnosa među različitim varijablama/atributima na skupu podataka. U tipične primjere spadaju: "scatter plots" - dvo-dimenzionalni prikaz vrijednosti primjera; histogrami - frekvencije pojavljivanja određenih vrijednosti (ili intervala vrijednosti) varijabli na skupu primjera; više-dimenzionalni prikazi (npr. paralelne koordinate).

("windowing") - metoda 'prozora' (vremenske serije)

Ovo je tehnika koja se primjenjuje pri učenju modela vremenskih serija. 'Prozor' predstavlja vremenski period koji se koristi za pojedini skup primjera za učenje modela. Na primjer, ukoliko imamo podatke skupljane tjedno, za cijelu godinu, te definiramo 'prozor' od 5 tjedana, tada razvijamo model na podacima prvih 5 tjedana, a rezultate testiramo na tjednu koji slijedi. Za drugi model u nizu koristit ćemo 5 tjedana, početno sa 2.gim tjednom do 6.tog za učenje modela, a 7. tjedan za testiranje modela, itd.






© 2001 LIS - Institut Rudjer Bošković
Posljednja izmjena: September 08 2015 09:28:57.