Evaluacija modela ("otkrivenog znanja")
Kako pobijediti u natjecanju za najbolji klasifikacijski model?
- za skupove podataka s više od 100 primjera, treba koristiti unakrsnu validaciju. 10-struka unakrsna validacija, ili LOO ("leave-one-out") je dobar izbor. 10-struka unakrsna validacija je znatno manje računalno skupa i daje odlične rezultate za skupove s više stotina primjera.
- za skupove podataka s manje od 100 primjera, preporuča se korištenje LOO metode.
- za vrlo male skupove podataka (<50 primjera) uz korištenje LOO procjene greške, preporučljivo je koristiti "bootstrapping" tehniku, ili 100 x 2-truku unakrsnu validaciju. Korištenje LOO procjene dolazi u pitanje jedino u slijedećim slučajevima: - kada je LOO procjena niža od procjene .0632B - kada je LOO procjena greške veća od procjene dobivene višestrukom unakrsnom validacijom.
Gore navedene (i u prethodnim poglavljima detaljnije objašnjene) "resampling" tehnike daju pouzdanu procjenu stvarne greške klasifikacijskog modela. Gotovo svi primjeri koriste se za stvaranje modela, a svi primjeri za testiranje. Za slučajeve kada želimo usporedjivati klasifikacijske modele i metode njihova generiranja (tehnike modeliranja), ove tehnike procjene greške imaju dodatne prednosti. Koristeći iste podatke, istraživači mogu ponavljati uvjete analize i usporedjivati vlastite rezultate s već publiciranim rezultatima. Korištenje jednostruke t&t metode particioniranja podataka ostavlja mogućnost da su razlike u rezultatima posljedica prirodne (inherentne) varijabilnosti particija podataka.
© 2001 LIS - Rudjer Boskovic Institute
Last modified: September 08 2015 09:28:57.