Osnovna stranica

Metodologija obrade podataka

Evaluacija modela ("otkrivenog znanja")

Kako pobijediti u natjecanju za najbolji klasifikacijski model?

  • Koristeći "resampling" metodologiju, t.j. iterativnu t&t particioniranje, procijeniti grešku klasifikacijskog modela.
  • Generirati više klasifikacijskih modela različite kompleksnosti.
  • Odabrati model one kompleksnosti koja daje najmanju grešku. Identičnu klasifikacijsku metodu (misli se na odredjene parametre tehnike modeliranja), treba primijeniti na svim primjerima iz skupa podataka za učenje modela.
  • Izbor odredjene iterativne t&t metode ovisi o broju dostupnih primjera. Slijedeći 'recepti' bi trebali dati dobre rezultate:

    Gore navedene (i u prethodnim poglavljima detaljnije objašnjene) "resampling" tehnike daju pouzdanu procjenu stvarne greške klasifikacijskog modela. Gotovo svi primjeri koriste se za stvaranje modela, a svi primjeri za testiranje. Za slučajeve kada želimo usporedjivati klasifikacijske modele i metode njihova generiranja (tehnike modeliranja), ove tehnike procjene greške imaju dodatne prednosti. Koristeći iste podatke, istraživači mogu ponavljati uvjete analize i usporedjivati vlastite rezultate s već publiciranim rezultatima. Korištenje jednostruke t&t metode particioniranja podataka ostavlja mogućnost da su razlike u rezultatima posljedica prirodne (inherentne) varijabilnosti particija podataka.





    © 2001 LIS - Rudjer Boskovic Institute
    Last modified: September 08 2015 09:28:57.