Tuomo Joensuu: tulevaisuuden kaupungin ekosysteemi

Page 112

Tiedonlouhinnan prosessi

129 http://www.kdnuggets.com/ gpspubs/aimag-kdd-overview-1996Fayyad.pdf

112

129

• Datan valinta Tieto voi olla mikä tahansa kysymyksenasettelun kannalta mielekäs tietokanta, internet tai jokin muu digitaalisessa muodossa oleva riittävän laaja ja mielekkään ajan sisällä kerätty aineisto. • Esikäsittely Data pyritään aluksi puhdistamaan virheistä ja kohinasta. Jäsentämällä pyritään havaitsemaan kieliopiltaan virheelliset käskylauseet. Päällekkäiset tietueet pyritään poistamaan, niitä tunnistavan algoritmin avulla. Tilastollisia menetelmiä käyttämällä pyritään havaitsemaan mahdottomia ja odottamattomia arvoja, suhteuttamaan aineisto jo tuotettuun tutkimukseen tai täydentämään puuttuvia tietoja. Data muunnetaan keskenään yhteensopivaksi. • Tiedonlouhinta Varsinaisessa tiedonlouhinnassa pyritään lukuisten erilaisten algoritmisten menetelmien avulla löytämään datasta rakenteita, kuten samanlaisuuksia, dataa kuvaavia funktioita, riippuvuuksia, jne. • Tulkinta Tarkasteltavasta prosessista tai sen osasta voidaan tuottaa visuaalinen malli, joka havainnollistaa ilmiöiden suhteita. Jo datan havainnollinen visualisointi voi sellaisenaan lisätä tietämystä. Tiedonlouhinnan avulla voidaan myös automatisoida semanttisen verkon metatiedon tuottamista jolloin kohdetta kuvataan attribuuttien avulla.


Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.