Page 24

Mediapalsta

Avoimen datan vaikutus TEKSTI: Paula Bergman

A

voimella datalla tarkoitetaan nimensä mukaan avointa, ilmaiseksi jokaisen kansalaisen käytettävissä olevia aineistoja. Esimerkiksi Internetistä löytyvä European Social Survey -data on avointa isoilta osin: Sen osia on kenen tahansa imuroitavissa tutkimuksen verkkosivuilta ( www.europeansocialsurvey.org/data ) Mutta kuka määrittää, minkä verran aineistosta voi yleisölle paljastaa? Missä kulkee tutkittavien yksityisyyden suoja? Suuri osa tutkimusaineistosta kerätään niin, että valmiissa aineistossa yksilöt ovat tunnistamattomia. Otosyksiköihin viitataan tunnistenumeroilla, eikä nimillä. Mutta on olemassa paljon muitakin seikkoja, joista yksilön voi tunnistaa, vaikkapa jokin harvinainen sairaus tai huomattavan korkea ikä. Jos tällaisia tietoja sisältävät aineistot avataan kenen tahansa vapaasti tutkittavaksi, eikö vaarana ole yksityisyyden suojan rikkominen? Tähän ongelmaan on tartuttu esimerkiksi madaltamalla aineiston laatua yhdistelemällä erilaisia vastauksia toisiinsa. Esimerkiksi hyvin korkean iän kohdalla tämä voisi tapahtua niin, että avatussa aineistossa kaikkien yli 90-vuotiaiden iäksi merkittäisiin 90- tarkan iän sijasta. Tällainen toiminta voi kuitenkin monissa tilanteissa vääristää dataa. Yksi aineistojen avaamisen suurimmista hyödyistä on lisääntyvä ja monipuolisempi tutkimus. Samaa, hyvin kerättyä aineistoa voi käyttää yhä uudelleen erilaisten asioiden selvittämiseen. Laadun heikentäminen saattaa kuitenkin tässä tulla vastaan, jos esimerkiksi aiem-

man esimerkin aineiston tutkija olisikin kiinnostunut juuri vanhemmasta väestöstä. Avoin data käsitteenä tuntuu olevan vielä melko tuntematon, ja jotta sitä päästäisiin kunnolla hyödyntämään, pitäisi sen tunnettuutta varmasti lisätä. Monet tuntemattomat asiat koetaan alussa uhkaksi ja tuttuuden kasvaessa niitä aletaan hyväksyä enemmän ja myös hyödyt tiedostetaan paremmin. Suomen tämänhetkisen hallitusohjelman mukaan tietovarantoja tulee enenevässä määrin avata kansalaisten ja yritysten käyttöön. Tätä kautta aineistoja voidaan hyödyntää ja jatkokäyttää, eivätkä usein suurella työllä kerätyt tiedot ikään kuin katoa. Aineistojen avoimuus voisi lisätä myös keskustelua tutkimuksista ja niiden tulosten oikeellisuudesta: Kuka tahansahan voisi käydä katsomassa, mihin tietoihin mikäkin piirakkakuvio perustuu. Sanotaan, että tilastotieteen avulla voidaan osoittaa todeksi lähes mitä vaan, mutta kenties se, että data olisi kenen tahansa tarkasteltavissa, kasvattaisi myös tutkimuksen tekijöiden huolellisuutta. Ei olisi enää yksinomaan niitä, jotka tietävät, ja niitä, jotka vastaanottavat tiedon. Toisaalta tämä varmasti lisäisi myös niin sanottuja huuhaa-tutkimuksia: Kun kuka vain voisi käyttää valmiiksi kerättyjä aineistoja, on niiden perusteella vain vähäisellä tietämyksellä mahdollista vetää mitä ristiriitaisimpia johtopäätöksiä. Kaiken kaikkiaan aineistojen avaaminen ainakin tietyiltä osin kasvattaisi varmasti kiinnostusta tutkimusta kohtaan. Se, missä määrin ja millä tavoin mahdollisesti muokattuina aineistoja voidaan ”vapauttaa” vaatiikin jo vähän syvällisempää pohdintaa.

”Yksi suurimmista hyödyistä on lisääntyvä ja monipuolisempi tutkimus.”

24

Tyyppiarvo III / 2013

Tyyppiarvo 3 / 2013  
Tyyppiarvo 3 / 2013  

(Nro 92) Tilastotieteen opiskelijoiden lehti, Helsingin yliopisto

Advertisement