MOODIN VIRALLINEN ÄÄNENKANNATTAJA | TILASTOTIETEEN OPISKELIJOIDEN LEHTI | II / 2013
YRJÖ VARTIA MOODIN ENSIMMÄINEN PUHEENJOHTAJA
12
URANÄKYMÄT TUUTORIT 2013 TILASTOTIETEILIJÄN KÄDESTÄPITÄJÄT TULEVAISUUS TILASTOFUKSEILLE 8 10
BASEBALL KATUGALLUP URHEILUTILASTOJEN MIELIKUVIA GRAALIN MALJA TILASTOTIETEESTÄ 17 20
PÄÄKIRJOITUS
Identiteettikriisi Tuomo Nieminen, Päätoimittaja
T
ilastotieteen sanotaan olevan epäsuosittu hakukohde s.6 siksi, että harvalla ylioppilaalla on minkäänlaista kuvaa siitä, mitä tilastotiede on. Toisaalta vuoden tilastotieteen opintojen jälkeenkin kysyn itseltäni samaa kysymystä. Tilastotieteellä on brändiongelma, s.14 jota ei Helsingin yliopistolla varsinaisesti helpota se, että oppiaine on samalla kahdessa tiedekunnassa. s.20 Valtiotieteellisessä tiedekunnassa tilastotiede pyritään brändäämään yhteiskuntatilastotieteeksi, jonka tutkimuskohteena ovat ”yhteiskunnallisten ilmiöiden ja niiden muutosten analysoinnin tilastolliset menetelmät”. Helsingin yliopiston tai matemaatiikan ja tilastotieteen laitoksen nettisivut eivät kumma kyllä tunnu antavan vastausta siihen, mitä yleinen tilastotiede on, mutta wikipedian mukaan ”tilastotiede on todennäköisyyslaskentaan perustuva tieteenala, joka tutkii tilastollisten aineistojen keräämistä, käsittelyä ja tältä pohjalta tehtävää päättelyä”. Olettaen, että yllämainitut ovat tiedekuntien keskeisiä tutkimuskohteita, on näiden kahden tiedekunnan välillä tieteentekijöiden eli tutkijoiden ja opettajien näkökulmasta kysymys oikeastaan myös kahdesta eri tieteestä. Yleisemmin brändiongelma johtuu kenties identiteettiongelmasta; s.9 mikä eroittaa tilastotietelijän tietoa
käsittelevästä datatieteilijästä? s.14 Tilastotieteellä saattaa kuitenkin ongelmistaan riippumatta olla häikäisevät tulevaisuudennäkymät, sillä tarve tilastotieteen osaajiin on ennusteiden mukaan jatkuvassa nousussa. s.8 Mutta antaako tilastotieteen koulutusohjelma sellaisenaan hyvät valmiudet työelämää ajatellen s.12 ja jos ei, niin voiko asialle tehdä itse jotakin ja minkälainen on tyypillinen tilastotieteilijän toimenkuva? s.9 Jos olet juuri opintojasi aloitteleva opiskelija, niin ehkäpä työllistymisen sijaan mietit esimerkiksi sitä, mitä muiden aineiden opiskelijat ajattelevat meistä tilastotieteilijöistä s.20 tai kenties pohdit, että ovatkohan ne kuumat tilastotuutorit sinkkuja? s.10 Saatat myös pelätä kurssien vaikeutta ja miettiä, että onkohan tää kuitenkaan loppujen lopuks mun paikka? s.7 Sen ainakin tiedän, että tilastolaiset ovat mahtavia tyyppejä ja tilastotieteen alkuvaiheen opetukseen on osittain Moodin ansiosta suunniteltu loistavia parannuksia. Olet saattanyt törmätä urbaaniin legendaan siitä, että eräs tilastotieteen kurssi on niin vaikea, että sen suorittamiseen saattaa kulua jopa vuosi. Kuten kaikissa legendoissa, on vuoden suoritusaika pahasti vääristynyt todellisesta tarinasta. s.7
Tyyppiarvo
II / 2013
3
Esittelyssä
II / 2013 | 91. numero | 29. vuosikerta
Julkaisija Moodi ry blogs.helsinki.fi/moodi-ry
Tyyppiarvon toimittajavalokuvaaja
Päätoimittaja Tuomo Nieminen tuomo.a.nieminen@helsinki.fi
Ulkoasun suunnittelu Maiju Tanskanen
E
lämän realiteetit ja yleinen pessimismi murskasivat aikoinaan lapsuuden haaveeni toimittaja-valokuvaajan ammatista, ja selittämättömien sattumien seurauksena olen nyt 21-vuotiaana toisen vuoden tilastotieteen opiskelija. Heikosta kirjallisesta ulosannista ja vajavaisista valokuvaustaidoista huolimatta olen pienen painostuksen alla kirjoitellut juttuja ja napsinut kuvia Tyyppiarvoon. Paljastettakoon, että jonain baari-iltana olen saattanut esitellä itseni mielenkiintoisille ihmisille tilastotieteilijä-toimittaja-valokuvaajana, mikä on eittämättä valheellinen mutta yhtä kaikki kadehdittava titteli. Tyyppiarvo on läpikäynyt tänä vuonna joitakin suurehkoja uudistuksia ja on nykyisellään niin ulkoasultaan kuin sisällöltäänkin kovatasoinen ja sairaan siisti ainejärjestölehti. On ollut hienoa nähdä, miten paljon ahkerat ja taitavat ihmiset ovat saaneet aikaan. Tunnen salaa lievää äidillistä ylpeyttä; ihan kuin lapsi olisi oppinut potalle. Tai jotain.
Heikki Ritaluoma Tuomo Nieminen
Taitto ja grafiikka Heikki Ritaluoma
Kirjoittajat Paula Bergman Janina Hietala Ville Hyvönen Juha Lehtiranta Tuomo Nieminen Sirpa Myllymäki Heikki Ritaluoma Kimmo Vehkalahti Essi Wikman Regina69
Kansikuva Heikki Ritaluoma
Paino Stadin ammattiopisto Painos 60 kpl | 28.8.2013
Verkossa issuu.com/tyyppiarvo facebook.com/tyyppiarvo
Ota yhteyttä tyyppiarvo@gmail.com
Tyyppiarvo saa HYY:n järjestölehtitukea
4
Tyyppiarvo II / 2013
Sisältö 3
6
7
8
pääkirjoitus
Identiteettikriisi
Ajankohtaista
Kesä2013
PUHEENJOHTAJAN SANOMA
Puolentoista vuoden kurssi
HENKILÖKUNNAN SANA
Häikäisevät tulevaisuudennäkymät
10
Tilastotieteen tuutoriesittely 2013
12
Moodin Vartia Yrjö Vartia haastattelussa
14
mediapalsta
17
20
22
25 26
27
28
10
12
Datatiede? Julia? Ministeriöistä dataa?
URHEILU JA TILASTOT
Moneyball, baseballin tilastotiede
Tyyppiarvo tutkii
Katugallup tilastotieteestä
tilastollisia sovelluksia
Pokeri, osa II
17
tyyppi kysyy - arvo vastaa sarjakuva
Cocktail
Ekonurkka Biojätepussi
Eroticum
Menetetty kampus
moodissa
Moodin seitsenottelu
Tyyppiarvo
II / 2013
5
blogs.helsinki.fi/moodi-ry
ajankohtaista
kesä2013 TEKSTI: Heikki Ritaluoma
numerot
349
Haki Matlun tilastotieteeseen
187
Haki Valtsikan tilastotieteeseen
4805
Seitsenottelun uusi Moodin ennätys
1
Piste-ero yliopiston koripallofinaalissa
6
Tyyppiarvo II / 2013
| KUVA: Ville Hyvönen
opinnot TILASTOLLISEN PÄÄTTELYN KURSSI Uudistus: Linkitetään R-kurssiin ja laskarit muuttuvat pajatyyppisiksi. TODENNÄKÖISYYSLASKENNAN KURSSI Uudistus: Linkitetään Matlabiin
Urheilu 6.4. VALTSIKAN SALIBANDYTURNAUS
Moodi oli odotetusti voittamaton perinnelajissaan sählyssä, mutta ottelusysteemin ja maalieron takia tuloksena kolmas sija.
7.7. MOODIN SEITSENOTTELU
Päivä yleisurheilun juhlaa, joukko moodilaisia suoritti naisten 7-ottelun Eläintarhan kentällä. Katso kuvat s.28. FUTSALSARJA [kevät] Kahdella voitolla pronssipeliin yltänyt MoPSi ei pystynyt ihmeisiin, vaan jämäkästi pelannut FC KTTO ’59 vei Unisportin sukat numeroin 3 - 0. JALKAPALLOSARJA [kevät] Voitto ja tasapeli riittivät sarjan viidenteen sijaan kuudesta. Kumpulan derby MoPSi - FC Matrix päättyi 1 - 2. KORIPALLOSARJA [syksy + kevät] MoPSin huikea koripallovuosi päättyi karmeimmalla mahdollisella tavalla, kun Aalto-yliopiston kemistikillan joukkue Chemball nitisti finaalissa voiton numeroin 40 - 41. ( Otahalli, Espoo )
viihteellä 12.4. MOODIN POKERITURNAUS
@Uusi. Mestaruuden vei Tuomo Kareoja.
16.4. MOODIN JA MANAN LAUTAPELI-ILTA @Matlu-klusteri. Ystävyysjärjestöjen ensimmäinen yhteinen tapahtuma. 9.5. MOODIN KEVÄTJUHLA @Kattosauna Sivistys. Kuuluisa Moodin booli houkutteli paikalle ennätysmäärän tilastotieteen opiskelijoita ja henkilökuntaa. Tilaisuudessa järjestetyn kivi-saksetpaperi-turnauksen voitti Pihla Oksanen. 18.5. MOODIN EUROVIISUSTUDIO
@Matluklusteri. Tupa täynnä, tietenkin.
tulossa 1. periodi ( 2.9. - 20.10.2013 ) 2.9. Yliopiston avajaiskarnevaali 3.9. Moodin fuksiaiset @Kuppala 2.10. Limeksen appro 27.-29.10. KJYR (risteily) (syksy) Mahdollisesti alumni/työelämäilta,
yritysexcu sekä Tilastokeskus-excu
Moodin tapahtumat löydät osoitteesta: blogs.helsinki.fi/moodi-ry/tapahtumat Liity Moodin sähköpostilistalle lähettämällä viesti subscribe tyyppi-arvo (ilman otsikkoa) osoitteeseen majordomo@helsinki.fi
puheenjohtajan sanoma
Puolentoista vuoden kurssi TEKSTI: Essi Wikman
K
un tulin lukemaan tilastotiedettä en oikeastaan tiennyt mitä tulin lukemaan. En ollut käynyt tilastotieteen pääsykokeissa, vaan tulin suoraan lukiosta papereilla sisään. Niin kuin melkein kaikki muutkin matemaattisluonnontieteellisen puolen fuksit. Valtiotieteellisen tiedekunnan puolella oli kuitenkin enemmän samanlaisia ihmisiä kuin minä eli tyttöjä, jotka kävivät psykologian pääsykokeissa ja kun sinne ei päässyt, niin tilastotiede oli hyvä varavaihtoehto, jossa voisi olla vuoden ja jatkaa sitten eteenpäin. Psykologia oli kiinnostanut lukiossa ja olin varma, että se on sitä mitä haluan opiskella. Näin ei kuitenkaan ihan käynyt, sillä tilastotieteen opiskelu vei mukanaan. Itse tilastotiede ei välttämättä ollut niin hauskaa, mutta ihmiset joiden kanssa aloitti opiskelun, olivat aivan mahtavia. Tilastotieteeseen ei päässyt tutustumaan kunnolla kuin vasta ensimmäisen opiskeluvuoden keväällä, joten matematiikka aineena kiinnosti enemmän. Fuksina olinkin sitä mieltä, että ei minusta mitään tilastotieteilijää tule, vaan matematiikan opettaja. Otinkin yhden ylimääräisen matematiikan kurssin, topologian, mutta se viimeistään sai ajatukseni pois matematiikan opettajan urasta takaisin tilastotieteeseen. Toisena opiskeluvuotena alkoi tilastollisen päättelyn kurssi. Sitä aloittaessa emme tienneet muuta, kuin että se on ensimmäinen kunnon tilastokurssi, jossa syvennytään tilastotieteeseen. Aikaisemmat kurssit olivat olleet pelkkää pintaraapaisua. Kurssi osoittautuikin yllättävän vaikeaksi ja lopulta siinä meni puolitoista
”Tilastotieteen opiskelu antaa eväät ihan mihin tahansa.”
vuotta ennen kuin sain kurssin suoritettua. Läpipääsy oli työn ja tuskan takana, sillä viidettä kertaa kokeeseen ilmoittautuessa minulla ei ollut minkäänlaista motivaatiota alkaa taas lukemaan samaa prujua, jonka olen jo neljä kertaa aikaisemmin lukenut. Aina opin kuitenkin jotain uutta ja olen iloinen, että minulta meni niin kauan suorittaa se kurssi, sillä se sai minut kiinnostumaan tilastotieteestä uudella tavalla. Tilastollisen päättelyn suorittamisessa meni kuitenkin vähän liian kauan ja minulle oli jo sinä aikana ehtinyt muodostua selvät tulevaisuuden suunnitelmat. Aioin kirjoittaa kandin ja hakea sitten opiskelemaan kätilöksi. Viime keväänä en kuitenkaan saanut motivaatiota opiskella yliopistolla, joten päätin hakea jo silloin kätilöksi. Ihmiset kysyvät, että eikös tilastotieteilijä ja kätilö ole aivan erilaisia ammatteja, mutta minusta se on mielenkiintoinen yhdistelmä. Eiväthän ne mitenkään liity toisiinsa, mutta ainakin minulla on tulevaisuudessa enemmän vaihtoehtoja työn suhteen. Tilastotieteilijöillä on monipuoliset työllistymismahdollisuudet riippuen sivuaineista ja erikoistumislinjasta. Työn ei tarvitse olla pelkästään tilastojen tekemistä ja tulkitsemista, eivätkä kaikki tilastotieteilijät mene töihin Tilastokeskukseen tai Kelaan. Jos en olisi tullut lukemaan tilastotiedettä, en olisi ehkä ikinä keksinyt mitä haluan tehdä isona. Kolmen vuoden aikana olen muuttanut tulevaisuuden suunnitelmiani jo ainakin neljä kertaa. Aluksi minusta piti tulla psykologi, sitten matematiikan opettaja, sen jälkeen taas tilastotieteilijä ja vaikka mitä. Maailmassa on paljon muitakin töitä kuin tilastotieteilijän työt ja vaikkei päätyisikään työskentelemään tilastojen parissa, niin tilastotieteen opiskelu antaa eväät ihan mihin tahansa.
Tyyppiarvo
II / 2013
7
HENKILÖKUNNAN SANA
Häikäisevät
tulevaisuudennäkymät TEKSTI: Kimmo Vehkalahti
N
| VALOKUVA: Ari Aalto
yky-yhteiskunta ja sen erilaiset tulevaisuuden visiot tarjoavat runsaasti kiinnostavia mahdollisuuksia tilastotieteilijän urasta haaveilevalle. Maailma, jossa elämme, on yhä kvantitatiivisempi ja dynaamisempi: kaikenlainen ihmisen, koneiden ja järjestelmien toiminta synnyttää ja kerryttää massoittain aineistoa eli dataa - jatkuvalla syötöllä. Dataa analysoimalla pääsee tutkimaan taustalla vaikuttavia prosesseja, kartoittamaan ja selittämään asioiden ja ilmiöiden välisiä yhteyksiä, tukemaan yritysten ja yhteisöjen päätöksentekoa ja laatimaan ennusteita. Data-analyysista on tulossa yhä useampien alojen kehitystä vauhdittava tekijä ja tilastotieteilijästä ennennäkemättömän suosittu ammatti. Seuraavassa on muutama 2000-luvulla voimakkaasti esiin noussut teema, joiden kanssa tulevat tilastotieteilijät pääsevät tekemisiin sovellusalas-
taan riippumatta ja jotka ovat myös omiaan herättämään yhä useamman kiinnostusta tilastotieteeseen:
Avoimet aineistot Yhä enemmän aineistoja “vapautetaan”, ja niiden pohjalta laaditaan uusia sovelluksia, jotka käyttävät dataa monipuolisesti hyväkseen. Esimerkkejä ovat tilastollistakin dataa täynnä olevat kartta-aineistot ja niiden päälle pystytetyt paikannussovellukset, lähitulevaisuudessa avautuvat säähavaintoaineistot ja lukuisat kansainvälisten järjestöjen kuten YK:n, OECD:n, Maailmanpankin ym. aineistot. Myös perinteiseen tapaan kerättyjä tutkimusaineistoja avataan uusiokäyttöön, ja uusilta kerättäviltä aineistoilta edellytetään, että ne arkistoidaan ”kierrätykseen”, esim. opetuskäyttöön.
Isot aineistot (Big Data) Data alkaa olla todella massiivista, kun aina vain suurempia aineistoja muodostuu erilaisten prosessien tuotteena.
Kimmo Vehkalahti
Soveltavan tilastotieteen dosentti. Yliopistonlehtori, sosiaalitieteiden laitos. Aloitti tilastotieteen opiskelun Helsingin yliopistossa vuonna 1990. VTM 2/1996, VTL 2/1999, VTT 12/2000 Erikoisalue: Tilastollinen tietojenkäsittely sekä mittarit, menetelmät ja visualisointi yhteiskunta- ja käyttäytymistieteissä. Kotisivut: www.helsinki.fi/~kvehkala/
8
Tyyppiarvo II / 2013
Suuren koon lisäksi tällaiset aineistot ovat dynaamisia: niitä ei kerätä vaan niitä kertyy. Lisäksi ne ovat yleensä hajautettuja ja ensisijaisesti suunniteltu aivan muihin kuin tutkimustarkoituksiin. Esimerkkejä on jokaisen helppo keksiä: Twitter-viestit, Facebook-tykkäykset, älypuhelinten paikannustiedot, ostosten teko niin kaupasta kuin verkosta, kanta-asiakaskortit, valuutta- ja rahamarkkinat, Google-haut, geenipankit, satelliitit, jne. Tässä on paljon uutta, mutta samalla myös vanhaa: professori Juha Alho on muistuttanut osuvasti, että isoa dataa on Suomessa kertynyt jo vuosisatoja, sillä nykyinen väestörekisterimme sai aikoinaan alkunsa juuri edellä kuvatun tyyppisesti: tietoa kertyi jatkuvasti kirkonkirjoihin, jotka oli hajautettu ympäri maata ja joita kerättiin seurakuntien hallinnollisia tarkoituksia varten. Kyseisen ”ison datan” ansiosta meillä on nykyään käytettävissä maailman parhaat, koko väestön kattavat, rekisteritietokannat.
Informaation visualisointi Ympäröivä yhteiskunta on myös muuttunut koko ajan visuaalisemmaksi ja tärkeä osa informaation visualisointia on tilastollinen grafiikka. Korkeatasoista grafiikkaa tavoiteltaessa ovat ”Datan Leonardo da Vinciksi” kutsutun professori Edward Tuften ja käsitteen data-analyysi lanseeranneen professori John W. Tukeyn opit edelleen tarpeen. Erinomainen esimerkki tilastollisen grafiikan uusista, nettiaikakaudelle
”
Näyttää siltä, että tilastotieteilijän uraa havittelevan näköalat hivelevät silmää.
hyvin sopivista muodoista on professori Hans Roslingin ja hänen Gapminder-säätiönsä kehittämä Trendalyzerohjelma, jonka interaktiivisilla ja dynaamisilla animaatioilla visualisoidaan mm. väestötieteellisten ja yhteiskunnallisten ilmiöiden riippuvuuksia ja ajallista vaihtelua. Tilastotieteilijä Rosling, jolla on myös lääkärin koulutus ja pitkä työkokemus Afrikassa, on visualisointien myötä tehny paremmin ymmärrettäväksi tärkeitä globaaleja kysymyksiä ja noussut kuuluisaksi ympäri maailmaa pitämissään esityksissä, joita voi (ja kannattaa) katsoa netistä. Rosling on visualisointien ohella puhunut voimakkaasti avointen aineistojen puolesta, myös vieraillessaan Helsingissä syksyllä 2012 järjestetyllä kansainvälisellä Open Knowledge Festivalilla.
K
un yhä useammalla alalla puhutaan data-analyytikoista tai ”datatieteilijöistä”, on alettu pohtia, mikä erottaa tilastotieteilijän muista tieteilijöistä, vai erottaako pian mikään. Varsinkin läheinen kumppanimme tietojenkäsittelytiede on aiempaa selvästi enemmän – paljolti juuri isojen datojen vaikutuksesta – painottunut data-analyysin kysymyksiin, jolloin on noussut huoli tilastotieteilijän identiteetistä. Moni näyttää kuitenkin olevan sitä mieltä, että tilastotieteilijän koulutuksen hankkineella pitäisi tulevaisuudessakin olla tiettyjä etuja puolellaan, ennen kaikkea vahva käsitys tilastollisesta mallintamisesta. Monimutkaista todellisuutta heijastavi-
en mallien laatimisessa on jatkossakin tarpeen hyödyntää tilastotieteen teoriakehityksen saavutuksia, eikä heittäytyä massiivisen datan kimppuun ainoastaan algoritmien ja laajamittaisen laskentakapasiteetin turvin. Kaikkia mahdollisia lähestymistapoja varmasti tarvitaan, sillä analysoitavaa dataa tulee takuulla riittämään. Kaikkiaan näyttää siltä, että tilastotieteilijän uraa havittelevan näköalat hivelevät silmää. Opiskeluaikana on hyvä seurata, mitä maailmassa tapahtuu ja miettiä, mistä itse on erityisen innostunut, sillä potentiaalisia uria on paljon. Kannattaa tietenkin tavoitella jotain mahdollisimman kiinnostavaa. Liiallista urautumista ei tarvitse pelätä, koska tilastotieteilijän koulutus mahdollistaa helposti siirtymiset eri alojen välillä, ja työvoiman tarvetta tuntuu olevan aina enemmän kuin tarjokkaita. Kasvava datavetoisuus helpottaa entisestään tilastotieteilijän liikkumista alojen välillä. Kansainvälisyys on itsestäänselvyys, joten kieliopintoihin on syytä panostaa. Ilman englannin kielen hyvää suullista ja kirjallista taitoa on aika mahdotonta toimia alalla, mutta lisäksi olisi hyödyllistä opetella jokin muu vieras kieli. Äidinkielen osaamista ei sovi missään tapauksessa unohtaa, vaikka innostuisikin ehkä tekemään opinnäytteensä englanniksi. Tilastotieteilijän tyypilliseen toimenkuvaan kuuluu datan analysoinnin ohella kaikenlaista kommunikaatiota: raporttien raapimista, julkaisujen laatimista ja esitel-
möintiä työyhteisölle, asiakkaille ja yhteistyökumppaneille niin kotimaassa kuin ulkomailla. Jonkinlainen yhteinen nimittäjä monentyyppisille tilastotieteilijän urapoluille on se, että alan koulutus tarjoaa erinomaiset konkreettiset mahdollisuudet tarttua sisällöllisesti ja menetelmällisesti mielenkiintoisiin haasteisiin, sekä olla mukana ratkaisemassa monimutkaisia ja vaikeitakin ongelmia. Menestykselliset tilastotieteen opinnot, matematiikan ja tietojenkäsittelyn sekä jonkin näitä soveltavan sivuaineen tukemina, antavat tällaisiin tehtäviin todella vankan perustan. Ongelmia ratkotaan tyypillisesti yhteistyössä muiden alojen asiantuntijoiden kanssa, joko paikallisissa tai globaaleissa tiimeissä. Voidakseen toimia tällaisissa asiantuntijaryhmissä on tilastotieteilijän opittava kommunikoimaan muiden alojen kielellä tai murteella. Mitä perusteellisemmin haluaa erikoistua jollekin sovellusalalle, sitä tärkeämpää on kyseisen alan oman teorian ja käytännön, ei ainoastaan terminologian ja käsitteiden, tuntemus. Tilastotieteilijän on täysin mahdollista kehittyä ”harrastamansa” alan tasavertaiseksi sisältöasiantuntijaksi, vahvan menetelmä- ja dataosaamisen ohella. Monipuoliset sivuaineopinnot ovat erinomainen tapa alkaa kartuttaa tällaista osaamispääomaa jo opiskeluaikana. Tilastotieteilijän tulevaisuus näyttää häikäisevältä – eikä se ole kangastus!
Tyyppiarvo
II / 2013
9
Tilastotieteen
TUUTORIESITTELY
TEKSTI:
2013
Paula Bergman & tuutorit | VALOKUVAT: Maiju Tanskanen
iin ne pienet fuksit kasvavat. Syksystäni tuutorina alkaa olla jo vuosi aikaa ja nyt fuksini valmistautuvat tuutoroimaan tänä vuonna aloittavia tilastolaisia. Oma fuksivuoteni oli täynnä tapahtumia, hauskanpitoa, opiskelua ja kavereita. Vuosi lähti hyvin käyntiin, koska vastassa oli joukko kokeneempia opiskelijoita, jotka opastivat meidät uudet talon tavoille, Helsingin saloihin ja opiskelijaelämään. Ensimmäisten viikkojen aikana myös opiskelukaverit tulivat tutuiksi erilaisten aktiviteettien parissa. Tuutoroinnista oli minulle paljon iloa ja hyötyä, ja niinpä päätin itsekin ryhtyä tuutoriksi, jotta voisin osaltani auttaa luomaan uusille opiskelijoille samanlaisen helpon alun yliopistoelämään, jollaisen itsekin olin saanut. Nyt on kuitenkin aika siirtää ”mantteli” seuraaville, ja antaa puheenvuoro ihanille tilastotieteen tuutoreille 2013! Tuutorit pistettiin kiperään tenttiin, jossa heiltä kysyttiin seuraavia asioita:
? 10
- Kuka olet, miten päädyit tilastolle? - Mikä on lemppari haalarimerkkisi ja miksi? - Paras opiskeluun liittyvä ruokakokemuksesi? - Millainen on unelmiesi fuksi? (Tuutoroinnin kannalta) - Kumpi tulee päälle, kinkku vai juusto? Miksi? - Mikä on opiskelun odotusarvo? Onko varianssi normaalia? - Onko tilastotieteen opiskelu vaikeaa? - Oletko sinkku?
Pauliina Karell
Pihla Oksanen
Emma Kämäräinen
Janina Hietala
Olen Pauliina, kirjoitushetkellä 20-vuotias keravalainen. Tilastotieteeseen päädyin lyhyeksi jääneen psykologian urani jälkeen (urani, joka tyssähti pääsykokeeseen). Tilastotaitoni, jotka psykologian pääsykokeessa eivät kauas kantaneet, antoivat kuitenkin itselleni paikan Valtsikan puolelta. Yllätyksekseni vuoden räpistely tilastojen parissa alkoi maistua ihan mukavalta, joten jäin niiden pariin ja psykologiahaaveet kariutuivat. Lempihaalarimerkkini taitaa olla Kimmo-merkki: sen kaunis neonpinkki ja kirkas oranssi tukevat upeasti toisiaan. Paras opiskeluun liittyvä ruokakokemukseni... Luultavasti joka torstai saatava pannukakku. Tuutoroinnin kannalta unelmien fuksi olisi ihminen, joka lähtisi mahdollisimmaan moneen asiaan avoimella mielellä mukaan. Olisi valmis tutustumaan uusiin ihmisiin ja nauttimaan fuksivuodestaan täysin siemauksin. Unohtamatta kuitenkaan opiskelua siinä ohessa :) Päälle tulee tietystinkin kinkku, koska leipä vain maistuu tällöin paremmalta!!! Opiskelun odotusarvo on pitää hauskaa ja varianssi ei todellakaan ole normaali. Ensimmäinen vuosi on kulunut pääasiallisesti matematiikan opintojen parissa, joten tilastotieteestä on paha sanoa mitään parin kurssin perusteella (joista toinen oli varsin helppo ja toinen lievästi sanottuna haastava). Jos jotain asiaa punnertaa ahkerasti, kaipa se helpottuu ajan myötä. Ja ne, jotka tiedolla tekevät jotain, olen sinkku. Tervetuloa tilastojen pariin.
Nimeni on Pihla. Olen toisen vuoden tilastotieteen opiskelija matemaattis-luonnontieteellisessä tiedekunnassa. Päädyin opiskelemaan tilastotiedettä, koska olen aina pitänyt matematiikasta ja tilastotiede vaikutti mielenkiintoiselta ja monipuoliselta. Kaiken kaikkiaan opiskelu on ollut yhtä aikaa mukavaa, vaativaa, haasteellista sekä palkitsevaa. Lemppari haalarimerkkini on Moodi ry:n merkki. Sain sen ensimmäisessä fuksitapaamisessa ja se on muisto tästä mukavasta päivästä ja tapaamistani ihanista ihmisistä. Parhaita opiskeluun liittyviä ruokakokemuksia ovat oikeastaan kaikki ne ruokailuhetket, jolloin mahdollisimman moni kokoontuu yhdessä luentojen välillä syömään ja juttelemaan kaikesta mahdollisesta ja mahdottomasta. Mitä tulee voileipien tekoon, niin kinkku päälle ja juusto alle, aina. Laittaako joku kinkun päälle, ei kai. Jokainen fuksi on unelmafuksi.
Helloo, olen Emma ja valtsikan tuutori. Syksyllä alkaa toinen opiskeluvuoteni yliopistolla ja olen juuri muuttanut yhteen poikaystäväni kanssa. Tilastotiedettä päädyin opiskelemaan, kun ystävä ehdotti että hakisin tänne. Matematiikka tavallaan kiinnosti silloin, mutta tahdoin jotain muutakin siihen rinnalle. Tilastotiede on tähän mennessä ollut mielenkiintoista, en sanoisi että helppoa muttei mitään mistä ei selviäisi. Vaikeinta lienee uudet kysymykset, kuten ”Mikä on opiskelun odotusarvo? Onko varianssi normaalia?” (Olkoon opiskelun odotusarvo tuntematon, mutta positiivinen ja varianssi kiehtovan normaali). Tuutorin näkökulmasta sanoisin että unelmieni fuksi on toivottavasti positiivinen ja vastaanottavainen, sillä hyvä asenne auttaa oikeastaan kaikkeen! Mutta samaan aikaan toivon myös että syksyllä tapaan kivoja ja monenlaisia ihmisiä. En tiedä onko tämä paras ruokailukokemukseni, mutta jäi mieleen kun viime syksynä oli muutama viikko, jolloin tuntui että joka toinen päivä ruokana unicafessa oli kalapihvejä. Niitä tuli syötyä… Lisäksi on huvittavaa, kuinka eksoottisiakin salaatteja voi välillä tulla vastaan. Ruokateemasta nyt kun puhuttiin, niin en laita kinkkua ja juustoa samalle leivälle. Täytyy tehä kaks voikkarii. En vielä ole kohdannut lempihaalarimerkkiä, mutta sitten kun se tulee vastaan niin siinä mitä luultavimmin on kieroa huumoria tai jokin söpö otus.
Nimeni on Janina ja aloitin tilastotieteen opiskelun syksyllä 2012. Lukiossa haaveenani oli yleisen valtio-opin opinnot, mutta ovet sinne eivät lukiosta päästessäni auenneet. Niinpä päädyin tilastolle; tännehän pääsin papereilla suoraan. Ja kivaahan täällä on ollut! Voisin väittää että tilastotieteen opiskeluun liittyvä odotusarvo on hauskoja hetkiä (luennoilla, mutta ennen kaikkea niiden ulkopuolella), huimasti lisää tietoa ja paljon uusia ystäviä. Tilastotieteen opiskelussa on ollut myös omat haasteensa, mutta kyllä täällä kuka vaan pärjää, jos on valmis tekemään tarpeeksi töitä! Ensi syksyä ajatellen unelmieni fuksi olisi innokkaasti menossa mukana ja ajoissa paikalla. Tärkeää on myös muistaa että leipää tehdessä kinkku tulee juuston päälle eikä sen alle ja että se on kivisakset-PAPERI eikä missään nimessä kivi-paperi-sakset.
11
Moodin Vartia TEKSTI:
Tuomo Nieminen | VALOKUVA: Maiju Tanskanen
Y
rjö Vartia on Moodin historialle merkittävä henkilö. Vuonna 1966 opintonsa aloittanut Vartia on yksi yhdistyksen perustajajäsenistä ja hän toimi Moodin ensimmäisenä puheenjohtajana 1968. Vartia jäi eläkkeelle ekonometrian professorin virastaan keväällä 2013. Tyyppiarvo haastatteli Yrjöä viimeksi vuonna 1998 (www.helsinki.fi/jarj/moodi/ taha_vartia) ja kyselimme nyt uudestaan kysymyksiä tilastotieteestä, tulevaisuudesta ja elämästä. Ekonometrian professuurista (19882013) eläkkeelle jäänyt Vartia on tilastotieteilijän urallaan toiminut monipuolisesti sekä akateemisessa-, että yritysmaailmassa. Vuosina 1972-1979 hän toimi tilastotieteen laitoksella apulaisassistenttina ja vt. apulaislehtorina. Vuonna 1980 Vartia nimitettiin apulaisprofessoriksi. Ennen ekonometrian professuuria hän oli Helsingin Kauppakorkeakoulussa tilastotieteen professorina (1986-1988). Vartian huomattavimmat tieteelliset kontribuutiot ovat kaksi indeksikaavaa, jotka hän esitti lisensiaattityössään ja väitöskirjassaan (”Suhteelliset muutokset ja taloudelliset indeksit” 1974, ”Ideal logchange index numbers”, Scand. J. of Statistics 1976. ”Relative changes and index numbers”, ETLA A4 1976). Indeksikaavat ”Montgomery-Vartia” ja ”Sato-Vartia” herättivät kansainvälistä huomiota ja uutta alan tutkimusta ja tutkimus jatkuu edelleen (Heikki Pursiainen: ”Consistent aggregation methods and index number theory” 2005).
12
Tyyppiarvo II / 2013
Tilastotiede toimii nykyään kahdessa tiedekunnassa; valtiotieteellisessä sekä matemaattis-luonnontieteellisessä. Sanoit vuoden -98 haastattelussa näin: “Meidän tilastotieteen laitoksemme kannalta kaikkien pahinta olisi se, että siirryttäisiin matematiikan laitoksen yhteyteen, jolloin laitoksen tekemiset eivät ajan myötä enää kiinnostaisi ketään.“ Mitä tarkoitit tällä ja oletko vielä samaa mieltä? Mielestäni tilastotiede on enemmän kuin todennäköisyyslaskentaa ja siihen perustuvia matemaattisia menetelmiä. Tilastotieteilijän tulee hallita niitä, mutta myös tuntea jonkin sovellutusalueen ongelmia. Siinä mielessä minusta on kysymys sovelletusta matematiikasta, ei vain matemaattisesta tilastotieteestä, joka helposti häviää lukuisten muiden matemaattisten erikoisalojen joukkoon. Tämän näen vieläkin vaarana: kuinka pitkään käytetään nykyistä nimeä ”Matematiikan ja tilastotieteen laitos”? Yliopisto on ollut pitkään erilaisten muutosten temmellyskenttänä ja viimeisin kokeilu valtiotieteellisessä tiedekunnassa on sen eri oppiaineiden (entiset laitokset) yhdistäminen kahdeksi suurlaitokseksi (Politiikan ja talouden tutkimuksen laitos, Sosiaalitieteiden laitos – toim. huom.) En usko, että siitä saatavat hallinnolliset hyödyt ovat syntyneitä tieteellisiä haittoja
suurempia, vaan tulevaisuudessa tullaan palaamaan suurimpien oppiaineiden tapauksessa aiempaan kansainväliseen käytäntöön. Omituinen oli myös ”yhteiskuntatilastotieteen” ja sen suosituimman sovellutusalueen, taloustieteen, sijoittaminen eri suurlaitoksiin. Mutta niin dekaani, tilastotieteen professori Hannu Niemi halusi tehtävän. Olet sanonut, että koska tilastotieteilijät toimivat usein konsultoijan roolissa, olisi heille tärkeää hallita hyvät kommunikaatiotaidot ja omata kyky selittää monimutkaisiakin asioita tavalliselle ihmiselle. Antaako HY:n tilastotieteen koulutusohjelma tähän hyvät valmiudet? Tuskin antaa. Muutama seminaariesiintyminen ja harjoituksien ratkaisujen esittäminen valmentavat tähän suuntaan, mutta varsin vaatimattomalla tavalla. Kun joutuu selittämään tai tulkitsemaan monimutkaista matemaattista ratkaisua esimerkiksi tilastotieteen ja matematiikan kannalta maallikkojohtajalle tai median edustajalle, on usein täysin oleellista, että saa keskeiset ajatukset välitettyä. Ne harvat, jotka osaavat tiivistää ja kansantajuistaa sanomansa, erottuvat suuresta joukosta. He etenevät urallaan ja heitä käytetään usein mediassa alansa asiantuntijoina. Kun matemaattiset ratkaisut ja menetelmät aina vain moni-
”
Tilastotiede on enemmän kuin todennäköisyyslaskentaa ja siihen perustuvia matemaattisia menetelmiä. - Yrjö Vartia
mutkaistuvat, ei ole mitään yksinkertaista tapaa kertoa, mistä kulloinkin on kysymys. Hyvä yksinkertaistus tai tiivistelmä riippuu nimittäin siitä, mitä kuulija asiasta tietää ja voi ymmärtää. Yleensä se ei ole paljon, vaan kuulijan suhtautuminen perustuu yleisiin käsityksiin tai ennakkoluuloihin. Nykyään puhutaan maailman lisääntyneestä kvantitatiivisuudesta ja siitä, kuinka saatavilla olevan datan määrä kasvaa jatkuvasti. Tämän kautta tilastotieteen merkityksen arvellaan kasvavan. Millainen on tilastotieteen tulevaisuus? Internet, kännykät, viivakoodit ja elektroninen raha ovat räjäyttäneet kvantitatiivisen datan määrän, mutta suurin osa siitä on ollut vain suppeassa käytössä, esimerkiksi vain puhelinoperaattorilla tai myyjän asiakashallinnassa tai suunnittelussa. Toistaiseksi tilastotiede ja ilmiöiden mallintaminen johonkin muuhun kuin juuri tarkasteltuun asiaan on vielä jäänyt vähäiseksi ja tulee vasta jälkijunassa. Valtavien, uusia mikrokytkentöjä sisältävien aineistojen hyödyntäminen tarjoaa suuria mahdollisuuksia tilastotieteilijöille, tietokantaeksperteille ja soveltaville matemaatikoille, mutta myös vaikeudet ovat suuria, koska aineisto on syntynyt aivan muita tarkoituksia varten.
Olet tehnyt pitkän ja monipuolisen akateemisen uran. Mikä on mielestäsi suurin saavutuksesi tai isoin ylpeyden aihe? Ehkä merkittävin yksittäinen tapahtuma oli, kun tilastotieteen lehtori PyryMatti Vasama pyysi minua 23-vuotiaana opiskelijana toiseksi kirjoittajaksi tilastotieteen oppikirjaan. Vuosina 1970 – 72 ilmestyivät ”Vasama – Vartia: Johdatus tilastotieteeseen”, osat I ja II, joita käytettiin tilastotieteen perusopetuksen oppikirjana yli 10 vuoden ajan laajalti Suomen yliopistoissa. Vielä silloin tilastotiede oli varsin suosittu oppiaine. ”Vasama – Vartian” suosio suuntasi minut akateemiselle uralle. (Vartia mainitsi myös johdannossa esillä olleet virkansa ja kansainvälistä huomiota saaneet indeksikaavat: ”Montgomery-Vartia” ja ”Sato-Vartia”. – toim.huom.)
Kuuluuko eläkepäiviisi mitään tilastotieteeseen liittyvää? Tarkoitukseni on vielä julkaista jotain kiinnostavaa mikron ja makron yhdistämistä koskevasta aggregointiongelmasta, jota olen tutkinut vaihtelevalla intensiteetillä yli 30 vuotta ja luennoinut viime vuosina kurssillani ”Analyysi ja synteesi”. Jos kysyntää esiintyy, voin konsultoida tilastollisissa menetelmissä. Terveisesi syksyn tuoreille tilastofukseille? Tervetuloa haasteellisen ja mielenkiintoisen tieteen pariin! Älkää vain opetelko kaavoja ja menetelmiä, vaan yrittäkää keksiä mitä niihin varsinaisesti sisältyy. Älkää unohtako opiskelijaelämän sosiaalisia kuvioita vaan osallistukaa aktiivisesti Moodin toimintaan!
Tyyppiarvo
II / 2013
13
Mediapalsta
Tilastotieteen brändi - ja muita maailman uutisia
TEKSTI: Juha Lehtiranta
Tilastotiede, Datatiede, Business intelligence Tilastotiede: 2000-luvun seksikkäin oppiala? Ehkä, mutta monet eivät tätä allekirjoita. Tilastotiede käsitteenä kärsii imago-ongelmasta, vaikka itse sisältö voidaan kokea mielenkiintoiseksi, hyödylliseksi ja luovaksi. Esimerkiksi The New York Times kirjoitti tästä jutun jo vuonna 2009 otsikolla ”Nykypäivän valmistuvalle vain yksi sana: tilastotiede”! [1] Miten brändätä tilastotiede kiinnostavaksi? Autoihin alkoi yleistyä 90-luvun alussa turvalaite, jota kutsuttiin törmäystyynyksi, kiinnostiko tämä? Ei, ennen kuin laitetta alettiin kutsua turvatyynyksi tai air bagiksi. Tilastoaiheisessa blogosfäärissä on viime aikoina puhuttu uudesta kiinnostavasta tieteenalasta, jota kutsutaan datatieteeksi (googlaa ”data science”). Auttaisiko uuden termin käyttö luomaan tilastotieteestä kuvaa yhteistyötä vaativaksi, vuorovaikutteiseksi, soveltavaksi ja hyödylliseksi? Kalido, vuonna 2003 perustettu tietohallintaan keskittynyt ohjelmistotalo järjesti aiheesta yrityksille suunnatun verkkoseminaarin otsikolla ”Datatieteilijä: tarvitsemasi sijoitus juuMielenkiintoista luettevaa datatieteestä löytyy osoitteesta: www.forbes.com/sites/gilpress/2013/05/28/ a-very-short-history-of-data-science, sekä eräs lähdeteos osoitteesta: http://jsresearch.net/wiki/projects/ teachdatascience.
ri nyt” [2]. David Smith, Revolution analyticsin analyytikko kuvaa seminaarissa esitettyä jaottelua tilastotieteilijän ja datatieteilijän välillä osuvalla taulukolla [3]: Tyyppi Työskentelee Työmaa Data Datan koko Työvälineet Työn tulokset Keskittyy Lopputuote
tilastotieteilijä Kuvaileva Yksin Tiedostot ja hypoteesit Siisti Kilobittejä SAS ja Mainframe Taulukoita Päättelemään Raportti
Smith on koulutukseltaan tilastotieteilijä, mutta käyttää itsestään nimitystä datatieteilijä, koska termi kuvaa paremmin hänen työtään. Entä toinen, ehkä jo bisnesmaailmassa liikkunut termi tilastotieteelle: business intelligence? Miten datatiede eroaa tästä? Smithin jaottelu on seuraavanlainen: Perspektiivi Toimintatapa Data Kysyy Hitti vai huti
datatieteilijä business intelligence Tulevaan Menneeseen Vuorovaikuttava Paloitteleva Hajautettu ja reaaliaikainen Tietokannat Mitä tulee tapahtumaan Mitä tapahtui Selviää pian Ysäriä
Tieteenalasta tai ammatista käytetty nimitys vaikuttaa alan imagoon. Onko datatieteestä positiivisen mielikuvan rakentajaksi, vai onko ehdotettu termi vain keisari uusissa vaatteissa?
[1] http://www.nytimes.com/2009/08/06/technology/06stats.html [2] http://get.kalido.com/rl/data-scientist-webinar-replay [3] http://blog.revolutionanalytics.com/2013/05/statistics-vs-data-science-vs-bi.html
14
Tyyppiarvo II / 2013
datatieteilijä Konsultoiva Tiimissa Bisnesongelmat Sotkuinen ja rakenteeton Gigabittejä R ja Python Visualisointeja Ennustamaan Sovellus
Aika verrattuna C−kieleen (log−asteikko)
Aika verrattuna C-kieleen log-asteikko
Ohjelmointikielten tehokkuudet verrattuna C−kieleen fib
mandel mandel
parse_int parse_int
pi_sum pi_sum
quicksort quicksort
rand_mat_mul rand_mat_mul rand_mat_stat rand_mat_stat
1000 1000
kielet Julia Python
500 500
Kieli
Juli
100 100
Pyt
Ma 10 10
R
Matlab R
Ohjelmointikielten tehokkuudet verrattuna C-kieleen
Oletko tavannut julian? Uusi tieteelliseen laskentaan suunnattu kieli Julia on syntynyt ja on kasvamassa vauvaikään. Julia on tekniseen laskentaan erikoitunut, tehokkaaksi suunniteltu korkean tason laskentakieli, jonka luvataan tarjoavan hyvät edellytykset muun muassa hajautettuun laskentaan. Ja se on toteutettu avoimena lähdekoodina. Miksi tämä saattaa kiinnostaa tilastotieteilijää? Tilastollisessa laskennassa yleisesti käytössä oleva, ja yleistyvä R-kieli on monen tutkijan ja data-analyytikon valinta yrityksissä ja yliopistoissa [4]. R:ää on kuitenkin aiheesta parjattu hitaudesta, ja huonosta muistinhallinnasta, joka vähentää sen käyttökelpoisuutta isoille aineistoille. Julia ei ole tilastolliseen laskentaan tarkoitettu erikoiskieli, vaan on suunnattu yleisempään käyttöön. Massachusetts Institute of
R
Julia
randmatstat = function(t) { n = 5 v = matrix(0, nrow=t) w = matrix(0, nrow=t) for (i in 1:t) { a = matrix(rnorm(n*n), ncol=n, nrow=n) b = matrix(rnorm(n*n), ncol=n, nrow=n) c = matrix(rnorm(n*n), ncol=n, nrow=n) d = matrix(rnorm(n*n), ncol=n, nrow=n) P = cbind(a,b,c,d) Q = rbind(cbind(a,b),cbind(c,d)) v[i] = sum(diag((t(P)%*%P)^4)) w[i] = sum(diag((t(Q)%*%Q)^4)) } s1 = apply(v,2,sd)/mean(v) s2 = apply(w,2,sd)/mean(w) return(c(s1,s2)) }
function randmatstat(t) n = 5 v = zeros(t) w = zeros(t) for i = 1:t a = randn(n,n) b = randn(n,n) c = randn(n,n) d = randn(n,n) P = [a b c d] Q = [a b; c d] v[i] = trace((P.’*P)^4) w[i] = trace((Q.’*Q)^4) end std(v)/mean(v), std(w)/mean(w) end
Technologystä oleva kehitysryhmä mainitsee tavoitteekseen listan ominaisuuksia, jotka toivovat Julian täyttävän. Näitä ovat C-kielen tehokkuus, Ruby-kielen dynaamisuus, Matlabin matemaattinen notaatio, Python-kielen käytettävyys, sekä R:n helppokäytöisyys tilastotieteeseen. Julian kehittäjät tarjoavat tehokkuusvertailua Julian, sekä muiden kielten välille, ja Julia todella vaikuttaa tehokkaalta. Järjestelytehtävässä (yläkuvan viides osio, quicksort) Julia on R:ään nähden jopa viisisataa kertaa nopeampi! Tämä tarkoittaa, että kyseinen laskentatehtävä, joka vie Julialta minuutin, vie R:ltä yli kahdeksan tuntia. Parhaimmillaan R on Juliaan verrattuna “vain” kymmenen kertaa hitaampi. R on varsin tehokas kieli laskentatehtäviä ohjelmoitaessa, sen vaatiessa moniin tehtäviin kohtuullisen pienen koodirivimäärän, verrattaessa vaikkapa SAS:iin. Myös tässä Julia vaikuttaa varsin ekologiselta kieleltä. Vertailuna satunnaismatriisien luonti Juliassa ja R:ssä. Juliassa saattaa tulevaisuudessa houkutella tilastotieteilijöitä sama vetovoimatekijä, kuin R:ssä: sen vapaa luonne ja laajennettavuus. R on kielen lisäksi myös nopeasti laajentuva laskentakirjastovarasto, johon löytyy tätä kirjoitettaessa yli neljätuhatta kirjastoa erilaisiin laskentatehtäviin [5]. Mikäli Julia onnistuu herättämään kiinnostuksen tutkijoiden ja muiden kehittäjien parissa, jotka kehittävät tilastotieteellisiä laskentakirjastoja, saattaa kieli aikuistuesssaan yleistyä merkittävästi tilastotieteilijöiden ja data-analyytikkojen parissa.
[4] http://r4stats.com/articles/popularity [5] http://r4stats.com/2013/03/19/r-2012-growth-exceeds-sas-all-time-total
Tyyppiarvo
II / 2013
15
liikenne- ja viestintäministeriö
”
Oletko ikinä koittanut nyppiä taulukkoa pdf-dokumentista?
Tällä hetkellä avoimia aineistoja on mm. Trafissa, Liikennevirastossa ja Ilmatieteen laitoksella. Yhteensä avoimia aineistoja on yksitoista, joiden lisäksi on avattavissa kymmenen lisää. Ministeriö viestittää mahdollisuuksistaan avata aineistojaan reaaliaikaisten liikenne-, sää- ja merihavaintoaineistojen osalta, sekä ilmastotietojen, merikartta-aineistojen ja viestintäverkostojen osalta.
oikeusministeriö “Oikeusrekisterikeskuksen hallinnoimista tietovarannoista ovat kuulutusrekisteri ja tuomioistuinten kyselykäyttöjärjestelmä sellaisia avattavissa olevia tietovarantoja, joihin ei liity käyttörajoituksia tai lainsäädännön esteitä avaamiselle. Näiden käyttö on nytkin maksutonta. Koneluettavuus edellyttäisi teknisiä toimenpiteitä.” Selkeää.
Ministeriöiden data avautuu Avoimella datalla tarkoitetaan yleensä julkishallinnon toimijoiden, kuten ministeriöiden tai kuntien julkaisemia kaikille vapaita ja maksuttomia aineistoja. Avoimelle datalle on tyypillistä muun muassa hyvä koneluettavuus, joka helpottaa datan sisäänajamista tilasto-ohjelmistoon. Oletko ikinä koittanut nyppiä taulukkoa pdfdokumentista? Nyt Valtiovarainministeriö (VVM) on koostanut raportin [6], jossa kartoitetaan eri Suomen ministeriöiden valmiuksista avata omien hallinnonalojensa dataa. Kaikkien ministeriöiden raportit eivät VVM:n koosteeseen valmistuneet, mutta seitsemän Suomen yhdestätoista ministeriöstä on selvittänyt mahdollisuutensa avata tietoaineistojaan vuosina 2014 − 2017.
Näin eri ministeriöt raportoivat Julkishallinnon datan avaamista on perusteltu hallinnon avoimuuden lisäämisellä sekä tehokkuuden kasvattamisella. Tästä ovat esimerkkejä esimerkiksi HSL:n avaama reittiaineisto [7], joka on mahdollistanut älypuhelinten reittisovellusten synnyn, sekä Maanmittauslaitoksen avaama kartta-aineisto [8]. Maanmittauslaitoksen kartta-aineiston avaaminen on mahdollistanut rajapinnan kehittämisen R-kielelle [9]. Kansainvälisistä projekteista menestyneimpiä ovat karttapalvelu OpenStreetMap, paikkatietoaineisto Open Source Geodata, sekä tutkimus ja datatietokanta Science Commons.
opetus- ja kulttuuriministeriö Avattavia tietoaineistoja voisivat olla Kotimaisten kielten keskuksen Nimiarkiston paikannimikokoelma, sekä kieliaineistoja. Museoviraston kirjaston metatietovaranto avataan vuonna 2013. Lisäksi selvitetään Taiteen edistämiskeskuksen apuraha- ja määräraharekiesterien avaamista. Tämän lisäksi esitetään yhteistä latauspalvelua virastojen ja laitosten tietokantojen avaamiseksi koneluettavassa muodossa.
sisäasiainministeriö Ei juuri aikomuksia tietovarantojen avaamiseen. Maahamuuttovirasto saattaa avata maahanmuuttajien lähtömaatietoja sisältävän Tellus-tietokannan.
työ- ja elinkeinomisteriö Tällä hetkellä avoimia ovat patentti- ja hyödyllisyysmallirekisteri, tavaramerkkitietokanta ja tiedot mallioikeushakemuksista. Tärkeimpinä kohteina mainitaan Patentti- ja rekisterihallituksen, sekä Geologian tutkimuskeskuksen tietokannat, joista jälkimmäinen on jo vuonna 2012 tehnyt päätöksen datan avaamisesta.
valtiovarainministeriö Suunnitteilla kohteiden avaamista Valtiokonttorissa, Tilastokeskuksessa ja Väestörekiste- rikeskuksessa. Valtionkonttorin aineistoista harkitaan Netran avaamista, joka pitää sisällään tietoja valtion toiminnasta, resursseista ja tuloksellisuudesta. Tilastokeskuksen tietokannoista ovat auki keskeisiä tilastoja sisällään pitävä StatFin, aluetietoja sisältävä Altika, sekä EuroStatin avaintaulukot. Mahdollisia avauskohteita ovat Suomi postinumeroalueittain, Yritysrekisteri, sekä Ruututietokanta, joka pitää sisällään tietoja alueiden asukasrakenteesta, koulutuksesta ja tuloista. Ruututietokannan avaamisessa mainitaan haastavaksi tekijäksi yksilönsuoja.
ympäristöministeriö Avoinna on ympäristö- ja paikkatietopalvelu OIVA. Uusia avaamiskohteita ei mainita.
[6] https://wiki.julkict.fi/julkict/avoin-data/dataportaali/yhteenveto-ministerioiden-tietovarantoselvityksista/view [7] https://www.hsl.fi/fi/mikaonhsl/uutiset/2011/Sivut/Page_20111202102347.aspx [8] https://www.maanmittauslaitos.fi/kartat [9] https://louhos.wordpress.com/tag/maanmittauslaitos
16
Tyyppiarvo II / 2013
URHEILU JA TILASTOT
Moneyball:
huippu-urheilu kohtaa tilastotieteen
TEKSTI: Ville Hyvönen
Y
hdysvaltain kansallispeli baseball on tunnetusti toisena maailman tylsimpien pallopelien listalla (ykkönen on uppopallo, jossa peli tapahtuu täysin veden alla), ja uskallan pitää mainetta täysin ansaittuna: yritin katsoa peliä tehdessäni taustatyötä tätä artikkelia varten, mutta mielenkiintoni hiipui ensimmäisen vuorokauden puolivälissä... Kuitenkin baseball ns. vuoropohjaisena pallopelinä on analyytikon märkä uni, sillä sen luonne mahdollistaa pelin mallintamisen ”siirto siirrolta” ja tutkimaan suoraan erilaisten taktisten ratkaisujen ja pelaajavalintojen vaikutusta joukkueen menestykseen. Kun otetaan huomioon, että baseball tunnetaan taktisena älypelinä – ruohokenttien shakkina, jossa pelinjohtajan pelaaja- ja taktiikkavalinnat ovat olennaisessa osassa – ja toisaalta
Baseball poikkeaa pesäpallosta säännöiltään siten, että pallo syötetään vaakatasossa lyöjää päin. Takalaitonta ei baseballin säännöissä tunneta, joten paras lyönti on stadionin takana sijaitsevalle parkkipaikalle lentävä kumura.
että tilastot ja numeromagia, kuten batting average-ennätysten jahtaaminen, ovat oleellinen osa lajia, on hämmästyttävää, kuinka myöhään varsinaista tilastollista analyysiä alettiin hyödyntää lajin parissa. Tästä lajikulttuurin käännekohdasta kertoo aiemmissa teoksissaan lähinnä taloudellisia aiheita käsitellyt Michael Lewis (Liar’s Poker, Big Short. Suosittelen erityisesti jälkimmäistä, Yhdysvaltain vuoden 2008 pankkikriisin taustoja käsittelevää teosta) bestsellerissään Moneyball. Jos ei jaksa lukea kirjaa, voi katsoa myös sen pohjalta tehdyn elokuvan, jonka pääosissa ovat Brad Pitt ja Philip Seymour Hoffman. Vaihtoehtoisesti voi myös lukea tämän artikkelin loppuun! Tarinamme pääosassa on äärimmäisen kiivaasta ja voitontahtoisesta luonteestaan tunnettu Oakland Athleticsin manageri Billy Beane, jolla on pelaajana takanaan loistava tulevaisuus. Billyn ongelmana on, että hänen käytössään oleva budjettinsa on karkkirahoja verrattuna sarjan huippujoukkueiden käytössä oleviin summiin. Hänellä ei ole juurikaan varaa palkata valmiita huippupelaajia, vaan vahvistukset tulee varata vuosittaisessa draftissa amatöörisarjoista tai vaihtaa muiden joukkueiden rivimiehistä. Billyllä on kuitenkin kaksi etua puolellaan: kyky ja halu rikkoa baseballin ikiaikaisia traditioita, ja keinot tähän apulaismanagerinsa, Harvardista valmistuneen Paul DePodestan tilastollisten mallien avulla. Nämä mallit perustuivat pienten piirien kulttisuosiota nauttiviin, mutta yleisesti tunte-
Tyyppiarvo
II / 2013
17
mattomiin, teollisuusvartijana toimineen Bill Jamesin 80-luvulla vapaa-aikanaan julkaisemiin omakustannekirjoihin, joissa hän esitti oman radikaalin näkemyksensä baseballin tilastoista ja sen taktiikasta. Analyysissään James lähti liikkeelle lyötyjen juoksujen lukumäärästä; sisäpeli oli hänen mukaansa toisaalta ulkopeliä huomattavasti helpommin kvantfioitavissa oleva, ja toisaalta myös yleensä tärkein joukkueen menestystä selittävä tekijä. Hänen mukaansa joukkueen ulkopelillä syöttäjää lukuun ottamatta oli huomattavasti pienempi merkitys joukkueen menestyksen kannalta kuin yleensä ajateltiin. Perinteinen lyöjien tehokkuuden mittaamiseen käytetty tunnusluku oli batting average (BA) eli pelaajan niiden lyöntivuorojen osuus, joilla pelaaja on lyönyt itsensä kentälle. James kuitenkin huomasi, että joukkueen pelaajien keskimääräinen batting average ei juurikaan korreloinut joukkueen juoksumäärän kanssa (joukkueen juoksumäärä on melko kiistaton joukkueen sisäpelin tehokkuuden ja siten joukkueen menestyksen mittari). Sen sijaan James huomasi, että joukkueen keskimääräinen on-base percentage (OPB), joka kertoo kuinka usein lyöjä pääsee kentälle (sisältää siis myös vapaataipaleet) per lyöntivuoro, korreloi huomattavasti voimakkaammin juoksujen määrän kanssa. Toinen juoksumäärän kanssa selvästi korreloiva tunnusluku on slugging percentage (SLG), jossa pelaajan lyöntivuorolla etenemien
18
Tyyppiarvo II / 2013
pesien lukumäärä jaetaan lyöntivuorojen määrällä. Esimerkiksi jos pelaaja käy vain kerran mailan varressa ja lyö itsensä kakkospesälle, hänen SLG:nsä on 2 / 1 = 2, tai jos hän lyö kunnarin, eli etenee neljä pesää, hänen SLG:nsä on 4 / 1 = 4. Nämä kaksi tunnuslukua James yhdisti on-base plus slugging-tunnusluvuksi (OPS), joka siis ennustaa lyötyjen juoksujen määrää selvästi perinteistä batting averagea paremmin. Myös apulaismanageri Paul DePodesta lähti analysoimaan baseballia nimenomaan sisäpelin kautta. Hän laski ensin montako pistettä joukkueen oli saatava päästäkseen pudotuspeleihin, ja sitten montako juoksua joukkueen oli lyötävä päästäkseen tähän pistemäärään. Sen jälkeen hän tarkasteli, millaiset sisäpelitilastot joukkueen pelaajilla olisi oltava, että tähän juoksumäärään päästäisiin. Viimeisessä laskussa nimenomaan on-base percentage on keskeisessä roolissa. Kaudelle 2002 joukkue oli joutunut myymään tähtipelaajansa Jason Giambin, jonka OBP oli koko liigan ylivoimaisesti korkein; 0,477, sekä lisäksi huippupelaajat Johnny Damonin (OBP 0,324) ja Olmedo Saenzin (OBP 0,291). DePodestan keskeinen oivallus oli, että nämä kolme huippupelaajaa ovat käytännössä korvattavissa kolmella pelaajalla, joiden OBP on näiden keskiarvo, eli 0,364. Pelaajien muut ominaisuudet, kuten taidot ulkopelissä, nopeus, fyysinen kunto ja niin edelleen, ovat tilastojen valossa toisarvoisia joukkueen menestyksen kannalta (poikkeuksena tähän ovat tietenkin
pelisilmä: Vapaataipaleelle päästäkseen lyöjän on hahmotettava väärät syötöt.
”
Pelaajien taidot ulkopelissä, nopeus, fyysinen kunto ja niin edelleen, ovat tilastojen valossa toisarvoisia joukkueen menestyksen kannalta.
!
syöttäjät, joiden tapauksessa ratkaiseva ominaisuus on syöttämis- ei lyömistaito). Tämän filosofian etuna on, että jos pelaajien muista ominaisuuksista ei välitä, on on-bace percentagea (vielä tällöin) mahdollista ostaa melko halvalla. Baseballin scoutit arvioivat perinteisesti nuorten pelaajien potentiaalia fyysisten ominaisuuksien, kuten juoksunopeuden, lyöntivoiman ja ruumiinrakenteen perusteella. Monesti fyysisesti ylivoimaisista pelaajista ei kuitenkaan tullut huippupelaajia ammattilaistasolla, esimerkkinä tästä manageri Billy Beane itse, jonka valtava fyysinen potentiaali ei koskaan realisoitunut ammattilaisena. Baseballissa tärkeimmässä roolissa on pitkälti henkisellä tasolla käytävä kaksinkamppailu syöttäjän ja lyöjän välillä. Laji vaatii fyysisVapaataival ten ominaisuuksien lisäksi toisaalta Baseballissa lyöjä myös henkistä vahvuutta, sekä toisaa vapaataipaleen saalta kykyä hahmottaa syöttöruueli pääsee ykköstu ja sitä kautta kykyä nähdä onko pesälle, jos syöttäjä syöttö väärä vai oikea; kannattaako syöttää neljä väärää lyöntivuorossa siihen lyödä. OBP:n käyttö pelaajien arvioimiseen perinteisten mittarien, eli batting averagen ja lyötyjen kunnarien lukumäärän sijaan, ottaa huomioon myös nämä pelaajien henkiset ominaisuudet, sillä siihen lasketaan lyöntien avulla kentälle pääsyn lisäksi myös vapaataipaleella kentälle pääsyt. Vapaataipaleet mittaavat epäsuorasti juuri edellä mainittua ”pelisilmää”. Nämä henkiset ominaisuudet ovat siis
baseballissa vähintään yhtä tärkeitä kuin pelaajien fyysiset ominaisuudet, ja ne ovat myös tilastojen valossa ”synnynnäisiä”, eli hankalia tai lähes mahdottomia opettaa aikuisille pelaajille. Täten Billy Beanen oli mahdollista hankkia edullisesti pelaajia, jotka olivat tilastojen valossa erittäin tehokkaita, mutta joissa perinteisen baseball-tietouden mukaan oli jotain vikaa: he olivat esimerkiksi liian hitaita, lihavia, vanhoja, tai pienikokoisia. Hän oli siis valmis tinkimään kaikista perinteisen ”tasapainoisen” pelaajan ominaisuuksista, jotta joukkueeseen saataisiin mahtumaan mahdollisimman suuri määrä tulivoimaa sisäpeliin. Tilastollisen analyysin hyödyntäminen auttoi toisaalta Oakland Athleticsia kokoamaan huippujoukkueen kengännauhabudjetilla, ja toisaalta osoitti ”taitopelaajien”, joilla perinteisen baseball-viisauden mukaan ei ollut asiaa huipputasolle, todellisen arvon. Jos haluaa saada selville, kuinka Oakland Athletics lopulta menestyi, kannattaa lukea kirja, mutta sen verran tässä paljastettakoon, että nykyään kaikki ammattilaisjoukkueet hyödyntävät tilastollista analyysia arvioidessaan pelaajia ja suunnitellessaan joukkueen taktiikkaa. Tämä tietenkin avaa valmistuville tilastotieteilijöille uusia mielenkiintoisia työmahdollisuuksia: uskallan väittää, että kansallispeliämme pesäpalloa ei ole tarkasteltu tilastollisen analyysin keinoin, ja esimerkiksi Sotkamon Jymyn tai Vimpelin Vedon palkkalistoilta tuskin vielä löytyy tilastotieteilijää.
Tyyppiarvo
II / 2013
19
tyyppiarvo tutkii
KATUGALLUP TEKSTI: Janina Hietala & Paula Bergman Tilastotiede on Helsingissä kahdessa tiedekunnassa, mikä on meidän tilastotieteilijöiden mielestä loistava juttu. Mutta mitä meistä ja tieteestämme ajatellaan näissä? Päätimme tiedustella asiaa satunnaisilta ja vähemmän satunnaisilta opiskelijoilta molemmista tiedekunnista. Kiinnostuksen kohteenamme oli erityisesti, tuleeko vastauksista ilmi jotain yleistä tilastotieteilijöitä koskevaa stereotypiaa.
?
1. Mitä on tilastotiede? (kolmella sanalla) 2. Onko tilastotiede uhka vai mahdollisuus? 3. Oletko käynyt tilastotieteen kursseja? 4. Millainen on tyypillinen tilastotieteilijä? 5. Miten lähtisit flirttailemaan tilastotieteilijän kanssa?
Jannica, 21, sosiaalipsykologia
1. Kvantitatiivinen keino jäsentää. 2. Mahdollisuus. 3. Pakollisia kursseja: johdantokurssin osat 1 ja 2 sekä
sosiaalitutkimuksen tilastolliset menetelmät. 4. Subjektiivisten kokemusten perusteella yleistän pääaineenaan tilastotiedettä opiskelevien/opiskelleiden olevan/olleen kiinnostuneempia muista aineista kuin pääaineestaan... 5. Kyselisin kuka oot, mistä tuut, mitä teet jne.
Anni, 22, sosiaali- ja kulttuuriantropologia
1. Käyriä, tolppia, akseleita. 2. Sekä että. 3. En. 4. Miespuolinen, silmälasipäinen, kovan tieteen tekijä, saattaa omata myös tosikon piirteitä. 5. ”Miten menee, honey?” tai hiukan suorasukaisemmin ”Lähetäänkö tutkimaan nousevia käyriä sun luokse?”
20
Valtsika
Sakari, 22, taloustiede
1. Tylsää mutta (tosi)tarpeellista. 2. Ehdottomasti mahdollisuus kaikille
sitä opiskelleille, mutta uhka varsinkin gradun tekemisessä ja työnhaussa niille, jotka eivät ole yhtään syventyneet ko. tieteenalaan. 3. Lyhyt sivuaine plakkarissa, niin kuin kaikilla taloustieteen opiskelijoilla. 4. Harry Potter dataamassa rillit huurussa. Ei vais, ei se näy päälle päin. Täytyy olla varovainen mitä tähän vastaa, koska seurustelen itsekkin entisen tilastolaisen kanssa 5. ”Hei mehän voitas mennä tekee yhdessä laskareita?” (Toimi).
Aino, 19, kehitysmaatutkimus
1. On kuulemma hyödyllinen. 2. Mahdollinen uhka. 3. Sen pakollisen. 4. Tulee mieleen vaan Kimmo Vehkalahti. 5. Luultavasti en lähtisi.
Jenni, 19, kemia
Jaakko, 20, fysiikka
1. Ehdottoman faktapohjainen tiede 2. Tilastotiede on ehdottomasti mahdollisuus
meille kaikille, ehkä jopa tietämättämme... 3. Valitettavasti en ole, tulevaisuus on kuitenkin täynnä mahdollisuuksia 4. Tyypillinen tilastotieteilijä on varmasti melko hyvä mieltämään suuria kokonaisuuksia ja analysoimaan käytäntöä teoriaksi. Mikäli tilastotieteilijä on hyvä, tutkimustuloksista saattaa tulla jopa yleisiä faktoja. 5. Itse jättäisin nämä perus matikkaläpät heti kättelyssä pois, koska tilastotieteilijät tykkäävät tunnistautua omaksi ainutlaatuiseksi lajikseen kaikkien muiden höpöhöpötieteiden rinnalla. Tämän jälkeen antaisin tilanteen viedä ja yrittäisin poiketa mahdollisimman paljon tyyppiarvosta.
1. Huomaamatonta - hieman kuivaa - työkalu. 2. Mahdollisuus. 3. En ole käynyt. Uskomatonta kyllä ei oikein koskaan käy-
nyt mielessä... Minusta tuntuu kuitenkin, että kemiassa tarvitaan melko spesifisiä tilastotieteen työkaluja tai menetelmiä, joita olisi varmaan suoraviivaisempi opetella sopivilla kemian kursseilla kuin yleisesti tilastotieteen kursseilla. 4. Tarkka; ’näkee metsän, muttei yksittäisiä puita’; ei loppujen lopuksi olekaan niin nörttimäinen kuin moni uskoo... 5. Pyrkisin olemaan piristävä sillä tavalla, että en juurikaan puhuisi tilastoista.
Nina, 20, maantiede
1. Tiedonkeruuta, diagrammeja ja
Matlu Vesku, 23, matematiikka
1. Sovellettua matematiikkaa. 2. Useimmin mahdollisuus. 3. Kyllä. Olen tehnyt teoreettisemman tilas-
totieteen 25 op:n laajuiset perusopinnot 4. Hmm.. Tilastotieteilijöitä tapaa Kumpulassa tyypillisesti noin vuoden, silloin kyseessä on todennäköisesti nuori, naispuolinen henkilö, joka ei omista omakotitaloa Westendistä, ei aja farmari Volvoa eikä hänellä ole 1,8 lasta. 5. Murtamalla jäätä iskurepliikillä, esimerkiksi: ”If I toss a fair coin what are my chances of getting head?”
niiden tulkintaa. 2. Ehdottomasti mahdollisuus! 3. En mutta niitä kyllä suositellaan. 4. Sanoisin että luonnontieteilijän ja valtsikkalaisen välimuoto. Rento, mutta omalla tavallaan hyvin analyyttinen. 5. Varovainen lähestymistapa olisi ehkä tässä tapauksessa toimivampi. En ole ikinä tavannut tilastotieteilijäpoikaa, joten ensin pitäisi olla suunnitelma, miten sellaisen löytää!
Juuso, 20, matematiikka
1. Todellisuutta, kaavoja, puurtamista. 2. Mahdollisuus tieteelle, uhka matemaatikon pienelle mielelle. 3. Olen kokeillut! Puolitoista luentoa tilaston kurssia (jonka nimessä oli sana ”johdatus”) kuitenkin riitti.
4. Tyylikäs! Nauravainen mutta hillitty. Selvästi kypsempiä kuin
matemaatikot, jotka heittävät kärrynpyöriä saman laitoksen käytävillä. Ja hei, yhdistän aina tyylikkäät silmälasit tilastotieteilijöihin. 5. Faktatiedon avulla. Muutama ulkoa opeteltu Wikipediaartikkeli voisi niin sanotusti ”tehdä taikoja”.
Vastausten perusteella voisi todeta, että tilastotiede on mielipiteitä vahvasti jakava tiede. Vastaukset eivät noudattaneet mitään tiettyä linjaa, eikä tiedekuntien sisältäkään ollut havaittavissa mitään yhteyttä. Neljässä vastauksessa mainittiin tyypillisen tilastotieteilijän päähän silmälasit (Yhdessä vastauksista ei varsinaisesti mainittu silmälaseja, vaan Kimmo Vehkalahti, joka on kuitenkin tunnettu silmälasien käyttäjä.) Monilla vastaajilla oli joko omaa kokemusta, tai välillistä kokemusta tilastotieteestä tai sen opiskelijoista, mutta ala tuntui herättävän ristiriitaisia tunteita. Lähes yksimielisesti tilastotiede kuitenkin miellettiin ennemmin mahdollisuudeksi kuin uhkaksi.
21
Tilastollisia sovelluksia
Pokeri, osa II/II TEKSTI ja KUVAT: Tuomo Nieminen
P
okerin pelaaminen olisi paljon helpompaa, jos aina tietäisi mitä vastustajalla on kädessä. Artikkelin ensimmäisessä osassa käsittelin pokerikäden lukemista, eli sitä eliminointiprosessia, minkä kautta vastustajan mahdollisten käsien joukko kaventuu hänen pelissä tekemien päätöstensä perusteella. Nyt jatkamme aiheesta käytännön tasolla. Vaikka yleistää voi useassa tilanteessa paljon, pelaavat eri vastustajat hyvin eri tavoilla; joidenkin korotukset ja sökötykset tarkoittavat aivan eri asioita kuin toisten. Esimerkiksi netissä muita, kuin aivan korkeimpia panoksia pelatessa, on pelipöytiä ja pelaajia hyvin paljon ja on mahdotonta muistaa kunkin vastustajan taipumuksia erikseen. Tätä ongelmaa voi helpottaa esimerkiksi tekemällä pelaajista muistiinpanoja tai sitten käyttämällä apuohjelmia, jotka antavat pelipöytään tietoja vastustajien panostusfrekvensseistä (prosentteina). Tästä on suunnaton hyöty, sillä se antaa muun muassa erittäin hyvän arvion vastustajan mahdollisista käsistä potin avauksen, eli ensimmäisen kierroksen korotuksen jälkeen, ja antaa myös myöhemmissä vaiheissa tukea vastustajan käden lukemiseen. Mitä prosenttiluku sitten oikeastaan kertoo käden sisällöstä? Texas Holdemissa aloituskädet voidaan asettaa karkeaan paremmuusjärjestykseen vertaamalla niiden voittotodennäköisyyksiä muita käsiä vastaan. Vuonna 2008 julkaistu PokerStove -ohjelma on kätevä pokerilaskin, josta löytyy valmiiksi matemaattinen ratkaisu käsien paremmuusjärjestykselle. Viereisessä kuvassa [1] on keltaisella parhaat 30,2% Texas Holdemin aloituskäsistä. Käsikartan lävistäjänä ovat parit, yläpuolella samaa maata olevat aloituskädet ja alapuolella eri maata olevat aloituskädet. Tämä paremmuusjärjestys on laskettu vertaamalla jokaisen aloituskäden voittotodennäköisyyttä kaikkia muita
22
Tyyppiarvo II / 2013
mahdollisia aloituskäsiä vastaan, mistä syystä se ei ole välttämättä aina käyttökelpoisin. Harvemmin nimittäin törmää vastustajiin, jotka pelaavat aivan kaikki aloituskädet. Käsien arvo on suhteellista ja riippuu siitä, minkälaisia käsiryhmiä vastaan ollaan pelaamassa. Viereisen sivun kuvassa [2] on käteispelitilanteeseen sopiva top 30%, joka ottaa huomioon sen, että myös muut pelaajat valikoivat aloituskätensä ja panostamista tapahtuu yhteisten korttien jälkeen.
pelaajat muuttuivat numeroiksi Vuonna 2005 tilasto-ohjelma PokerTrackerin yhteyteen kehitettiin PokerAce HeadsUpDisplay (PAHUD), joka toi suoraan pelipöytiin tilastotietoa vastustajista. Arvokkainta informaatiota ovat käden alussa tapahtuvat asiat, sillä ne toistuvat usein ja vaikuttavat kaikkiin myöhempiin päätöksiin. Tämä ei välttämättä ole intuitiivista, sillä isojen ja mieleenpainuvien pottien ratkaisevat päätöksen tapahtuvat yleensä myöhemmillä panostuskierroksilla.
1
Texas Holdemin aloituskäsien “paras” 30,2%
Nämä tilanteet ovat kuitenkin todellisuudessa niin harvinaisia, että niihin liittyvä informaatio ei ole läheskään niin arvokasta, kuin esimerkiksi aloituskäsitilaston, jolla on merkityksensä jokaisessa kädessä. Jokaisella PAHUDin käyttäjällä olikin näkyvillä ainakin VoluntaryPutMoneyInPot (VPIP) ja PreFlopRaise Pimeä/ (PFR) -statistiikat. Ensimmäinen anpakotettu panos taa yleiskuvan siitä, kuinka usein pePokeripelissä on aina laaja lähtee vapaaehtoisesti pottiin käytössä jokin määrä mukaan ja toinen kertoo pelaajan kopakotettuja panoksia rotustaipumuksista ennen yhteisiä (usein kaksi), sillä muuten kortteja. Jo pelkästään näiden kahoptimaalinen strategia den tilaston yhteistarkastelulla pystyy olisi vain odottaa myös päättelemään jotain pelityylistä. parasta aloituskättä; Jos pelaaja pelaa paljon käsiä, mutta Ässäparia. korottaa niistä vain pienen osan (korkea VPIP, matala PFR), on hän ainakin ensimmäisellä panostuskierroksella passiivinen, valiten useimmiten maksun korotuksen sijaan. Jos taas PFR on lähes sama, kuin VPIP, on pelaaja aggressiivinen. Lisäksi esimerkiksi kuuden hengen pöydässä ei voi kilpailullisella tasolla pelata voitollista peliä pelaamalla vapaaehtoisesti yli 40% aloituskäsistä, joten tätä isomman VPIPn pelaajat pystyy nopeasti luokittelemaan aloittelijoiksi tai hupipelaajiksi. Jos ohjelma ilmoittaa pelaajan korottavan esimerkiksi 30% ajasta, saat välittömästi hyvän arvion hänen käsiryhmänsä sisällöstä katsomalla vaikkapa PokerStovesta parhaan 30% sisällön ja päättelemällä yksityiskohdat tilantees-
2
Käteispelien tilanteisiin soveltuva top 30%
ta riippuen. PokerStove osaa myös laskea yksittäisen käden tai käsiryhmän todennäköisyyden voittaa showdownin (lopussa paras käsi) toista kättä tai käsiryhmää vastaan. Alla olevassa kuvassa [3] on ysiparin voittotodennäköisyys “parhaat” 30,2% käsiryhmää vastaan; ysipari voittaa lopussa melkein 59% ajasta. Tällaisista ratkaisuista on suuri käytännön hyöty ja ne ovat hyvin sovellettavissa esimerkiksi useissa turnauspokerin tilanteissa, joissa pimeiden panosten noustessa suuriksi, saattavat pelaajat usein avata potin panostamalla kaikki merkkinsä. Tällöin pelkästään tieto korotusfrekvenssistä yhdistettynä PokerStoven ja laskimen käyttöön antaa erittäin hyvän arvion siitä, onko kannattavaa maksaa tällainen “All-in” korotus.
3
“Parhaat” 30,2% vastaan 99
Otetaan esimerkki Pelaat Las Vegasissa World Series Of Poker turnauksessa ja olet selvittänyt tiesi Heads-Up vaiheeseen taistelemaan maailmanmestaruudesta. Pimeät panokset ovat 1 500 000 $ / 3 000 000 $. Sinulla on iso pimeä panos, eli olet joutunut laittamaan pottiin kolme miljoonaa dollaria. Sinulla on yhteensä 21M $, eli vielä 18M $. Vastustajasi on Patrik Antonius; entinen malli ja yksi maailman parhaista pokerinpelaajista. Antoniuksella on luonnollisesti suurin merkkikasa, vähän yli sata miljoonaa dollaria. Patrikilla on itsevarma katse kun hän miettii siirtoaan. Lopulta hän ilmoittaa rauhallisesti: “I’m all-in.”. Tässä vaiheessa katsot täristen käsikorttisi ja sinulla on Ks9s eli kuningas ja ysi molemmat pataa. Mitä tehdä? Ratkaisua varten tarvitset arvion Patrikin mahdollisista käsistä ja kuten edellä käytiin läpi, oikeastaan riittää arvio tai tieto korotusfrekvenssistä. Jotkut pokerianalysointiohjelmat, kuten vuonna 2008 julkaistu StoxEV calculator, osaisivat pelkästään pimeiden panosten ja merkkimäärien perusteella ratkaista optimaaliset käsiryhmät molemmille pelaajille, mutta tyydytään nyt pohtimaan tilannetta hieman arvailemalla, sillä niinkin voidaan päätyä erittäin hyödyllisiin ratkaisuihin. 21M $ on paljon
Tyyppiarvo
II / 2013
23
merkkejä, mutta toisaalta suhteutettuna pimeiden panosten kokoon se onkin vain 7 kertaa ison pimeän panoksen (3M $) verran. Patrik on agressiivinen pelaaja, joten kyllä hän varmaankin kaikilla pareilla ja melkein kaikilla käsillä missä on Ässä, laittaisi meidät hikoilemaan. Vilkaisu PokerStoveen kertoo, että tämän perusteella parhaat 30% saattaisi esimerkiksi olla hyvä arvaus. Muokatessa hieman ensimmäisen kuvan [1] ryhmää vaihtamalla esim joidenkin heikomman näköisten käsien tilalle kaikki parit, päädytään seuraavaan ryhmään: {22+,A2s+,K8s+,Q8s+,J 8s+,T8s+,98s,A5o+,K9o+,Q9o+,J9o+}, joka on 30,3% käsistä. “s” eli suited tarkoittaa, että kortit ovat samaa maata ja “o” eli offsuit eri maata. Alla olevassa kuvassa [4] on PokerStoven avulla ratkaistu kätesi voittotodennäköisyys tätä käsiryhmää vastaan. Tulos on, että huomioiden kaikki mahdolliset tulevat kortit, sinulla on lopussa paras käsi noin 45% ajasta. Jos siis maksat, niin useimmiten häviät käden. Kannattaa siis varmaankin heittää kortit pois, eikö? Ei välttämättä.
Maksat, ja Patrik kääntää tyynesti esiin punaisen ässäparin (Ad Ah), mikä on kovin valitettava sattuma, mutta ei tietenkään ristiriidassa arviomme kanssa. Alla olevassa kuvassa [5] on tilanteesi nyt; surkealta näyttää.
5
Patrik toivottaa sinulle onnea ja jakaja jakaa pöytään: 7s, 8d, Js. Onnekasta! Kympillä saat nyt suoran ja padalla värin. Voittomahdollisuutesi parani huomattavasti ja näkyy alla olevan kuvan [6] mukaan olevan noin 47%.
6
4
Patrikin käsiryhmä (arvio) vastaan oma käsi
Potissa oli käden alussa valmiiksi rahaa pimeistä panoksista, joten sinun ei tarvitse voittaa pottia yli 50% ajasta jäädäksesi voitolle. Sinulla on yhteensä 21M $ ja nyt täytyisi maksaa 18M $, jotta voisit tuplata merkkisi eli voittaa 42M $. Tästä suhteesta myös nähdään, kuinka usein potti täytyy voittaa jäädäksesi voitolle maksusta. 18M $ / 42M $ = 0,429. Jos voitat käden yli 43% ajasta, jäät maksusta voitolle. Edellä pääteltiin, että Ks9s on paras käsi 45% ajasta, joten täten meillä on ratkaisu: Maksu on kannattava! On tietenkin syytä huomioida, että ratkaisuun päädyttiin arvioiden kautta, joten siinä on selvästi epävarmuutta. Tässä tapauksessa kuitenkin arvioimamme käsiryhmä Patrikille oli oikeastaan hyvin konservatiivinen (optimaaliset all-in ja maksukartat erilaisilla merkkimäärillä löydät esim täältä: www. pushfoldcharts.com/headsup), joten voimme olettaa, että päätös maksaa on hyvin suurella todennäköisyydellä oikein.
24
Tyyppiarvo II / 2013
Ks9s vastaan Ässäpari
“Floppi” eli kolme ensimmäistä yhteistä korttia parantavat nyt voittomahdollisuuksia suuresti
Seuraava kortti on 5h. Ei voittokortti, mutta hyvä kuitenkin; nyt myös kutonen antaa sinulle suoran. Lasketaanpa nyt voittotodennäköisyys itse. Koska pelissä jaetaan enää yksi yhteinen kortti, on voittotodennäköisyys yhtä kuin voittavien korttien suhde muihin jäljellä oleviin kortteihin. Patoja on pakassa alunperin 13, joista on meillä kädessä kaksi ja pöydässä kaksi, joten jäljellä on 13 - 2 - 2 = 9. Kymppejä on jäljellä kaikki 4, joista patakymppi laskettiin jo, ja kutosia 4, joista patakutonen laskettiin jo. Voittavia kortteja on siis yhteensä jäljellä 9 + 3 + 3 = 15. Pelipakassa on 52 korttia ja niistä on nyt nähty 2 (oma käsi) + 2 (Patrikin käsi) + 4 (yhteiset kortit) = 8. Tuntemattomia kortteja on siis jäljellä 52 - 8 = 44. Voittotodennäköisyys on siis 15 / 44 = 0,3409. Jakaja liu’uttaa hitaasti viimeisen kortin pöytään väärinpäin ja lopulta ketterällä liikkeellä heilauttaa sen ympäri. Se on pieni musta kortti! Riemuitset sekunnin, kunnes huomaat sen olevan ristinelonen. Tyrmistyneenä kättelet Patrikia, kumarrat yleisölle ja kiität jakajaa. Käyt kassalla keräämässä ansaitsemasi palkintorahan; 5 295 149 $. Ensi vuonna uudestaan.
Tyyppi
kysyy milloin suomi pääsee jalkapallon mm-kisoihin?
Saavatko kitaristit aina naisia?
Arvo
kysy arvolta!
vastaa
Tyypit voi lähettää kysymyksiä Arvolle fb-sivulla: www.facebook.com/Tyyppiarvo tai sähköpostilla: tyyppiarvo@gmail.com
T
ämän jalkapallofaneja jo vuosia askarruttaneen kysymyksen ratkaisun lähtökohdaksi Arvo tutki kaikki Suomen maajoukkueen vuoden 1990 jälkeen pelaamat arvokisojen karsintapelit, joista kertyi 45 tappiota, 25 tasapeliä ja 39 voittoa. Lisäksi tutkittiin vuoden 2010 MM-kisojen paikkaan vaaditut pisteet. Näiden perusteella Arvo simuloi tulevia karsintoja. Armoton mutta objektiivinen tulos oli, että jos Suomen peliesitykset jatkuvat ennallaan, niin todennäköisyys päästä seuraaviin – eli vuoden 2018 kisoihin – on 4.3%. Toisaalta taas Suomi on yli 50% todennäköisyydellä päässyt kisoihin vuoteen 2078 mennessä, ja todennäköisyys päästä kisoihin ennen vuotta 2100 on peräti 60%, joten hyvä nuori ystävä, on suorastaan todennäköistä että Suomi pelaa MM-kisoissa jo Sinun elinaikanasi! Vanhemmille lukijoille Arvo esittää tilastolliset pahoittelut.
T
ähän mielenkiintoiseen kysymykseen Arvo tarvitsi muusikkoystävänsä apua, jonka avulla saatiin aineisto aiheeseen liittyvään tutkimukseen. Tutkimus oli massiivinen ja lähes koko perusjoukon kattava; tutkimme kahdeksaa kitaristia sekä vertailuryhmänä kuutta basistia. Kaikki tutkittavat ovat miespuolisia, nuoria sekä soittavat arvostetussa musiikkiopistossa. Arvioimme Likertin asteikolla (1-5) hyvännäköisyyttä, ulospäinsuuntautuneisuutta ja musikaalista lahjakkuutta, minkä jälkeen kysyimme: ”Onko ollut viimeisen vuoden ajalta random muikkeja/vakavia parisuhteita”. Hyvännäköisyys
Ulospäinsuuntautuneisuus
Musikaalinen lahjakkuus
Kitaristit
3,4
3,4
3,9
Basistit
2,5
2,8
4,3
Basisteilla on puolellaan suurempi soitin ja taito käyttää sitä. Kitaristit taas ovat paremman näköisiä ja ulospäinsuuntautuneempia. Kummilla oli enemmän naisia? 62,5% tutkituista kitaristeista oli ollut parisuhteessa. Heistä yksi oli jopa naimisissa ja yksi ”vehtasi kaikkien kanssa”. Basisteilla taas parisuhdeprosentti oli 16,7%. Selkeästi kitaristit saavat naisia – jos eivät aina, niin ainakin basisteja enemmän.
Mitkä ovat tulevan kevään ja kesän muotivärit?
K
ysymys on kinkkinen, vaikka muotitaloilla ja suunnittelijoilla onkin tapana esitellä kevät- ja kesäsesongin luomuksiaan jo hyvissä ajoin. Tyylitietoisimmallakin tilastotieteilijällä menee sormi suuhun yrittäessään poimia catwalkeilta varmojen floppien joukosta täysosumat. On ilmeinen fakta, että sesonkien muotivärit noudattavat jonkinmoista historiallista sykliä, jonka tilastollinen analysointi jätettäköön rohkeimmille. Tämän perusteella lienee kuitenkin perusteltua karsia vuoden 2014 kevään ja kesän mahdollisista muotiväreistä edeltävän vuoden vastaavat. Merkkivaateliikkeiden näyteikkunoista, arvostetuimmista muotilehdistä ja korkeatasoisista muotiblogeista kerätyn datan perusteella voidaan sulkea pois muun muassa tympeät hiekansävyt, räikeät siniset, murretut vihreät ja migreeniset pinkit, keltaiset ja oranssit. Jäljelle jää silti läjäpäin värejä. Muotimokien minimoimiseksi Arvo suositteleekin pukeutumaan ympärivuotisesti punaiseen haalariin.
Kolme juomaa: Cocktail #moodi #bileet
s a r j a k u v a
ekonurkka Vanha sanomalehti kelpaa… …biojätepussiksi TEKSTI ja KUVAT: Sirpa Myllymäki
T
yyppiarvossa ensimmäistä kertaa ilmestyvä ekonurkka sisältää vinkkejä nykypäivänä ajankohtaisesta aiheesta, kierrätyksestä! Ekonurkka käsittelee arkikäytössä olevia hyödykkeitä ja antaa vinkkejä tuotteen elinkaaren pidentämiseksi. Ensimmäisenä ekotestaukseen pääsee suurimpaan osaan suomalaisista kotitalouksista päivittäin ilmestyvä sanomalehti. Sanomalehti ei tarkoita aikakauslehteä, sillä aikakauslehdessä käytetään väriaineita, jotka eivät sovellu kierrätettäväksi biojätteeksi. Kotitalouksiin ilmestyvä sanomalehti vanhenee päivittäin. Tässä ja seuraavissa numeroissa muutamia vinkkejä, joiden ansiosta kierrätyspaperi vähenee ja myös rahaa säästyy.
26
1 Ota sanomalehdestä 3-4 aukeamaa 2 Taita seuraavaksi sanomalehti ja taita biopussille pitkästä reunasta kolmeen yhtä suureen osaan. 7-10cm vahvikekaitale. Käännä 180°.
3 Pujota osiot lomittain,
4 Taita sanomalehti keskeltä kahtia.
Työnnä biopussin pohja 5 vahvikekaitaleen sisälle.
Avaa lopuksi biopussin suuaukko 6 ja aseta roska-astiaan.
oikeanpuoleinen vasemmanpuoleisen osion ”sisälle” tai päinvastoin.
Eroticum
Samettiset kädet TEKSTI: Regina69
H
issi Exactumin aulasta vei minut ylös, ja kävelin rauhallisin, mutta jännittynein askelein pitkin käytävää. Avasin raskaan teräsoven ja pääsin vihdoin huokaisemaan helpotuksesta. Kumpulan terassi oli tyhjä, aivan kuten tahdoinkin. Halusin hetkeksi pakoon tilastollisen päättelyn johdantokurssin tehtävien kanssa itkeviä taloustieteilijöitä ja matemaatikkoja, jotka anelivat minulta, tilastokuningattarelta, apua lähes polvilteen itkien. Kevään jo oltua Kumpulan kukkulalla pitkällä, vähensin päällysvaatetustani ja suljin silmäni. Aloin haaveilla pian koittavista Moodin kevätbileistä ja valitsin jo mielessäni minkälaiseen vyölaukkuun saunajuomani pakkaisin, kun ovi yllättäen avautui. Vilkaisin ärtyneenä tulijaa; miestä jota en ennen muistanut nähneeni. Hän oli selkeästi ulkomaalaistaustainen, ehkä espanjalainen, ja paidan läpi loistavat hauikset paljastivat epämatemaatikkouden. Hetken ehdin ihmetellä, miten tällainen komea ja jopa haluttava nuorukainen oli Kumpulaan eksynyt, kun hän jo lähtikin kipittämään takaisin sisälle. Ihmettelin, perääntyikö hän oitis himokkaan ilmeeni nähtyään. Tajusin kuitenkin, että itsellänikin oli jo kiire. Idyllisen kampusalueemme poikki kuljettuani ehdin juuri ja juuri Unisportin tarjoamaan Bodypump –jumppaan. Jumppa oli yhtä kamala (eli tehokas) kuin aina, mutta silti aika kului rivakasti tummaa terassimiestä ajatellen. Yritin puistaa ajatukset mielestäni, mutta takamukseni yläilmoihin saattavat jumppaliikkeet eivät varsinaisesti auttaneet miehen valovoimaisen vartalon unohtamisessa. Mieleni teki purkaa paineita aivan eri tavoin kuin viattoman liikunnan parissa. Tangon ja levypainot palautettuani astelin vielä kuntosalin puolelle, jotta välttäisin välit-
tömän ryysiksen naisten pukuhuoneessa. Pistin juoksumattoon vauhtia, kunnes silmäys painonnostopuolelle sai minut melkein lentämään takaseinään. Siinä hän oli, terassimies Unisport –paidassa opastamassa jotakin pyörtymispisteessä olevaa matemaatikkoa painonnoston saloihin! Tuijotin miehen selkäpuolta kuola lähes valuen, ja pian tajusin hänenkin vilkuilevan minua peilin kautta. Intohimoinen silmillä syömiseni alkoi kääntyä jo vähän noloksi, ja kellokin lähestyi jo kymmentä, joten siirryin lähes tyhjentyneestä salista naisten pukuhuoneeseen. Siellä ei ollut ketään, ja päätin riisuuntua ja käydä vielä saunassa, vaikka sulkemisaika lähestyi uhkaavasti. Aivan hiljainen ja hämärä sauna otti minut vastaan hellään hyväilyynsä, ja nyt pystyin kaikessa yksinäisyydessäni vielä täysillä uppoutumaan terassimiehen pehmeän näköisiin käsiin, kullanruskeisiin silmiin ja aaltoileviin lihaksiin. Ajatus vei minut täysillä mennessään. Jonkinlaiseen hurmokseen mentyäni havahduin äkisti saunan oven kovaääniseen avaukseen. - Öh.. Olemme sulkeneet, kerrassaan hämmentyneen näköinen terassimies saa sanottua. Itse haluaisin vajota maan alle ensinnäkin alastomuuteni takia ja toisaaltai siksi, että käteni ei todellakaan ole missään aivan viattomassa paikassa. Häkeltyminen pistää minut sanattomaksi, mutta terassimiehen vaivaannus näyttää muuttuneen kiusoittelevaksi virnistykseksi, eikä hänellä vaikuta olevan aikeita poistua saunasta. - Tässä koko rakennuksessa ei ole enää muita kuin me, hän sanoo hiljaisesti ja pian nuo lempeät kädet silittävät reisiäni ja hiuksiani. Jo pieni härnäys saa hengitykseni kiihtymään ja vartaloni kiemurtelemaan, ja minun on pakko antautua terassimiehen vietäväksi.
Tyyppiarvo
II / 2013
27
www.issuu.com/ www.facebook.com/ blogs.helsinki.fi/moodi-ry/
moodissa
Tuomas Reiterä
Miika Paavola
Tomi Salminen
KUVAT: Heikki Ritaluoma
tilastot
Moodin seitsenottelu
1999 - 2008 ja 2013
Kuvat 7-ottelu 2013
7.7.2013 @ Eläintarhan kenttä
tulokset miehet
1. Tuomas Reiterä 2. Heikki Ritaluoma 3. Tomi Salminen 4. Miika Paavola 5. Tuomo Nieminen 6. Ville Hyvönen 7. Ville Parkkinen 8. Faiz Alsuhail
ME = Moodin ennätys tulos
100 m aidat
ME
korkeushyppy kuulantyöntö 200 m juoksu
pituushyppy
keihäänheitto 800 m juoksu
4805
(1.)
16,0 s 1,60 m 13,07 m 27,2 s 5,01 m 42,78 m 2 min 30,1 s 685 (1.) 736 (3.) 732 (2.) 676 (2.) 562 (2.) 721 (2.) 693
4265
(3.)
17,6 s 1,53 m 14,69 m 26,8 s 5,51 m 29,37m 2 min 58,6 s 510 (2.) 655 ME 840 (1.) 708 (1.) 703 (3.) 465 (7.) 384
3830
(2.)
17,5 s 1,35 m 12,05 m 28,1 s 4,93 m 24,75 m 2 min 31,9 s 516 (5.) 460 (5.) 664 (3.) 604 (4.) 540 (5.) 378 (3.) 693
3827
(4.)
18,6 s 1,35 m 14,31 m 29,4 s 4,52 m 43,36 m 2 min 49,3 s 405 (5.) 460 (2.) 815 (6.) 508 (5.) 433 (1.) 732 (6.) 474
3627
(4.)
18,6 s 1,41 m 10,90 m 28,5 s 4,95 m 25,60 m 2 min 38,2 s 405 (3.) 523 (6.) 589 (4.) 574 (3.) 546 (4.) 394 (5.) 596
3443
(7.)
22,6 s 1,38 m 12,28 m 28,8 s 4,43 m 24,65 m 2 min 20,5 s 110 (4.) 491 (4.) 680 (5.) 551 (6.) 441 (6.) 376 ME 824
2653
(6.)
20,9 s 1,35 m 7,59 m 32,2 s 4,10 m 21,50 m 2 min 35,2 s 215 (5.) 460 (8.) 372 (7.) 325 (7.) 331 (7.) 317 (4.) 632
1990
(8.)
22,8 s 1,29 m 10,49 m 32,7 s 3,12 m 17,46 m 3 min 12,7 s 100 (8.) 399 (7.) 562 (8.) 297 (8.) 128 (8.) 242 (8.) 262
naiset
1. Essi Wikman
932
26,2 s
1,08 m 7,52 m 0 ME 205 ME 368
38,4 s
Ville Hyvönen
Ville
Park k
inen
57
2,81 m
12,02 m 76 ME 142
3 min 40,1 s 84