Page 1

SUOMEN TILASTOLLISESTI MERKITSEVIN JULKAISU | TILASTOTIETEEN OPISKELIJOIDEN LEHTI | I/2016

ANALYYSI N채in syntyi paras Miss Suomi -ennuste s. 16-20

SELVITYS Mik채 oli kaikkien aikojen j채채kiekon MM-turnaus? s. 21-23

ESITTELY Moodin tuutorit s. 8-11


2 | Sisällys

Numeroita

20520 4948 sivunäyttöä oli Tyyppiarvo.comin saldo kevään ja kesän aikana.

on Tuomas Reiterän heinäkuussa tekemä uusi seitsenottelun Moodin ennätys.

317

opiskelijaa haki lukemaan tilastotiedettä Helsingin yliopistoon kevään 2016 yhteishaussa. Viime vuonna vastaava määrä oli 430.

100 63.6 59 2

ihmistä osallistui Moodi ry:n järjestämään dynaamiseen multiexcursioon, Data Science -päivään toukokuussa. oli korkein kerroin, jonka Moodi ry:n jäsen otti kiinni raviexkursiolla. Vedon löi Marianne Laalo. Tyyppiarvo.comissa elokuun alussa julkaistujen artikkeleiden määrä.

Moodin paras sijoitus Unisportin urheilusarjoissa. Kakkostilan saavutti VOO:n ja Moodin yhteisjoukkue FC Jormat futsalissa.

Kalenteri Elokuu

La 20.8. Varaslähtö Fuksisyksyyn Pe 26.8. Moodi-Matrix -talviolympialaiset La 27.8. Kannu Games

Syyskuu

Pe 2.9. Matlun fuksibileet La 3.9. VALTAVA-festarit Ma 5.9. I periodi alkaa. Avajaiskarnevaali & Kannun kaatajaiset To 8.9. Kannun fuksisuunnistus La 10.9. Moodin fuksiaiset To 15.9. Matrixin fuksiaiset La 17.9. Moodin ja VOOn fuksisitsit Pe 23.9. tai la 24.9. Kannun fuksisitsit 26.9. Unisportin jalkapallosarja alkaa, pelit Töölön

Tyyppiarvo I/2016, 101. numero. Päätoimittaja Aapeli Nevala aapeli.nevala@helsinki.fi Uutispäällikkö Tuomo Nieminen Logo Heikki Ritaluoma Taitto Aapeli Nevala

jalkapallokentällä. Ke 28.9. HYY:n Fuksiseikkailu

Lokakuu

5.10. Unisportin salibandysarja alkaa, pelit Kumpulassa. Limeksen Appro. Ke 12.10. Fuksiravit 24.-30.10. Tenttiviikko 28.10. Unisportin futsalsarja alkaa, pelit Kumpulassa. La-Ma 29.10.-31.10. Kumpulan järjestöjen yhteisristeily (KJYR) Ma 31.10. II periodi alkaa.

Marraskuu

Su 27.11. Moodi-Matrix -yhteissitsit

Joulukuu

Ma 5.12. Moodin pikkujoulut 19.12.-23.12. Tenttiviikko.

Kansikuva Tapani Linnaluoto Paino Picaset Oy Verkossa www.tyyppiarvo.com facebook.com/tyyppiarvo

Lehti saa HYY:n järjestölehtitukea.


Sisällys | 3

Sisällys

2 3 5 6­-7 7-11 12-15

Numerot, Moodi ry:n syksyn ohjelmaa. Kuvia, sisällys. Puheenjohtaja Tommi Mäklinin puheenvuoro. Pääkirjoitus, Aapeli Nevala.

Petteri Mäntymaa ja Veera Nenonen tapasivat hevosen Moodin raviexursion tallikierroksella.

Moodin tuutorit esittelyssä Kaikki ja enemmän, mitä olet ikinä halunnut tietää Alexander Stubbin twitteristä

16-20 21-23 24-25 26-27 28 29 30-31 32

Tuomo Niemisen matka kvantitatiivisen kauneuden ytimeen.

Joni Oksanen (vas. alh.), Santeri Mikkonen (vas.), Patrik Lauha (oik. ylh.) ja Markus Lauha ja Kannun sählyturnauksen mestaruus.

Pitäisikö jääkiekon MM-kulta 1995 jo unohtaa? Tilastotiede hävisi kurkulle. MoPSi ­— Mitä ensi kaudesta sopii odottaa? Liity mukaan Tyyppiarvo-tiimiin!

Sebastian Veijola debytoi laulunjohtajana Moodin synttärisitseillä

Opintopalsta, Iso pyörä keeps on rolling Tyyppi kysyy, Arvo vastaa. Kuukauden sivut. Tilasto-suomitilasto-sanakirja

Moodin pokeriturnaus veti Weberiin yli 20 ihmistä. Turnaus päättyi nöyryytykseen, kun sen voitti lopulta taloustieteilijä Kimmo Nevanlinna.


Suomen Tilastoseuraan kannattaa liittyä jo opiskeluaikana, etenkin jos alkaa tuntua siltä, että tavoittelee tilastotieteilijän uraa.

Hyvässä seurassa on mukava verkostoitua! Vuosittain yksi hallituksen jäsenistä valitaan tilastotieteen opiskelijoiden keskuudesta.

Tarkempia TieToja kotisivuiltamme www.tilastoseura.fi ja hallituksen jäseniltä.


Pääkirjoitus | 5

Johtajan sana Tommi Mäklin on Moodi ry:n puheenjohtaja, joka ihailee harhaisia diktaattoreja ja harrastaa missien mallintamista.

P

rinttimedian kuolemasta lienee keskustel- ajatuksia. Kieli poskessa tehdyllä jutulla saattaa tu koko kuluvan vuosituhannen ajan, joten myös saada ajatuksiaan näkyviin siihen epäpäätimmekin vuoden alussa viimein siirtää määräiseen toisin ajattelevaan somekuplaan. Tyyppiarvon lähes kokonaan e-julkaisuksi. Tilastotieteilijän koulutus antaa oivat mahInternetissä julkaiseminen mahdollistaa ajan- dollisuudet tarkastella yhteiskunnan ilmiöitä kohtaisempien juttujen ja tilastollisesti merkit- kriittisesti omasta ja muiden näkökulmasta. sevien kannanottojen levittämisen 24/7-yhNykyisessä mediassa osaava ja hyvin esitetty teiskunnassa sekä pienen ainejärjestölehden tilastollinen tahi tieteellinen näkökulma tuntuu yleisön hetkittäisen moninkerpuuttuvan. Liian usein pelkkä fiitaistumisen. likseen ja faktojen sopivaan valikoiToivottavasti Vuoden puolikkaan aikana miseen perustuva öyhötys nostevuosi 2016 olemme onnistuneet pääsemään taan tasavertaiseksi huolellisten ja niin silloisen valtiovarainmiperusteltujen mielipiteiden rinnalle. muistetaan nisterin Twitteriin kuin maan tulevaisuudessa vain Harhaluulojen kumoamiseen uskoisuurimman lehden pääkirjoituksin Tyyppiarvolla ja Moodin opiskeomasta puheenseen. Moodilaisten erinomainen lijoilla olevan mainiot valmiudet. johtajakaudestani. tilastojournalismi olisi luultavasti jäänyt vain pieneen opisyksy tulee tuskin kuitenkaan kelijapiiriin ilman helmikuussa tapahtunutta olemaan pelkkää journalistyyppiarvo.com-sivuston avausta. min kulta-aikaa ja yliopiston elämä jatkuu entiseen malliinsa opintoineen ja ieniä huumorimielellä kirjoitettuja, mutta bileineen. ripauksella aitoa kiinnostusta ja oivaltavaa Moodi pyrkii tänäkin syksynä ottamaan mallinnusta tehtyjä juttuja kaivataan nyt, toimintaansa mukaan innokkaat fuksit, joikun päivä päivältä maailma tuntuu taas meneden joukossa myös viimeiset valtiotieteellisen vän surullisempaan ja hullumpaan suuntaan. tiedekunnan puolella tilastotieteen opiskelunsa Toki toivottavasti vuosi 2016 muistetaan aloittavat opiskelijat. tulevaisuudessa vain omasta puheenjohtajaTehdään siis yhdessä tulevasta syksystä kaudestani, mutta hyvällä maulla tehty nokkela vähintään yhtä onnistunut kuin kuluneesta huumori piristää silti päivää ja herättää myös keväästä!

S

P


6 | Pääkirjoitus

Lopetetaan tilastotieteestä puhuminen Aapeli Nevala on Tyyppiarvon päätoimittaja, entinen toimittaja ja narsistinen some-hahmo (@AapeliNevala), joka ei pelkää soveltaa todennäköisyyslaskentaa Temptation Islandin iltanuotion tapahtumiin.

O

lin ensitöikseni Tyyppiarvon päätoimittajana juttelemassa Kimmo Vehkalahden kanssa Suomen ensimmäisestä tilastotieteen MOOC-kurssista. Keskustelu oli antoisa niin kauan, kun pysyimme poissa aiheesta. Ei siksi, että MOOC-kurssissa olisi vikaa, mutta juttuaiheeni oli kamala. Tilastotiede on nostanut jossain määrin profiiliaan lähivuosina. Ainakin mediassa esiintyy epäsäännöllisesti spekulaatioita, miten hyödyllistä ja hauskaa tilastotiedettä ja tilastollista ajattelua pitäisi tuoda milloin lukioon, milloin peruskouluun. Päiväkodeissa pärjätään vielä toistaiseksi ilman log-uskottavuusfunktiota, mutta sekin tullee vielä muuttumaan. Tunnen usein henkilökohtaisesti tarvetta valistaa ihmisiä tilastollisen ajattelun hienoudesta. Outoa on, että jos joku asia on niin hyödyllistä ja hauskaa (ja vielä työllistävää ja kilpailukykyisesti palkattua), miksi sitä opiskellaan lukiossa yhä vain yksi kurssi, ja Helsingin yliopistoonkin pääsee käytännössä kirjoittamalla pitkästä matematiikasta magnan?

V

aihtoehtoja on (ainakin) kaksi. Joko tilastotiede ei ole kaikkea tätä, tai sen kiinnostavuuden osoittaminen

Päiväkodeissa pärjätään vielä toistaiseksi ilman log-uskottavuusfunktioita, mutta sekin tullee muuttumaan.

jää puheen tasolle. Kieltäydyn uskomasta ensimmäiseen, joten keskitytään vaihtoehtoon 2. Poistuessani Vehkalahden työhuoneesta, tajusin juttuideani perimmäisen ongelman: miksi joku haluaisi kuulla tilastotieteen olevan hyödyllistä ja kiinnostavaa? Vaikka joku asia olisi tätä, siitä kuuleminen on maailman vähiten kiinnostava asia: kysykää vaikka kaikilta maailman ihmisiltä, joilla on cross-fitiä harrastava kaveri. Silti olin vaivautunut pienen lehtiön kanssa keskustakampukselle asti, jotta voisin vakuuttavammin kertoa tilastotieteen olevan mielenkiintoista.

J

otta tilastotieteen brändi saataisiin seuraavalle tasolle, eli puheesta (= “hei, tämä tilastotiede on hyödyllinen juttu!”) tekoihin (= “hei, laitetaan tänne opetussuunnitelmaan lisää tilastotiedettä” tai “taidan hakea yliopistoon lukemaan tilastotiedettä”), ihmisten pitää nähdä sen


Pääkirjoitus | 7

Tilastotieteen pitää tulla akateemisesta kaapista ulos: viihteellisyyttä ei saa ylenkastoa, vaan metodeja pitää soveltaa tosissaan kevyempiin aiheisiin.

hyödyllisyys. Kuuleminen ei riitä, ymmolempiin: siinä missä biologia kertoo märtää ei tarvitse: näkeminen riittää. elämästä ja fysiikka olevan syvimmästä En usko, että MOOC-kurssilta kävelee olemuksesta, antaa tilastotiede työkalut ulos juurikaan ihmisiä, jotka epäilisivät jokaisen elämässä jatkuvasti ilmenevän tilastotieteen hyödyllisyyttä. Massiivinen satunnaisuuden käsittelyyn. Se on hyvä johdantokurssi nimenomaan näyttää sadoi- lähtökohta vähintään uskotella, että tämä lle, toivottavasti joskus tuhansille, ihmisille, on kova juttu. miksi tilastotiede on hyvä. Mutta se vaatii tekoja. Jotta puhe kaikKuitenkin tilastotiedettä voidaan keen soveltuvasta tilastotieteestä olisi näyttää myös niille ihmisille, joita se ei uskottavaa, pitää sitä oikeasti kokeilla lähtökohtaisesti kiinnosta edes johdakaikkeen. Ja “kaikki” ei tässä yhteydessä tokurssille ilmoittautarkoita kvanttifysiikkaa, tumisen vertaa. Se tapsolubiologiaa ja maahOllakseen oikeasti ahtuu tutkimalla asioita, anmuuttokysymyksiä, kiinnostavaa, jotka ihmisiä kiinnostavat. ennemminkin missikisoja, Tilastotieteen pitää tulla jääkiekkoa ja optimaalisen tieteenalan pitää akateemisesta kaapista juhliin saapumisajan estivastata joko hyvin ulos: viihteellisyyttä ei saa mointia. ylenkastoa, vaan tilastotie- konkreettisiin arjen Tietenkin pyrkimyksen asioihin tai elämän dettä pitää pyrkiä sovelpitää olla totuus, ja varovaitamaan myös kevyempiin suutta pitää noudattaa. perimmäisiin aiheisiin, kuitenkin tosisMitä vakavampi aihe, kysymyksiin. saan. Se on ollut Tyyppiarsitä suurempi kunnianvon tavoite koko alkuvuohimo — kuuden tunnin den. valmistelun jälkeen saatu logistinen regressiomalli ei llakseen oikeasti kiinnostavaa, voi mullistaa modernia lääketiedettä. Silti tieteenalan pitää vastata joko hyvin lähtökohdan pitää olla “kaikki saattaa olla konkreettisiin arjen asioihin tai mahdollista”. elämän perimmäisiin kysymyksiin. On aika lopettaa tilastotieteestä puhumiTilastotieteellä on loistava mahdollisuus nen.

O


8 | Haastattelu

Fuksi: näihin ihmisiin sinun pitäisi luottaa Esittely: Tyyppiarvon piinapenkissä itsestään kertovat Moodin tuutorit. Jenny Kumpula

J

enny Kumpula, 21, on toisen vuoden opiskelija, Kumpulan kampuksen nimikkotilastotieteilijä ja ainoa Moodin Palloseurassa (2 ottelua) viime kaudella pelannut nainen. Matemaattisluonnontieteellisen kampuksen kaiman tavoite onkin raahata seuraavalla kaudella ainakin toinen naispelaaja mukaan. - Olen pelannut aikaisemmin säbää, joten tiesin, etten ole ihan susipaska. Tavoitteena on ehdottomasti raahata sinne ainakin yksi muija mun mukana - helpompi lähteä, jos tietää, ettei tarvitse ainoana olla siellä. Jenny opiskelee tilastotieteen lisäksi viittomakielen tulkiksi. Miten

Santeri Mikkonen

S

anteri Mikkonen, 21, on Moodin tuutoreista epäilyttävin, sillä hän ei ole facebookissa. Ja se on todella epäilyttävää. Syntyjään vantaalainen (Helsingin mlk) toisen vuoden tilastotieteen opiskelija ryhtyi tuutoriksi, koska haluaa elää fuksisyksynsä uudelleen. Mikkonen on lupautunut antamaan fukseille kaikkensa. ­- Annan vaikka maksani.

kaksi näin erilaista alaa sopivat yhteen? - Vaikeasti. Ehkä voisin ottaa vielä yhden sivuaineen ja opiskella vammaistutkimusta. Silloin voisin saada tehtyä kandin ja opparin samasta aiheesta. Miten kukaan päätyy kahdelle noin erilaiselle alalle? - En ole koskaan ollut supitää oman fuksiperhyvä vuotensa suurimmissään, pana saavutuksena joten en raja-arvojen ja ole osandifferentiaalilaskennut valita. nan läpäisemistä ja Tilastolla heikompana hetkenä olen oikeashuonoa raja-arvotaan siksi, tuntemusta vessassa että yritän Moodi-Matrix-sitseilpsykologiklä. si. - Know your limits, Jenny hän sanoo.


Haastattelu | 9

Lupaan hengata aina päätyyn asti. - Lisäksi haluan opettaa fukseille kuinka tasapainoilla koulun ja hauskanpidon välillä. Itse olen epäonnistunut tässä surkeasti, mutta ehkä he ovat viisaampia. Käykää laskareissa, vaikka olisi miten paha darra ja väsy. Mikkonen harrastaa sipsejä ja Netflixiä. Santeri tunnetaan myös Moodin Palloseuran pehmeäkätisenä salibandypuolustajana ja puujalkaisena

futarina, jolla on poikkeuksellisen leveät pohkeet. - Jos olisin Tinder-treffeillä, kertoisin olevani joku palomies, joka hoitaa löytökoiria ja -kissoja vapaaehtoisesti. En tosin ole Tinderissäkään, joten en tiedä yhtään, mitä siellä yleensä puhutaan.

Teksti: Aapeli Nevala Kuvat: Tapani Linnaluoto

Johanna Tuhkanen

T

oisen vuoden tilastolainen Johanna Tuhkanen, 26, tuli Helsingin yliopistoon alunperin lukemaan oikeustiedettä. Hän saa kyllästymiseen asti kuulla alanvaihdostaan, joten miksemme kysyisi siitä vielä kertaalleen? - Miksi opiskella oikeustiedettä kun voi opiskella tilastotiedettä? Jos asia olisi toisinpäin, eli olisin vaihtanut tilaston oikeustieteeseen, sitä tuskin ihmeteltäisiin. Tietyt koulut ovat jostain syystä arvostettuja yhteiskunnassa, mutta mielestäni tulisi lukea sitä mistä on kiinnostunut, Johanna sanoo. - Kaikille oikikseen vuosia sisään yrittäneille lohdutukseksi: pääsin oikikseen vasta tehtyäni oikaisupyynnön, joten en ainakaan vienyt heidän paikkaansa. Johanna on hyvään pyrkivä ekologinen ihminen, joka lomailee mielellään Lapissa metsässä netin tavoittamattomissa, mutta hänellä on yllättävä, salainen pahe. - Moni ei ehkä arvaisi, mutta tapanani on katsoa kaikenlaisia hienoja sarjoja telkkarista,

kuten Temptation Island ja Paratiisihotelli Ruotsi. Fuksivuoden suurimpina saavutuksinaan Johanna pitää paria vitosta tilastotieteen perusopinnoista, mutta ennen kaikkea... - Uusien asioiden oppiminen ja hienoihin ihmisiin tutustuminen on ennemmin suurin onnistuminen.


10 | Haastattelu

Katja Laine

K

atja Laine, 25, on kolmannen vuoden tilastotieteen opiskelija ja Moodin konkarituutori, joka ei edelleenkään saa fuksivuodesta tarpeekseen. Nyt valtiotieteellisen tiedekunnan tuutorivastaavana Laine elää jo kolmatta fuksisyksyään. - Fuksisyksy on niin kivaa ja jännittävää aikaa että haluan päästä kokemaan sen taas uudestaan, ja mikä parasta pääsen tutustumaan uusiin opiskelijoihin heti syksyn alussa. Katjalla on lukuisia erityisominaisuuksia. Hänet tunnetaan kovaäänisenä röyhtäilijänä (“maailmanennätys on 107,1 dB, eli jotain sitä luok-

Sofia Lahdensuo

M

oodin saatua oman huoneen, Survomon, Exactumin alakertaan on ainejärjestö jakautunut käytännössä kahdenlaisiin ihmisiin: niihin, jotka tekevät laskareita kolmoskerroksessa, ja niihin, jotka tekevät niitä Survomossa. Sofia Lahdensuo, 21, on niittänyt mainetta harvinaisena tapauksena, joka tekee molemmissa. - Yleensä molemmissa on hyvä laskea ja apua saa helposti. Joskus Survomossa voi olla vaikeampi keskittyä, mutta toisaalta sieltä on lyhyempi matka hakea ruokaa. Itse tykkään tehdä laskareita molemmissa paikoissa, miksi

kaa”) ja taitavana kaatamaan juomia tarkasti tasan. Lisäksi Katjan kanssa vessakäynteihin ei mene aikaa hukkaan, mikä kannattaa pitää erilaisissa fuksitapahtumissa mielessä. - Olen supernopea käymään vessassa ja tosi hyvä löytämään vessapaikkoja mistä vaan! Jos lähtee mun kanssa ulos, ei tarvi ainakaan odotella kauaa, jos menen vessaan. Katjan osallistui omana fuksivuonnaan lukuisiin tapahtumiin ja suosittelee tätä myös uusille opiskelijoille. - Olen tosi iloinen, että lähdin rohkeasti kaikkiin tapahtumiin ja ainejärjestötoimintaan mukaan ja tutustuin uusiin ihmisiin.

melkein kaikki muut laskevat vain toisessa paikassa? Sofian toinen outo tapa on leivästä reunojen syöminen ensin. - Myös ruisleivästä ja muusta ’’reunattomasta’’ leivästä. Muuten Sofia on normaali. Sofia on kotoisin Pirkkalasta, joka tunnetaan lähinnä viereisestä Tampereesta. Kaupungin ykkösjulkkis on Ransu-koira, jonka mukaan on nimetty leikkipuisto. Helsinkiin Sofian sai nimenomaan tilastotiede. - Halusin opiskelemaan toiseen kaupunkiin, mielellään isompaan kuin Tampere. Vaihtoehtoja ei jäänyt ihan hirveän paljoa. Yksi syy oli myös se, että Tampereel-

- Suurin epäonnistuminen oli ehkä se että laiskottelin liikaa opintojen suhteen. Nyt vähän ärsyttää, kun on edelleen fuksikurssi linis 2 suorittamatta.

la olisi pitänyt hakea yhdessä matematiikalle ja tilastotieteelle, tänne kun pystyi hakemaan pelkästään tilastotieteelle. Vuoden opiskelun jälkeen Sofia pitää suurimpana onnistumisenaan sitä, että opiskelee nimenomaan tilastotiedettä. - Ylipäätään sitä, että olen tämän vuoden aikana todennut opiskelevani itselleni oikeaa alaa.


Haastattelu | 11

Joni Oksanen

J

oni Oksanen on 20-vuotias helsinkiläinen toisen vuoden tilastotieteen opiskelija, mutta myös Moodi ry:n taloudenhoitaja, tuutori, Valtsikan hallopedi, kandityöryhmän jäsen, Data science 2016 -päivän pääjärjestäjä, fuksitoimikunnan taloudenhoitaja ja Kannunvalajat ry:n virkailija Vielä syksyllä kaikki näytti rauhalliselta, mutta keväällä Oksasen piti jo harkita yöunista vähentämistä, kaukoidän zen-terapioita tai Puistolan asemalta ostettuja piristeitä, jotta kaikki järjestöasiat tulisi-

Daniel Kari

D

aniel Kari, 20, on matemaattisluonnontieteellisen tiedekunnan tuutorivastaava ja 2. tai 3. vuoden tilastotieteen opiskelija ­— miten sen nyt haluaa ottaa. Armeijan takia fuksivuotensa keskeyttänyt Daniel sai niin

vat hoidetuiksi. Joni, lupaatko, ettei yksikään fuksi ole toukokuussa burnoutissa järjestämässä yhdeksää eri tapahtumaa? - Tärkeämpää kuin löytää Data science -päivälle pääjärjestäjä, on löytää Moodille taloudenhoitaja. Eli olet tuutorina rekrytoimassa? - Kyllä. - Järjestötoimintaa suosittelisin kenelle tahansa, löytyy tehtäviä missä pääsee tekemään paljon, mutta myös tehtäviä, joissa saa tehdä sen verran kuin itse haluaa tai ehtii. Varsinkin fuksivuonna järjestötoiminnan kautta tutustuu ihmisiin ja sinut muistetaan jopa nimeltä, eikä pelkästään “sinä jäbänä joka oli niis bileis”. Kuulostaa siltä, ettet ole vieläkään oppinut virheistäsi. - Toki jossain määrin pitää pysähtyä ja katsoa kaveria silmiin, että miten saadaan omakin opintomenestys nousuun.

sanotut “government intervention” -traumat, joita hän nyt hoitaa toistamalla fuksisyksyään ja äänestämällä republikaaneja. Tai ainakin toistamalla fuksisyksyään. Ensi vuonna uudestaan? - One more year, Kari lupailee. Daniel tunnetaan Moodissa tavastaan maata Survomon

sohvalla soittamassa jääkiekko-otteluiden erätaukomusiikkia. Olisiko ensi vuona aika uudistaa soittolistaa? - Ehkä EDM-klassikko on vihdoin aika tehdä tunnetuks, hän spekuloi. Daniel pitää omien fuksisyksyjensä ykkös saavutuksena Moodi Edustuksen upeaa voittoa Matrixin fuksisuunnistuksessa, suurimpana virheenä taas asuvalintaa fuksisitseillä. - Kokoa liian suuri puku, jossa oli housuissa reikä sekä ei-puvunkengät. - Mutta selvisin. Tosin Kannun fuksisitseille piti hankkia uusi puku ja kengät. Opetus: rahalla selviää.


12 | Tilastotiede

Kannanottoja ja kokoomustsemppiä Sosiaalinen media: Alexander Stubbin Twitteristä puhutaan paljon, mutta millaisia entisen Kokoomuspuheenjohtajan twiitit todella ovat? Tyyppiarvo selvitti vastauksen tutkimalla 1740 Stubbin viestiä. Tuomo Nieminen, teksti, analyysi ja kuvaajat Heikki Ritaluoma, grafiikka


Tilastotiede | 13

K

aikki tietävät, että Aleksander Stubb twiittaa paljon. Itseasiassa entisen ministerin twiitit ovat niin paljon esillä perinteisessäkin mediassa, että twitterin ulkopuolinenkin tietää jotain niiden sisällöstä. “Good raw porridge, good morning session with wattbike”, “Kokoomus on rohkeutta laittaa itsensä likoon, joka ainoa päivä”, ja niin edelleen. Halusin tietää lisää Stubbin twiiteistä. Milloin ja mistä aiheista Stubb twiittaa? Kuinka suosittuja twiitit ovat? Pikaisen R-ohjelmiston parissa haxeroin-

Milloin ja mistä aiheista Stubb twiittaa? Kuinka suosittuja twiitit ovat? nin jälkeen hallussani oli 1740 Stubbin twiittiä ajalta 14.2.2015 – 19.2.2016. Tämä vastaa noin viiden twiitin päivätahtia.

A

loitetaan ajankohdasta: milloin Stubb twiittaa? Stubb on twitterissä melko aamuvirkku, mutta twiittejä lähtee tasaisesti pitkin

päivää. Aktiivisista twiittausaikaa on 06:00 – 22:00. Eniten twiittejä Stubb lähettää aamulla seitsemän ja kahdeksan välissä: hieman yli 18% Stubbin twii-teistä on lähetetty ennen kello kahdeksaa. Jotkut päivät ovat selvästi aktiivisempia kuin toiset. Viime vuoden joulukuussa Stubb twiittasi yhden päivän aikana yli neljäkymmentä kertaa jonkinlaista tajunnanvirtaa kokoomuksen syvimmästä olemuksesta. Myöhemmin kävi ilmi, että kyseessä oli Stubbin pitämä puhe, josta tämän avustaja


14 | Tilastotiede

Viiksilaatikkokuvat eri aiheiden twiittien suosiosta. Kokoomus-tsemppi -kategoriassa on vähän posiitivisia outliereita. Mediaanit hyvin lähellä toisiaan.

Stubbin eniten käyttämät hashtagit.

twiittasi 140 merkin katkelmia. Aineisto näyttää, että tuo päivä 16.12.2015 oli harvinainen, muttei täysin ainutlaatuinen. Stubb twiittasi myös eduskuntavaaleja edeltävänä päivänä 18.4.2015 kolmekymmentäkuusi kertaa. Vaaleja edeltäneinä kuukausina Stubb oli poikkeuksellisen aktiivinen: Alex twiittasi noin kolme kertaa enemmän helmija maaliskuussa 2015, kuin sen jälkeisinä kuukausina. #vaalit2015 on myös yksi Stubbin käytetyimmistä hashtageista.

T

arkastelemalla käytetyimpiä hashtageja on selvää, että Stubbin twiittien sisältö on poliittista. Twiittejä

Erottelin aineistosta suomenkieliset twiitit ja jaoin ne neljään aiheeseen: “Kannanottoja”, “Suomi nousuun”, “Kokoomus-tsemppi” ja “Kansanviestit”.

ja hastageja on suomen lisäksi myös paljon englanniksi. Hashtagit antavat osviittaa twiittien aiheista, mutta eivät kuitenkaan paljasta niiden todellista sisältöä. Turvauduin tässä vaiheessa tilastollisiin menetelmiin. Erottelin aineistosta suomenkieliset

twiitit ja jaoin ne neljään aiheeseen käyttäen aihemallinnusta: “Kannanottoja”, “Suomi nousuun”, “Kokoomus-tsemppi” ja “Kansanviestit”. Aihemallinnus (topic modelling) on tilastollinen menetelmä, jossa tarkasteltavana yksikkönä ovat sanat ja menetelmän ideana on, että saman aiheen sanat esiintyvät erillään muiden aiheiden sanoista. Kun sanat on jaettu aiheisiin voidaan palata tarkastelemaan alkuperäisiä dokumentteja, eli tässä tapauksessa twiittejä. Mikäli halutaan valita kullekin twiitille yksi aihe, on luonnollinen valinta se aihe, mistä suurin osa twiitin sanoista on.


Tilastotiede | 15 Aihemallinnuksen soveltaminen on mielenkiinoista, mutta tällä hetkellä Stubbin twitteriä kuvaa parhaiten yksinkertaisempi menetelmä: Stubbin käytetyimmät suomenkieliset sanat.

A

iheiden lukumäärä (4) oli kokeiluihin perustuva subjektiivinen valinta. Etukäteen oletin mallin selkeästi kykenevän erottelemaan henkilökohtaisemmat, esimerkiksi harrastuksia käsittelevät twiitit poliittisista viesteistä. Näin ei kuitenkaan käynyt. Kaikista aiheista löytyy twiittejä tasaisesti. Riippuuko suosio aiheesta? Mittasin suosiota retwiittien ja suosikki-painallusten yhteismäärällä. Kokoomus-tsempillä on alhaisin keskimääräinen suosio, mikä johtuu positiivisten outliereiden puutteesta. Toisin sanoen muissa aiheissa esiintyi supersuosittuja twiittejä. Aiheella ei kuitenkaan ole vaikutusta

keskimääräiseen suosioon. Tilastollisen analyysin perusteella ainoa tekijä, jonka havaittu vaikutus keskisuosioon

Ainoa tekijä, jonka havaittu vaikutus keskisuosioon johtuu hyvin pienellä todennäköisyydellä sattumasta oli, onko twiitti vastaus jollekin toiselle käyttäjälle vai ei. johtuu hyvin pienellä todennäköisyydellä sattumasta oli se, onko twiitti vastaus jollekin toiselle käyttäjälle vai ei. Vas-

taustwiitittien suosio oli paljon alhaisempaa verrattuna ei-vastauksiin. Voidaan kuitenkin spekuloida sillä, onko aiheella vaikutusta twiitin riskiin tulla supersuosituksi. Kansanviestit on ainoa kategoria, josta löytyy yli tuhannen suosiopisteen twiittejä (2 kpl). Huikealla yli 1869 suosipisteellä johtoasemassa on twiitti, jonka Stubb kirjoitti mielenosoittajan heitettyä tämän päälle nestettä Tampereella. “Saa haastaa. Saa vaatia perusteluita. Saa olla eri mieltä. Kunnioitetaan kuitenkin toistemme koskemattomuutta. Hoidetaan asiat puhumalla.” - Alexander Stubb 30.11.2015 klo 17:14


16 | Tilastotiede

Miss Suomi -ehdokkaat juhlapuvuissa Rantasalmen Järvisydämellä. Kuva: Nadi Hammouda/Miss Suomen kuvapankki.

Kuka on heistä kaikkein kaunein? Miss Suomi: Tyyppiarvo esitti keväällä 2016 haasteen, jossa tavoitteena oli ennustaa Miss Suomi kilpailun kolmen kärki ja voittaja. Tätä varten kerättiin kattava missitietokanta, joka paljastettiin kaksi viikkoa ennen finaalia. Tämä artikkeli kertoo, miten haasteen voittajaennuste rakentui.


Tilastotiede | 17

Kilpailijat poseeraamassa hippilookissa Turkin Alanyassa. Kuva: Nadi Hammouda/Miss Suomen kuvapankki.

Miss Suomi -voittaja Shirly Karvisen denim-look. Kuva: Nadi Hammouda/Miss Suomen kuvapankki.

Tuomo Nieminen, missihaaste sisälsi toimituksen teksti ja analyysi keräämiä tietoa edellisten ja nykyisen vuoden kilpailijoista yyppiarvon missiennus- 64x64 harmaansävykuvina. tushaaste tarjosi upean tilaisuudeen päästä soKuvat tarjosivat veltamaan nykyaikaisia tilastodella suuren tollisia menetelmiä. Tarjolla oli uniikki aineisto kauneuskilpaimäärän numeerista lijoiden kasvokuvia ja mennei- informaatiota den kilpaluiden tuloksia. ehdokkaista, sillä kuvat Digitaaliset kuvat ovat liittivät jokaiseen esimerkki kenties yllättävästä numeerisen datan lähteestä. kilpailijaan 64x64 = Kuvat esitetään yleensä ne4096 muuttujaa. likulmiona ja ne koostuvat pienistä pisteistä, joiden väri Suhteellisen heikosta resovoidaan yksinkertaisimmassa tapauksissa kuvata yhdellä nu- luutiosta huolimatta kuvat tarmerolla, värikuvan tapaukses- josivat todella suuren määrän numeerista informaatiota ehsa kolmella numerolla (RGB). dokkaista, sillä kuvat liittivät Tyyppiarvon kevään 2016

jokaiseen kilpailijaan 64x64 = 4096 muuttujaa. Näiden lisäksi haasteen mukana toimitettuun datasettiin kuului tietoja kilpalijoiden kriittisistä mitoista, iästä ja asuinpaikasta - kymmenisen muuttujaa lisää. Varsinainen kiinnostuksen kohde, eli kilpailijoiden sijoitukset, löytyi tietysti myös.

T

P

erinteiset tilastolliset menetelmät on lähtökohtaisesti suunniteltu tilanteisiin, joissa havaintoyksiköitä (kilpailija) on suhteellisen pieni määrä ja muuttujia vielä vähemmän. Havaintoyksiköiden määrän kasvaminen ei useimmiten aiheuta ongelmia (päinvastoin), mutta muuttu-


18 | Tilastotiede

Shirly Karvinen ennen tilastotieteellistä käsittelyä. Kuva: Nadi Hammouda/Miss Suomen kuvapankki.

jien määrän kasvaminen on yleensä ongelma. Yleisimmin käytössä olevat menetelmät eivät ole suunniteltu tilanteisiin, joissa muuttujien lukumäärä on lähellä havaintojen lukumäärää, saati sitten suurempi. Missihaastessa havaintoja oli vain kymmeniä ja muuttujia yli neljä tuhatta. Hyvän ennustuksen tekemiseen tarvittiin luovia ja nykyaikaisia ratkaisuja. Miksi muuttujien suuri määrä sitten on ongelma ja mikä on perinteisten menetelmien heikkous? Voisi sanoa, että se on ahneus. Käytetyimmät

Miksi muuttujien suuri määrä sitten on ongelma ja mikä on perinteisten menetelmien heikkous? Voisi sanoa, että se on ahneus. menetelmät on suunniteltu maksimoimaan selittämisvoima niille syötetyn havaintoaineiston suhteen. Tämä kuulostaa tietenkin lähtökohtaisesti hyvältä. Mutta silloin kun muuttujia - eli mahdollisia se-

Shirly Karvinen esitettynä pääkomponenttianalyysin avulla. Käytettyjen komponenttien lukumäärä vasemmalta yl-

littäjiä - on paljon, muodostuu ongelmaksi ylimallintaminen (overfitting).

M

issikilpailussa tavoitteena oli käyttää hyväksi menneiden ja nykyisen vuoden kilpailijoiden kuvia ja muita tietoja ja ennustaa kolmen kärki ja voittaja. Yksi tapa lähestyä asiaa on muodostaa jokaiselle kilpailijalle todennäköisyys päästä kolmen parhaan joukkoon. Tällaisen ongelman ratkaisemiseksi käytetään perinteisesti logistista regressiota, joka on paljon käytetty


Tilastotiede | 19

Tyyppiarvon oppitunti:

Ylimallintaminen

häältä: 4096 (kaikki), 85, 25, 5. 85 pääkomponenttia riitti selittämään 99% missikuvien vaihtelusta.

sovellus lineaarisesta mallista. Logistisen regression avulla voidaan tuottaa halutut todennäköisyydet kuulua yhteen kahdesta luokasta. Ylimallintamisen takia menetelmää ei kuitenkaan voinut suoraan soveltaa missiaineistoon. Mahdollisia selittäjiä oli aivan liikaa; malli saattaisi esimerkiksi todeta, että musta piste kuvakoordinaatissa (5, 10) merkitsee varmaa voittoa. Liian monen selittäjän ongelman pystyi kuitenkin missikilpailun tapauksessa ratkaisemaan neljässä vaiheessa:

1

Tiivistetään missien kuvista saatu olennainen informaatio pienempään ulottuvuuteen.

2

Muodostetaan logistinen regressiomalli, mutta pakotetaan osa selittäjien painoista nollaan, poistaen selittäjät mallista.

3

Tehdään vaiheet 1-2 usealla eri tavalla ja valitaan parhaat 20%.

4

Keskiarvoistetaan parhaiden mallien tuottamat ennusteet.

Vaihe yksi suoritettiin tekemällä pääkomponenttianalyysi (principal component analysis, PCA). Tämä on lineaarialgebran menetelmä, jossa matriisi hajoitetaan osiin, jotka voidaan sitten järjestää tärkeyden mukaan ja valita tärkeimmät. Vaihe kaksi suoritettiin sovittamalla logistinen regressiomalli käyttäen l1-regularisaatioa. Tässä menetelmässä sopivat painot etsitään sillä lisäyksellä, että nollasta poikkeavien painojen käytöstä rangaistaan. Näin suositaan yksinkertaisempia malleja.


20 | Tilastotiede

Vuoden 2016 Miss Suomi -kilpailijoiden todennäköisyydet päästä kärkikolmikkoon l1-regularisoitujen logististen regressiomallien ensemblen mukaan.

Kolmannessa vaiheessa parhaat mallit valittiin yksi-pois ristiinvalidoinnin avulla (leave-one-out cross-validation). Ristiinvalidointi on ehkäpä yksi tärkeimmistä menetelmistä, mitä tietojenkäsittelyn puolelta on tuotu mukaan tilastotieteen piiriin. Ideana on arvioida mallin hyvyys sen perusteella, miten hyvin se kykenee ennustamaan tuntematonta aineistoa. Tällöin koko aineistoa ei koskaan käytetä mallin etsimiseen. Yksi-pois -menetelmässä jätetään aina vuorolla yksi havainnoista pois ja arvioidaan, kuinka hyvin muiden havaintojen pohjalta etsitty malli ennustaa pois jätettyä havaintoa. Näin voidaan arvioida erilais-

Ristiinvalidointi on yksi tärkeimmistä menetelmistä, joita tietojenkäsittelystä on tuotu tilastotieteeseen. ten mallien hyvyyttä hyvin konreettisesti. Neljännessä vaiheessa parhaiden mallien ennusteet yhdistettiin. Tätä sanotaan ensemblen muodostamiseksi. Yleensä se tarkoittaa usean erilaisen mallin tulosten yhdistämistä keskiarvoistamalla mallien ennusteet. Tässä tapauksessa keskiarvoistettiin usean samankaltaisen mallin tulokset.

L

opulta näiden vaiheiden jälkeen malli antoi ennusteeksi kuvan osoittamat todennäköisyydet kolmen parhaan joukkoon. Todennäköisimmät voittajaehdokkaat olivat mallin mukaan Jenna Ruohola, Emilia Seppänen ja Shirly Karvinen. Kaksi näistä pääsikin kolmen parhaan joukkoon. Malli ennusti siis 2/3 parhaasta kilpailijasta oikein, mikä olisi arvaamalla harvinaista. Onkin vaikeaa uskoa, että tilastollinen malli kykenisi juurikaan parempaan keskimääräiseen tarkkuuteen. Todennäköisesti loppujen lopuksi missikilpailussa muillakin tekijöillä kuin ulkonäöllä on merkitystä.


Tilastotiede | 21

Kaikkien aikojen jääkiekon MM-kisat MM-lätkä: Tyyppiarvon suuri selvitys paljastaa, kumpi oli kovempi juttu: MM-kulta 2011 vai 1995?

Kuvat: Wikimedia Commons

Aapeli Nevala, teksti ja analyysi

U

rheilun yleisivistykseen kuuluu ymmärtää, että jääkiekon MM-kisoissa ei aina pelaa maan paras miehistö. Tämän takia MM-kisojen taso heittelee ja kisojen voittamista voidaan pitää vaikeampana joinakin vuosina. Myös maailmanmestaruuksien hehkuttamiseen tulee suhtautua varauksella ­— ne eivät todellakaan absoluuttisesti kerro, mikä on maailman kovin jääkiekkomaa. Sitä varten on olympialaiset ja World Cup, mutta keskitytään nyt jokakeväiseen Skoda-turnaukseen. Milloin jääkiekon MM-turnaus on ollut kaikkein kovimmillaan?

Kuka oli kovin? Ville Peltonen ja 1995-ryhmä, vai...

... Mikael Granlund ja 2011-joukkue?


22 | Tilastotiede

S

uurin syy jääkiekon vuoden 2005 NHL:n työsulun todellisen OS-lukeman ollessa MM-kisojen vaihtelevalle ansiosta käytännössä kaikki alle 0.15. Se kertoo maan jäätasolle on NHL. Seurat pelaajat olivat vapaita osalliskiekkotason leveydestä: Kanaeivät luovuta parhaita pelaatumaan MM-jäille. da voi menestyä, vaikkei saisi jiaan pudotuspeliaikaan maaOlympiavuosina OS-luparhaita mukaan kisoihin. joukkueen käyttöön, jolloin kemassa näkyy pudotuksia Tämäkään ei ole suuri ylläjoukkueiden varsinkin tys, sillä NHL:n pelaajista tällä taso heittelee Kanadan ja aikajaksolla yli puolet on ollut Joukkueiden taso sen mukaan, Yhdysvaltojen kanadalaisia. heittelee sen ketkä pelaajoukkueissa. Jos todellinen OS -lukema on mukaan, ketkä jat satutaan 2014-kisat ollut yli 0.3, vain neljästi joukturnaukseen olivat heikot. kue on jäänyt ulos mitaleilta: pelaajat satutaan saamaan. Myös SuoSuomi ja Venäjä molemmat turnaukseen saamaan. Kuitenkin men mestakahdesti. Historian suurin olympialaisruusvuonfloppi on Venäjän joukkue, ten aikana NHL on tauolla. na 1995 pidetyt kisat olivat joka jäi vuoden 2000 kotikiTällöin valmentajilla on mahhuonotasoiset. Tällä mallilla soissa sijalle 11. dollisuus valita ainakin hyvin ennen vuotta 1998 ja vuoden lähellä mieleisensä joukkue ki- 2014 jälkeen pelattujen kisojen Keskimäärin Suomen soihin ­— siis olympiajoukkuet- arviointi on tosin vaikeampaa, todellinen OS (0.287) on ta voidaan pitää asiantuntijan, sillä 1994 olympialaisia ei otettu todella korkea verrattujolla on lisäksi paljon pelissä, huomioon (ammattilaiset eivät na muihin maihin. Suomi on valitsemana parhaana kokoon- pelanneet Lillehammerissa) ja siis ollut MM-kisoissa keskipanona kyseiselle maalle. 2018 olympialaisia ei ole, yllämäärin liikkeellä muita paremTyyppiarvon urheilutoimitus tys yllätys, vielä pelattu. Näinä milla joukkueilla. laski jokaiselle olympiamitalin vuosina kisojen taso on arvioitu Selkeästi heikoimmilla Naganossa 1998 tai sen jälkeen pelkästään 1998 tai 2014 olymjoukkueilla MM-kisoissa ovat voittaneen maan MM-miehis- pialaisten pelanneet Katölle “OS” eli “Olympic Score” perusteella. nada (keskiarvo Historian suurin -lukeman. 0.063) ja USA floppi on Venäjän OS-score kertoo, paljonko euraa(0.046). Ruotsi joukkue on saanut jalkeille vaksi (0.180), Venäjä joukkue, joka jäi parhaita pelaajiaan. Parhaat ristiin(0.201) ja Tshekvuoden 2000 kotipelaajat ovat tässä niitä, jotka taulukoimme ki (0.222) asettukisoissa sijalle 11. ovat pelanneet maan olymtodelliset vat ääripäiden piajoukkueessa MM-kisoja OS-pisteet ja väliin. “ympäröivien” olympialaisten sijoituksen Vertasimme aikana. kisoissa. “Tomyös Suomen Siis esimerkiksi vuoden 2004 dellinen OS” tarkoittaa jouksijoituksia palloina ja todellisia MM-kisoissa saa pisteitä vuokueen saamaa OS-lukemaa OS-pisteitä. Tällä tavalla voiden 2002 ja 2006 olympialaijaettuna kisan tason lukemaldaan arvioida, minä vuonna sissa pelanneista pelaajista. la. Se kuvaa joukkueen tasoa Suomen kisamenestys oli odoverrattuna muihin joukkueitettu suoritus ja minä vuonna askemalla OS-pisteet yhsiin. Mukana tässä vertailussa pieni ihme. teen MM-kisavuosittain, on vain vuosien 1998-2014 Suomen käytännössä piti saadaan arvio MM-kisoMM-kisat. voittaa 1995 MM-kisat, mutta jen kokonaistasosta. Tällä tavalla nähdään, miten 2011 mestaruus oli pieni ihme. OS-laskemien mukaan motietyn tasoisilla joukkueilla on On siis aika päivittää 2011 kandernin ajan parhaat MM-kisat kisoissa sijoituttu. Kanada on sakunnan historian ikimuistoipelattiin vuonna 2005. Tämä ainoa joukkue, joka on pystysemmaksi MM-jääkiekkosuoriei ole sinänsä yllättävää, sillä nyt voittamaan mestaruuden tukseksi.

K

S

L


Tilastotiede | 23 Pylväät kuvaavat maiden yhteenlaskettua OS-pistelukemaa. OS-lukeman oikeutus perustuu ajatukseen, että olympialaisissa jääkiekon kärkimailla on käytössä paras mahdollinen joukkue.

Joukkueiden sijoitukset pystyakselilla, vaaka-akselilla todelliset OS-pisteet. Punaisella piirretty viiva on regressiosuora.

Kolmannessa grafiikassa on pystypalkkeina Suomen todelliset OS-pisteet ja pisteinä Suomen sijoitus MM-kisoissa. Mitä korkeampi pylväs, sitä kovempi joukkue Suomella on ollut kisan tasoon nähden. Käytännössä siis pylvään yläreunan ja pisteen välinen tila kuvaa sitä, kuinka kova suoritus sijoitus oli kyseisissä MM-kisoissa.


24 | Tilastotiede

Tilastotiede ja ennustajakurkku tappelivat ­

Kumpi voitti? Jalkapallo: Tyyppiarvon urheilutoimitus teki ennustemallin EM-kisoihin. Laitoimme mallin ja kansainvälistäkin huomiota keränneen ennustajakurkun vastakkain.

kaksi parasta etenee jatkoon. Tällaisessa formaatissa ottelujen voittaminen on tärkeää, sillä kolmella tasapelillä pääsee alkulohkosta jatkoon äärimmäisen epätodennäköisesti. Tänä vuonna EM-kisojen Tuomo Nieminen, malla voisi kisoissa saavuttaa kuudesta alkulohkosta jatkopeteksti ja malli keskimäärin 1/3*36/51 + 1/2 * 15/51 = 38% ennustustarkkuu- leihin pääsi myös neljä parasta den. Tyyppiarvon ja ennustus- lohkokolmosta, mikä johti yyppiarvo ja suurta kurkun noin 50% tarkkuus oli vähämaalisempiin otteluihin ja mediahuomiota saanut lisäsi tasapelin mahdollisuutta. siis ainakin tällä kertaa arvaiennustuskurkku enTurnaus olikin 2000-luvun lua parempaa. nustivat jalkapallon em-kilselvästi vähämaalisin 2.12 osuMalli tuotti joka ottelun pailujen otteluiden lopputumalla ottelua kohti, kun aiemkohdalla soft lokset tilastollisen mallin ja pina vuosina kesennusteen eli kurkunpyöräytysten avulla. Tyyppiarvon malkiarvot liikkuivat Tyyppiarvon urheilutoimituk- lopputulosten li ennusti oikein 2.5 tuntumassa ja sen huolellisesti rakentamaan todennäköisyyden tasapelejä pelat(ordinal regression regressiomalliin perustuvia 25 tulosta 51 tiin alkulohkoissa -metodilla). Tämän voittotodennäköisyyksiä jaetpelatusta ottelusta. jopa 30% ottetakia suoriutumistiin suurella itseluottamuksella luista aiempien somessa. Lopulta malli kuiten- ta voidaan arvioivuosien noin 20% sijaan. da tarkemmin. kin hävisi kurkulle. Miksi? Toinen selitys on geometriVoittotodennäköisyyksien Tyyppiarvon tilastollinen nen: käyryä kurkku ennustaa summa kertoo nimittäin oimalli ennusti 25 tulosta oikein jalkapallo lineaarista mallia kein menneiden ennusteiden 51 pelatusta em-ottelusta. Enlukumäärän odotusarvon siinä paremmin. nustuskurkku taas ennusti 25 Alisuoriutumisen tasoa tulosta oikein 50 ottelusta. Niuk- tapauksessa, että todennäköisyydet vastaavat todellisuutta, pystyy kvantifioimaan tarka voitto kurkulle, siis. Mutta kemminkin. Voidaan laskea ovatko nämä menestystarinoita eli malli on “oikein”. Tyyppiartodennäköisyys näin heikolle von mallissa tämä odotusarvo vai surkeita performansseja? suoriutumiselle oletuksella, on noin 31.5, joka vastaa 62% Jos jalkapallo-ottelut päättyiettä malli on oikein (hyöennustustarkkuutta. Malli selsivät aina toisen voittoon, olisi västi alisuoriutui tuloksella 25 dyntäen Poisson-Binomial arvaamalla saavutettavissa 50% ennustustarkkuus. Jos taas oikein, joka vastaa 49% ennus- todennäköisyysjakaumaa). Se oli alle 5%. Jos malli siis olisi tustarkkuutta. voittoja, tasapelejä ja tappiota oikein, on epätodennäköistä, esiintyisi yhtä paljon, olisi 33% yitä voi hakea esimerkiksi että se suorituisi niin huonosti tarkkuus saavutettavissa arvaakuin nyt. kisaformaatista. Tyyppimalla. Tyyppiarvon jalkapallomallisarvon datassa olleet jalkaEM-lopputurnauksessa sa on vielä selvästi kehitettävää. pallon EM-kisat on pelattu 16 pelattiin 36 alkusarjaottelua ja Tilastotiede hävisi tällä kertaa 15 pudotuspeliä. Aikaisempien joukkueen turnauksina, mikä niukasti vihannekselle. on tarkoittanut lohkoja, joista huomioiden mukaan arvaa-

T

S


Tilastotiede | 25

KURKKU

TILASTO Yläpuolella pelkistetty esitys ennustajakurkun toiminnasta. Kurkun omistaja asetti lattialle kaksi lappua, minkä jälkeen tämä pyöräytti kurkkua. Sen jälkeen kurkun toinen pää osoitti ottelun voittajaa. Esimerkiksi tämän ennustuksen mukaan kurkku voittaisi tilaston. Kuvan kurkku ei ole aito ennustajakurkku, eikä näin ollen liity tapaukseen, mutta ennustus osui oikeaan.


26 | Moodin Palloseura

Managerin toivelista:

5 asiaa, joita MoPSi tavoittelee tulevalla kaudella MoPSi: Moodin Palloseuran toiminta jatkuu aktiivisena myös tulevalla kaudella. Urheilutoimittaja Krapula-Ahti loi yhdessä urheiluvastaava Patrik Lauhan kanssa strategiset tavoitteet kaudelle 2016-17. Krapula-Ahti peliliikkeisiin. urheilutoimittaja Tyyppiarvon urheilutoimitus pääsi haastattelemaan uiden opiskelijajärMoodin urheiluvastaavaa ja jestöjen tapaan myös Spielführeriä Patrik Lauhaa. menestyksekäs Moodin Palloseura MoPSi valmisMaailmanluokan tautuu parhaillaan tuleviin hyökkääjä peleihin. Viime kaudella MoPSi sai kylpeä varsinaisessa Jalkapalloviheriöillä kirkkaimmitalisateessa, kun joukkue matkin mitalit välttänyt MoPSi voitti Kannunvalajien sählyperusti pelinsä Roy Hodgsonin turnauksen ja ylsi Unisportin suunnittelemaan kurinalaifutsal-sarjassa valtio-opin opis- seen, jopa nihilistiseen joukkelijoiden kanssa muodostetul- kuepuolustukseen. Puolustusla yhteisjoukkueella hopealle. pelaaminen oli paikoin jopa Parannettavaakin jäi, esitiivistä, mutta hyökkäyspäässä merkiksi Unisportin koripallo- tehot jäivät uupumaan. ja salibandysarjoissa. Ensi kaudeksi MoPSi tavoitVaikka syyslukukausi kolteleekin riveihinsä täsmäkuttelee jo ovella, on ammatti- hankintana maailmanluokan taitoisella joukkueenjohdolla hyökkääjää tai hyökkäävää vielä aikaa muutamiin täsmäkeksikenttäpelaajaa. hankintoihin ja harkittuihin Kesän aikana MoPSi pyr-

M

1

ki hankkimaan sekä Zlatan Ibrahimovicia että Paul Pogbaa, jotka molemmat nähtiin potentiaalisina tilastotieteen opiskelijoina. Rahastonhoitajan Joni Oksasen ja Moodin kassavarannot tulivat kuitenkin äkkiä vastaan. Nyt seura luottaa omiin kasvatteihin. - Fukseihin on laitettu paljon panoksia, Lauha sanoo. Tulevaisuudessa MoPSi pyrkii kasvattamaan omien tuntemattomien tähtien rekrytointimahdollisuuksia. On huhuttu tiedekunnan kanssa tehtävästä yhteistyösopimuksesta, jolla voitaisiin tarjota huippupelaajille urheilustipendejä.

2

Eroon alisuorittamisesta

Menestyksestä huolimatta MoPSin otteita leimasi viime kaudella paikoin alisuorittaminen kovissa paikoissa. Urheilusarjoissa mitalien sijaan jaettavien palkintosukkien menetys salibandysarjassa välierän ja


Moodin Palloseura | 27

maan Pogpa pääsivät karkaa ul Pa ja ic ov m hi ra Ib Zlatan htaja Patrik , joten urheilutoimenjo uksia. Manchester Unitediin hyökkäyspään vahvist a vi ko a st ei ks fu o ivo Lauha to mons. Kuvat: Wikimedia Com Roy Hodgson on suunnitellut Moo din Palloseuran puol ustuksen. Kuva: Wikimedia Commons.

pronssiottelun rankkaritappioiden takia sekä putoaminen korissarjan ensimmäisellä pudotuspelikierroksella näytöstyylisen alkulohkovoiton jälkeen syöpyivät katkerana kuvana monen moodilaisen urheilufanaatikon verkkokalvoille. Ensi kaudella MoPSi tuleekin turvautumaan ammattiapuun. Organisaation vahvistukseksi tullaan hankkimaan urheilupyskologi ja/tai henkimaailman, imaginääriluvut ja Zornin lemman hallitseva Gandalf matemaatikkojen opiskelijahuoneesta Komerosta.

3

Kannunvalajien sählyturnauksen mestaruus MoPSin sählyjaosto on hallinnut suvereenisti kolmella kolmea vastaan pelattavaa Kannunvalajien sählyturnausta jo kahden vuoden ajan. Tripla olisi kovatasoisessa turnauksessa erinomainen suoritus ja kuten epätieteellinen,

tässä tapauksessa tosi sanonta kuuluu: ”Ei kahta ilman kolmatta!”

4

Palkintokaapin laajennus

Survomon seinällä komeileva lastulevyinen kierrätyshylly eli Moodin palkintokaappi on pullistellut täynnä viime keväästä lähtien. Kaapissa komeilevat niin Kannunvalajien sählyturnauksen palkintokannu, kuin salibandyn MoPSi-KTTO-kevätklassikon palkintopokaalikin. Varsinaisten urheilupalkintojen lisäksi palkintokaappia komistaa myös esimerkiksi onnistuneen ryöstöretken päätteeksi Matrixin fuksisuunnistuksessa voitettu pokaali.

5

Katsomot täyteen

MoPSin pelejä seurasi viime kaudella lajista riippumatta ilahduttava määrä kuvitteel-

lisia katsojia, lähinnä keski-ikäisiä miehiä. Tulevalla kaudella tavoitteena on täyttää kuvitteelliset katsomot keski-ikäisten miesten lisäksi myös naisilla ja nuorilla. - Saimme viime kaudella Moodin yhdenvertaisuusvastaavalta huomautuksen, sillä MoPSin pelien katsojat ovat olleet yksistään kuvitteellisia keski-ikäisiä miehiä. Tulevalla kaudella tavoitteemme on lisätä MoPSin urheilutoiminnan näkyvyyttä ja houkutella katsojiksi kuvitteellisia naisia ja nuoria. - Toki meille itsellemmekin on tärkeää, että tasa-arvo toteutuu myös urheilumaailmassa. Emme missään nimessä halua profiloitua vanhojen miesten puuhasteluksi, Lauha toteaa. Oletko Moodin Cristiano Ronaldo, vai kenties uusi Manuel Neuer? Ai et. No jos olet edes joskus nähnyt televisiosta urheilua ja haluat pelata MoPSissa, ota yhteyttä urheiluvastaavaan: patrik.lauha@helsinki.fi


28 | Ajankohtaista

Tyyppiarvo esiintyi keväällä sekä Helsingin Sanomien pääkirjoitussivulla (vasemmalla) että Iltalehden viihdesivuilla (keskellä).

Verkkosivujen luetuin artikkeli oli keväällä yli 7000 lukijaa ja lähes 23 000 ihmisen Facebook-yleisön kerännyt juttu Temptation Islandin todennäköisyyslaskentavirheestä.

Tule tekemään Tyyppiarvoa! Media: Tyyppiarvo on Helsingin yliopiston ainutlaatuisin ainejärjestölehti. Tule mukaan tilastolliseen vallankumoukseen! Aapeli Nevala metodien käyttö luovat täysin uudenlaisia mahdollisuuksia untuuko sinusta, että journalismille, jota ei Suomessa valtamedia valehtelee, ole vielä nähty. mutta MV-lehti vielä Numerot ja niiden kriittienemmän? Niin tuntui meisnen tarkastelu tuovat paljon täkin, ja siksi Tyyppiarvo meni käsiteltyihin aiheisiin täysin verkkoon. uusia näkökulmia. Aina haTilastotieteen opiskelijoissa vainnollistava juttu ei ole edes on valtava määrä osaamista, monimutkainen matemaatjota koko Suomen mediakentinen kyhäelmä, vaan paras tästä ei löydy. Data-analyysi, tarina voi olla yksinkertaiempiirinen ote ja tilastollisten nen xy-koordinaatisto, joka

T

havainnollistaa tutun asian yllättävästi. Tyyppiarvossa ei ole aloituskynnystä. Se on auki kaikille tilastotieteen opiskelijoille ja muille halukkaille. Toimitustiimissämme on paljon tehtävää: juttujen kirjoittamisen lisäksi voit osallistua valokuvaamalla, taittamalla, tai auttamalla datan keräämisessä. Juttuja tarvitaan myös kaikista mahdollisista Moodi ry:n tai yliopiston tapahtumista. Jos haluat mukaan osaksi ainutlaatuista Tyyppiarvoa, ota yhteyttä: aapeli.nevala@helsinki.fi


Ajankohtaista | 29 Petteri Mäntymaa Kirjoittaja on opintovastaava, keltaisen vyön judoka ja Moodin seitsenottelun mitalisti.

Opintovastaavalla on asiaa

K

oittanut on monelle vuoden kokokohta – opintojen alku! Niin niitä jatkavillekin, mutta ennen kaikkea starttilaukausta hartaasti odottaville fukseille. Vilpitöntä intoa huokuvat uunituoreet tilastolaiset uskovat toki olevansa valmiita koitokseen, mutta minkälaiseen opintomaailmaan he nuoret (ja nuorehkot) viattomat ovat sukeltamassa? Syksy tulee olemaan uudelle opiskelijalle tunnetusti hektinen ja jännittävä, mutta tällä kertaa monella tapaa myös erityinen. Alkava vuosikurssi merkitsee nimittäin viimeistä sisäänottoerää yksinomaan tilastolle! Sen lisäksi, että edellisen vuoden kuluessa hallintopakkaa on sekoiteltu mennen tullen ja niin ässää kuin jätkääkin nakeltu sieltä täältä mäkeen, Iso Pyörä pyörii entistä vinhammin, ja johtoryhmien kädet tulevat olemaan täynnä uusien koulutusohjelmien kiireisessä valmistelussa ja niiden opetuksen suunnittelussa. Henkilökunnan ollessa entistä enemmän kiinni hallinnollisissa välttämättömyyksissä, tuutoreitten rooli on alkavana lukukautena erityisen tärkeä.

T

ilastotieteen fuksin ensimmäistä vuotta kun voisi luonnehtia vähintäänkin tiukaksi paketiksi, perustuksien tutina tuntuu varmasti juurikin uuden opiskelijan luissa ja ytimissä. Ajatus siitä, että ensin tulee omaksua nykyiset toimintatavat vain, jotta ne voisi oppia seuraavana vuonna pois, voi synnyttää merkittävän kysy-

Minkälaisen roolin tulevat ainejärjestöt ottamaan uusien koulutusohjelmien mastojen näkyessä jo horisontissa? mystulvan, joka tuutoreiden pitää pystyä taidokkaasti kanavoimaan. Onneksi ammattitaitoiset tuutorimme ovat keitetty monessa liemessä ja allekirjoittanut uskoo järkkymättömästi kaartilaistemme selviytyvän tästä koitoksesta esimerkillisesti! 2016 on merkittävä myös ainejärjestömaailmassa. Minkälaisen roolin tulevat ainejärjestöt ottamaan uusien

koulutusohjelmien mastojen näkyessä jo horisontissa? Odottaako Moodia identiteettikriisi, jos uusi opiskelija ei esimerkiksi identifioidukaan enää tilastolaiseksi, vaan... matemaattistieteilijäksi? Onko ainejärjestöjen fuusio optiolistalla? Nämä kysymykset tulevat varmasti saamaan vastauksensa, mutta itse haluan nähdä tulevan vuoden erityisesti uusina upeina mahdollisuuksina vahvistaa tilastotieteen asemaa, entuudestaan vihkiytymättömälle usein yllättäenkin, modernina, raikkaana, mutta vankkana tieteenalana matemaattisten tieteiden joukossa.

L

isäksi, kuten hakutilastojen valossa näyttää, uutta opiskelijaa kiinnostaa entistä todennäköisemmin työllistyminen ja vaikka hakijamäärät ensikertalaiskiintiön myötä kokivatkin kolauksen, on validia olettaa, että uusi opiskelija on myös motivoituneempi valinnassaan. Näiden tosiasioiden valossa, jo pian koittavassa punnituksessa, on tilastotiede ”kilpailijoihinsa” nähden vahvoilla!


30 | Tyyppiarvo

TYYPPI KYSYY

ARVO VASTAA

Dear Arvo. Viime vuosina olen huomannut, että kaikki Miss Suomi -ehdokkaat näyttävät samalta. Kysynkin, miltä näyttää keskimääräinen Miss Suomi?

Rakas Tyyppi, muuttamalla missivoittajien kasvokuvat matriiseiksi ja laskemalla jokaisen ruudun keskiarvon saamme keskimääräisen Miss Suomen kasvokuvan. 2000-luvun Miss Suomi näyttää aika tarkasti tältä:

Dear Arvo. Olen menettänyt uskoni vanhaan lintuloruun “kuu kiurusta kesään”. Tuntuu, että linnut tulevat Suomeen ihan mihin aikaan sattuu, eikä peipposesta ole enää puolta kuuta. Voiko olla, että vanhan kansan viisaus on väärässä?

Hyvä Tyyppi. Sananlaskun todenperäisyyttä nykyaikana voidaan tarkastella vertaamalla lintuharrastajan ensihavaintoja eri lintulajeista Ilmatieteenlaitoksen tilastoon termisen kesän alkamisesta. Datan perusteella näyttää siltä, että vaikka kiuru ja kuu ovat mukavassa alkusoinnillisessa suhteessa, ei lintua voi pitää kummoisena ennustajana. Peipponen on havainnoissa selkeästi puolikuuta edellä ja Västäräkistäkin näyttää kuluvan yleensä enemmän aikaa kesään, kuin vähäsen. On myös huomioitava, että vaikka tervapääsky näyttäisi pääskyn osalta täyttävän ennustuksen oikein, ei se ole oikeasti pääsky vaan kiitäjä. Lähivuosina tehtyjen havaintojen perusteella on selvää, että vanha loru ei ole tilatollisesti pätevä. Parempi loru olisikin: Kuu lapasorsasta kesään, puoli kuuta kivitaskusta, lirosta vähäsen, tervapääskystä ei päivääkään

Dear Arvo, Portugali voitti jalkapallon EM-kultaa vääryydellä. Joukkueen ei olisi pitänyt päästä edes jatkopeleihin, ja sielläkin jatkopaikka tuli tuurilla. Kenen olisi oikeasti pitänyt voittaa mestaruus?

Askarruttaako mieltäsi jokin asia? Lähetä kysymys Arvolle osoitteeseen tyyppiarvo@gmail.com, ja etsimme vastauksen!

Dear Tyyppi, on olemassa huomattava määrä tarkkanäköisiä kirjoituksia, jotka selittävät Portugalin menestyksen tämän vuoden Em-kisoissa. Näitä ovat esimerkiksi “Onnistuuhan se iiläiseltäkin” ja “Tuurilla ne laivatkin seilaavat”. Arvon laskelmien mukaan Portugalin todennäköisyys voittaa kisat oli pudotuspelien alkaessa alle viisi prosenttia. Ylivoimaisesti todennäköisin voittaja oli Saksa (27%). Todennäköisyydet kuitenkin muuttuivat huomattavasti silloin, kun Saksa putosi kisoista epäonnekkaan Ranska-pelin jälkeen. Selvittyään finaaliin Ranskaa vastaan, oli Portugalilla jo 47% mahdollisuus voittoon.


Tyyppiarvo | 31 Dear Arvo, minusta on jo vuosia tuntunut siltä, että Bond-elokuvissa näyttelee yhä nuorempia ja nuorempia naisia. Miksi näin on?

Kuukauden sivut Tyyppiarvo.com listasi keväällä Kuukauden sivu -palstalla tilastotiedeaiheisia verkkosivuja, joihin itseään kunnioittavan tilastolaisen kannattaa käydä tutustumassa. Tässä ne ovat:

1

Helmikuu: fivethirtyeight.com Nate Silverin perustama empiiriseen journalismiin keskittyvä sivusto. Joskus kiinnostava, joskus aivan metsässä. Maaliskuu: R-bloggers Nimensä mukaisesti R-blogeja koottuna yhteen. Hyvää oppimateriaalia tuleville R-asiantuntijoille. Huhtikuu: Kaggle Ongelmanratkaisukilpailuja palkinnoilla erilaisille data-scientist -ryhmille. Toukokuu: Cross-validated Foorumi kaikentasoisille tilastotiede- ja ohjelmointikysymyksille ja -vastauksille.

2

3

4

Hyvä Tyyppi. Listasimme Bond-elokuvien naisnäyttelijät ja elokuvien tekovuodet ja sovelsimme aineistoon lineaarista mallia selvittääksemme, onko elokuvan tekovuodella vaikutusta Bond-naisten ikään. Nuorenemisen sijaan trendi oli päinvastainen: naisnäyttelijöiden ikä näyttää pikemminkin hieman nousseen, ei kuitenkaan tilastollisesti merkitsevän paljon. Käytännössä ikä ei siis ole muuttunut mihinkään. Ehkä nykynäyttelijät vain näyttävät nuoremmilta kuin ennen?


Tilasto-suomitilasto-sanakirja Tyyppiarvo.comin faktoista piittaamaton blogisti Harhainen estimaatti suunnitteli oman fuksisanaston, jolla pääsee välittömästi sisään tilastolaisten sisäpiiriin. Tai sitten ei. Mutta tässä se tulee: Anal. - Peräaukko englanniksi, yleinen lyhenne fuksivuoden analyysin kursseille raja-arvot ja differentiaalilaskenta. Hauska vitsi, kerran. Anal.II - Yleinen lyhenne fuksivuoden analyysin kursseille integraalilaskenta ja sarjat. Joidenkin mielestä yhä hauska vitsi. Bayesilainen tilastotiede Lupa sanoa “95% todennäköisyydellä…” Chemicum - Rakennus Kumpulassa, jossa on ruokala ja … kemistejä? Exactum - Matematiikan ja tilastotieteen sekä tietojenkäsittelytieteen laitosten rakennus. Pelkistetty, mutta hyvin rakas. Epsilon - Jotain hyvin pientä, mutta suurempaa kuin nolla. Flamma - Yliopiston ajankohtaisista asioista tiedottamiseen suunniteltu Google+. Frekventistinen tilastotiede - sana todennäköisyys autoritäärstä tarkkailua. Gurula - TKO-älyn opiskelijahuone, Survomon astioiden tiskauspaikka. Haisee opiskelijahuoneelle. HYY - Helsingin Yliopiston Ylioppilasmafia. Kerää opiskelijoilta joka syksy suojelumaksuja. JYM - Espanjalainen tapa ääntää gym, johdatus yliopistomatematiikkaan -kurssi. Keskustakampus - Kampus,

jossa collegeissa käveleviä katsotaan pahalla. (Matlun) Klusteri - Ken tänne käy, saa kaiken toivon heittää. Matemaattisluonnontieteellisen tiedekunnan jatkopaikka jossain Kampin ja Etu-Töölön rajamailla. “What happens in, stays in”, yms. kliseet täyttävä kompleksi, kirjan Fear and Sweating in Physics Department tapahtumapaikka. Komero - Matrixin opiskelijahuone. Haisee opiskelijahuoneelle, mutta eri tavalla kuin Gurula. KTTO - Taloustieteen ainejärjestö. Khakihousuisten moodilaisten loppusijoituspaikka. Kumpula - Kampus, jossa collegeissa käveleviä ei katsota pahalla. Kuppala - Unioninkadulla sijaitseva entinen kuppasairaala, jonka kellarissa ainejärjestöt pitävät varsin keskinkertaisia bileitä. Laskarit - Varsinkin analyysikursseilla käytössä oleva opiskelumuoto, jossa 10-20 ihmistä saa lisäpisteitä kokeeseen pelaamalla kahdesti viikossa kaksi tuntia kännykällä pöydän alla. LaTeX - Epäkäytännöllinen mutta hienostunut tapa kirjoittaa matematiikkaa tietokoneella. Jos haluat tehdä vaikutuksen treffikumppaniisi, kerro palauttaneesi todari ykkösen laskarit LaTeXilla. Linis - Ärsyttävä mutta käytännöllinen lyhenne kurssille lineaarialgebra ja matriisilaskenta. Matrix - Matematiikan opiskelijoiden ainejärjestö, planetaariohypoteesin lukutaidottomille esitellyt elokuva. Moodi - Tilastotieteen ainejärjestö, Helsingin yliopiston Harvey Dent. Kaksi tiedekuntaa, kaksi koulukuntaa, kaksi

naamaa, ja vain sattuma niiden välissä. MoPSi - Moodin Palloseura, pelejä ja leikkejä lahjattomille. Physicum - Kumpulan kaunein rakennus, josta saa panineja hintaan 2,6e. R - Tilastotieteilijöiden suosima ilmainen ohjelmointikieli, joka on soveltajille liian ohjelmointikieli ja tosikoodareille liian vähän ohjelmointikieli. Maailmalle R on vain joku, mutta tilastolaisille se on koko maailma. Sambia-päivät - Unicafen teemaviikko, jonka avulla saatiin kikhernevarastot tyhjennettyä ennen viimeistä käyttöpäivää. Sitsit - Joukko yliopisto-opiskelijoita kokoontuu samaan huoneeseen juomaan, pitämään puheita ja laulamaan. Ei ole larppausta, ei varmasti ole. Survomo - Moodin huone Exactumin alakerrassa. Survomoon ei aurinko paista. Exactumin opiskelijahuoneista ainoa, jossa “ei haise opiskelijahuone”. Survomon mikro - Käytä vain äärimmäisessä hädässä. TKO-äly - Tietojenkäsittelijöiden ainejärjestö, Suomen irkkaajien yhdistys. Todari - Lyhenne sanoista “todellinen hedari”, todennäköisyyslaskennan kurssien lempinimi. Topologia - Ylätasoista matemaattista haihattelua, mutta aina toimiva keskustelunavaaja. Todistushattu - Kartongista tehty musta objekti, jonka luennoitsija laittaa päähänsä tehdessään eksaktin matemaattisen todistuksen. VOO - Valtio-opin opiskelijoiden järjestö. Smootheja ja hyvännäköisiä keskustakampuslaisia. Zornin lemma - matemaatikkojen sairasta huumoria, ei kannata välittää.

Tyyppiarvo I/2016  
Read more
Read more
Similar to
Popular now
Just for you