Miten SAPO-ontologia kehitettiin
Jari Väätäinen & Tomi Kauppinen
Kuva 1. Näkymä Niskalan pihalta Lentiirajärvelle Kuhmoniemen Lentiiran kylässä vuonna 1908. Kuva: J. N. Soikero, GTK
Vuonna 2005 professori Eero Hyvösen vetämä semanttisen laskennan tutkimusryhmä1 kehitti semanttisia menetelmiä hyödyntävää kansalaisten ja muistiorganisaatioiden yhteisöllistä julkaisukanavaa, Kulttuurisampo-palvelua2. Aiemmin oli toteutettu MuseoSuomi-palvelu3, kansallinen julkaisukanava, jonka avulla suomalaiset museot ja muut kulttuurisisällön tuottajat voivat julkaista kokoelmiaan ja muita aineistojaan semanttisessa webissä. Jo sitä kehitettäessä oli havaittu se ongelma, että museoaineistolle tallennetut paikkatiedot eivät vastanneet käytössä olevaa kuntajakoa. Palveluun tehdyt haut eivät tuottaneet haluttua tulosta, ellei hakijalla ollut tietoa vanhoista kunnannimistä ja niiden suhteesta nykyisiin nimiin. Jos esimerkiksi museoesineelle oli tallennettu alkuperäiseksi käyttöpaikaksi Saloinen, sitä ei löytynyt haettaessa Raahe-nimellä, vaikka Saloinen on kuulunut Raahen kaupunkiin vuodesta 1973 alkaen. Vielä ongelmallisempi tilanne oli silloin, kun vanha kunta oli lakannut olemasta siten, että sen alue oli jaettu muihin kuntiin. Siinä tapauksessa lakkautetun kunnan kohteet sijaitsevat nykyisin useamman eri kunnan alueella, mikä tekee oikean hakutuloksen saamisesta vielä hankalampaa.
Toinen MuseoSuomi-palvelua kehitettäessä havaittu ongelma johtui siitä, että hyvin monilla paikoilla on sama nimi. Jos vanhan kalastuskuvan ottopaikaksi oli merkitty Pyhäjärvi, ei tämä vielä auttanut tietämään edes sitä, missä päin Suomea kuva oli otettu. Esimerkiksi Kansalaisen karttapaikasta4 löytyy 48 Pyhäjärvi-nimistä paikkaa. Niistä järviä on 39, taloja 6, kyliä 2 sekä yksi kunta. Historian kuluessa tuo Pyhäjärven kunta on vaihtanut nimeään kolme kertaa. Jos kuva on otettu ennen sotia, Pyhäjärvi-nimisiä kuntia oli Suomessa yhtäaikaa kolme. Oli siis tarpeen pystyä yksilöimään ja luokittelemaan eri aikaiset paikat aiempaa paremmin.
Kulttuurisampoa kehitettäessä nämä ongelmat haluttiin korjata. Tomi Kauppinen otti haasteen vastaan ja kehitti väitöskirjassaan menetelmän eriaikaisten paikkojen linkittämiseen. Menetelmän avulla paikoissa tapahtuneet muutokset (yhdistymiset, jakaantumiset, nimenmuutokset, aluesiirrot) mallinnetaan. Mallinnuksessa keskitytään siihen, miten muutokset vaikuttavat kyseisen kohteen olennaisiin ominaisuuksiin, kuten nimeen ja pinta-alaan. Lopputuloksena on verkkomainen rakenne, Suomen ajallinen paikkaontologia (SAPO), joka sitoo yhteen samoilla alueilla eri aikoina sijainneet paikat. SAPO tallentaa kunnista niiden ajallisen ulottuvuuden (esim. Saloinen 1913–1972), rajat, pinta-alan, sekä tärkeimpänä linkit muihin päällekkäisiin kuntiin eri ajoilta. Ideana kuntien ajallisuudessa on se, että ajallisen ulottuvuuden alku- ja loppuajankohtien välillä kyseisellä kunnalla ei ole muutoksia (esim. Saloisella vuosien 1913 ja 1972 välillä).
Havainnollistetaan tätä myös toisella esimerkillä, Kalvolan kunnalla Hämeessä. Kunta perustettiin vuonna 1867, mikä tarkoittaa, että Kalvolan pitäjässä siirryttiin tuolloin kunnalliseen itsehallintoon. Vuonna 1956 Kalvolasta siirrettiin Patakankaan koulupiirin alue Tammelan kuntaan, ja vuoden 2009 alusta Kalvola liitettiin monien muiden pikkukuntien ohessa Hämeenlinnan kaupunkiin. Koska ensimmäinen muuttumaton jakso Kalvolan kunnassa oli vuosien 1867 ja 1956 välillä, SAPOon luodaan siis kuntainstanssi Kalvola, johon liitetään ajanjakso vuodesta 1867 vuoden 1955 loppuun. Vuoden 1956 alussa Kalvolan kunnan alue muuttuu Patakankaan koulupiirin verran, ja sen jälkeen kunnan alue ja nimi pysyvät muuttumattomina vuoteen 2009 saakka. Tämän perusteella Kauppisen kehittämä menetelmä muodostaa toisen kuntainstanssin Kalvola (1956–2008). Vuoden 2009 alusta saakka Kalvolan alue on ollut osa kuntaa Hämeenlinna (2009–). Tämä tieto puolestaan tallennetaan linkittämällä toisiinsa kuntainstanssit Hämeenlinna (2009–), Kalvola (1867–1955) ja Kalvola (1956–2008).
Edellä kuvattu menetelmä mahdollistaa aivan uudenlaisen ja tarkemman metatietojen käsittelyn. Tietokantoihin voidaan tallentaa tietyn kohteen (esimerkiksi taulun) paikkametatiedoksi aina se SAPOn ajallinen kunta, joko sopii kyseessä olevalle kohteelle. Jos on tiedossa sekä vuosi että kunnan nimi, voidaan ajallinen kunta löytää myös automaattisesti päättelemällä. SAPOn ajallisten kuntien käyttö kohteiden indeksoimisessa tarjoaa selkeän parannuksen hakutuloksiin. Kun tietokantaan tehdään hakuja, SAPO-ontologian avulla voidaan päätellä todennäköisyys, jolla haettu paikka on kuulunut eri aikoina eri kuntiin. Lisäksi hakutulokset voidaan järjestää todennäköisyyksien mukaan listaksi, jossa ensimmäisenä ovat hakua parhaiten vastaavat kohteet. Jos siis haluamme löytää kaikki historialliset kohteet nykyisen Hämeenlinnan alueelta, saamme SAPOon tallennettujen linkkien avulla mukaan myös Kalvolan alueen kohteet.
Samoihin aikoihin kun semanttisen laskennan tutkimusryhmässä kehitettiin MuseoSuomea, Jari Väätäinen valmisti tietokantaa Geologian tutkimuskeskuksen arkistosta löytyneille lasilevynegatiiveilta skannatuille kuville. Valokuvaus on aina ollut geologeille tärkeä havaintojen tallennusmuoto, ja kallioiden ja maaperämuodostumien lisäksi geologit ovat kuvanneet myös ihmisiä ja rakennuksia eri puolilta Suomea. Geologit ovat olleet myös paikkatiedon asiantuntijoita – onhan geologisten karttojen laatiminen ollut yksi geologien perustehtävistä. Kaikkiin kuviin onkin merkitty kuvauspaikat huolella. Valitettavasti 1900-luvun alussa kohteille ei voitu antaa koordinaatteja, vaan kuvauspaikan sijainti talletettiin paikannimistön avulla. Yleensä kuvauspaikka merkittiin kuvauskunnan, kylän ja mahdollisesti talon nimen mukaan. Tämän artikkelin alkukuvassa (Kuva 1) Niskalan talon väki laittaa viljaa kuhilaille Kuhmoniemen Lentiirassa vuonna 1908. Kuvan ottopaikka on usein edelleenkin yllättävän hyvin mahdollista paikantaa kartalle. Lentiiran järven rannalla on vielä nykyisinkin Niskalan talo. Kunnan nimi on tosin vaihtunut Kuhmoniemestä Kuhmoksi.
Yksi arkiston kuvista (Kuva 2) esittää kahta miestä puutarhatöissä Tvärminnen eläintieteellisen tutkimuslaitoksen kasvimaalla5. Kuvauskunnaksi on merkitty Pohja, vaikka uudempien karttojen mukaan Tvärminne kuuluu Hangon kuntaan. Tuon kuvan lisäksi löytyi runsaasti muitakin kuvia, joihin merkitty kunta ei vastannut nykyistä. Väätäinen alkoi kehittää menetelmää, jolla muuttuneet kuntatiedot voidaan käsitellä valokuvatietokannassa. Ajatuksena oli tehdä mahdolliseksi kuvien hakeminen nykyisillä kunnannimillä sata vuotta vanhojen nimien sijasta. Menetelmän kehittäminen onnistui kuvatietokannan loogisten operaattoreiden avulla ohjelmoitavia kategorioita hyödyntämällä, mutta mistään ei tahtonut löytyä kattavaa tietoa Suomen kunnissa tapahtuneista muutoksista. Niinpä tiedot piti kerätä itse. Urakka osoittautui kuitenkin paljon suuremmaksi kuin miltä alunperin vaikutti.
Kuva 2. Tvärminnen eläintieteellisen tutkimuslaitoksen piha-aluetta. Kuva J. J. Sederholm, Geologian tutkimuskeskus, 1907.
Myös Kauppisella ja Hyvösellä oli tarve liittää kuntien muutostietoja suunnitteilla olevaan Suomen ajalliseen paikkaontologiaan. Kauppinen oli aktiivisesti eri yhteyksissä maininnut muutostietojen tarpeesta, ja vuonna 2005 onnisti, kun Kauppinen sai kuulla Väätäisen aloittaneen muutostietojen keräämisen. Kauppinen ja Hyvönen ottivat yhteyttä Väätäiseen ja voimavarat yhdistettiin. Kun tarve ja tekijät kohtaavat toisensa, kaikki voi loksahtaa kohdalleen. Valmisteilla olevaan SAPO-ontologiaan saatiin kuumeisesti kaivattuja kuntamuutostietoja ja Väätäinen sai kutsun osallistua semanttisen laskennan tutkimusryhmän työhön aluksi GTK:n rahoittamana ja myöhemmin myös Suomen kulttuurirahaston myöntämän apurahan turvin.
Alkoi tehokas yhteistyö tämän artikkelin kirjoittajien kesken. Väätäinen perehtyi Suomen hallinnollisissa alueissa tapahtuneisiin muutoksiin ja Kauppinen kehitti menetelmiä niiden mallintamiseksi ja hyödyntämiseksi SAPO-ontologiassa. Muutostiedot ja kuntien eri aikaiset pinta-alat koottiin taulukkoon omille välilehdilleen (Kuva 3). Muutaman kuukauden kuluttua taulukossa oli jo kymmeniä sarakkeita erilaisia tietoja ja muunnoksia varten.
Kuva 3. SAPOa ylläpidetään Excel-taulukossa, johon kaikista eri aikaisista kunnista on kerätty muun muassa muutos- ja pinta-alatiedot.
Pian löydettiin myös uusia muutosmuotoja alkuperäisten (perustaminen, jakaantuminen, yhdistyminen, aluesiirto ja nimenmuutos) lisäksi. Niitä ovat esimerkiksi aluesiirtoperustaminen, aluesiirtojakaantuminen, alueluovutus sekä rajanveto. Alla olevassa kuvassa (Kuva 4) nähdään kartalle piirretty esimerkki monimutkaisesta kuntamuutoksesta, joka on kuitenkin pystytty mallintamaan SAPO-ontologian avulla.
Kuva 4. Imatran kauppala perustettiin vuoden 1948 alussa Ruokolahden ja Joutsenon kunnista siirretyille ja Jääsken kunnasta Suomen puolelle jääneelle alueelle. Kysessä on siis aluesiirtoperustaminen.
Muutostiedot koottiin kuntien lisäksi myös lääneistä alkaen keskiajan linnalääneistä aina läänien lakkauttamiseen saakka. Tutkimustyön tuloksena syntynyt SAPO julkaistiin ONKI-ontologiapalvelussa6. Työ oli ensimmäinen laatuaan koko maailmassa.
Kymmenisen vuotta myöhemmin, vuonna 2014, Kansalliskirjasto otti vastuulleen semanttisen laskennan tutkimusryhmässä kehitettyjen yleisten ontologioiden ylläpidon. SAPOn ylläpitämisen jatkosta oli tullut runsaasti toiveita, ja Kansalliskirjasto tilasikin Kauppiselta ja Väätäiseltä raportin siitä, kuinka SAPOa jatkossa kannattaisi kehittää ja ylläpitää. Raportti SAPOn status, ylläpito ja laajennusmahdollisuudet on tätä kirjoitettaessa juuri ilmestymässä Kansalliskirjaston julkaisemana.
Nyt vuoden 2015 kesällä on tullut aika julkistaa varsinaiseen “tuotantokäyttöön” tarkoitettu SAPO. Ontologia on pian saatavilla Kansalliskirjaston Finto-palvelussa7. Ennen julkaisemista SAPOa on vielä kehitetty esimerkiksi muuttamalla kuntien yksilölliset URI-tunnisteet helpommin ylläpidettävään muotoon. Nykyisin olemassa olevan kunnan URI oli aiemmin muotoa Helsinki (2009–). Uudistetussa SAPOssa tunnisteessa on vain instanssin alkuvuosi ja -päivämäärä (esim. Helsinki_2009_01_01). Uusi versio sisältää myös kaikkien niiden kuntien ruotsinkieliset nimet, joilla sellainen on. Kunnannimien löydettävyyttä on parannettu myös lisäämällä SAPOon joistakin nimistä aiemmin käytössä olleita vaihtoehtoisia kirjoitustapoja, esimerkiksi 1900-luvun vaihteessa ja pitkälle myöhemminkin oli usein tapana kirjoittaa nimen alussa oleva V-kirjain W-kirjaimeksi (kuten Wiipuri). Lisäksi on tehty pieniä tarpeellisia muutoksia sekä SAPOn sisällössä että RDF-esityksessä. Myös jatkokehitystä on suunniteltu: SAPOon tullaan vuosittain päivittämään aina uudet kuntamuutokset.
Palataan vielä kuvaan 2. Syy siihen, miksi tässä Tvärminnen kuvassa oli kunnaksi merkitty Pohja paljastui selvitystyön jälkeen. Kyseessä oli mitä ilmeisimmin kuvatietoja tallentaneen henkilön tekemä inhimillinen erehdys, sillä kuvaushetkellä Tvärminne kuului todellisuudessa Tammisaaren maalaiskuntaan. Vuonna 1977 Tammisaaren maalaiskunta jaettiin Tammisaaren ja Hangon kesken, ja sen jälkeen Tvärminnen alue on kuulunut Hangon kaupunkiin. Virheelläkin on siis osansa SAPO-ontologian synnyssä eivätkä virheet ole aina vain haitaksi: joskus ne voivat johtaa uuteen oivallukseen.
Lähivuosina SAPO-ontologiaan saadaan toivottavasti mukaan myös kuntia pienempien alueiden, kuten kylien ja kaupunginosien, paikkakäsitteet. Tällöin oletettavasti löydetään koneellisesti paljon ylläolevan kaltaisia tilanteita, joita voidaan SAPOn avulla automaattisesti parantaa. Jos havaitaan, että paikannimi ja kunta eivät täsmää havaintovuoden kanssa, järjestelmä voi ehdottaa vaihtamaan kunnan oikeaksi (kuten Tvärminnen tapauksessa Tammisaaren maalaiskunnan). Tämäkin toive on SAPOn kehitysehdotusten listalla monien muiden lisäksi.
1http://www.seco.tkk.fi/Semantic Computing Research Group (SeCo)
2http://www.kulttuurisampo.fi/
3http://www.museosuomi.fi/
4http://kansalaisen.karttapaikka.fi/
5http://luoto.tvarminne.helsinki.fi/index.htm
6http://onki.fi/
7https://finto.fi/Lisätietoa SAPOsta:
Kauppinen, Tomi 2010. Methods for Creating and Using Geospatio-Temporal Semantic Web. TKK Dissertations, TKK-DISS-2720, Aalto University School of Science and Technology, Faculty of Information and Natural Sciences, Department of Media Technology, Helsinki University Print, Helsinki, huhtikuu, 2010.
Väätäinen Jari ja Kauppinen Tomi 2015. SAPOn status, ylläpito ja laajennusmahdollisuudet. Kansalliskirjasto.
Kirjoittajista:
Mediatekniikan insinööri Jari Väätäinen työskentelee Geologian tutkimuskeskuksessa verkkopalveluiden suunnittelutehtävissä. Hän myös ylläpitää ja kehittää GTK:n valokuvatietokantaa.
FT Tomi Kauppinen on mediatekniikan dosentti ja tutkijatohtori Aalto-yliopistossa ja geoinformatiikan Privatdozent Universität Münsterissä.