Riina Kosunen
Sanastokeskus TSK:ssa on vuoden 2010 alusta toteutettu Maanmittauslaitoksen toimeksiannosta käynnistettyä hanketta, jonka tarkoituksena on tukea Euroopan yhteisön paikkatietoinfrastruktuurista annetun INSPIRE-direktiivin täytäntöönpanoa sanastotyön avulla.
Hankkeen alussa keskityttiin terminologiseen, määrittelevään sanastotyöhön, jossa vuonna 2005 julkaistua Geoinformatiikan sanastoa (TSK 32) päivitettiin ja täydennettiin INSPIRE-direktiiviin liittyvillä käsitteillä. Sanastotyön tuloksena julkaistiin toukokuussa 2011 Geoinformatiikan sanaston toinen laitos (TSK 42). Tämän jälkeen Maanmittauslaitoksen koordinoimaa hanketta on jatkettu tuhansien INSPIRE-direktiivin mukanaan tuomien englanninkielisten termien suomentamisurakalla. Tämän lisäksi hankkeessa on rakennettu Paikkatieto-ontologiaa, ja tässä artikkelissa keskitytään sen tarkasteluun.
Mikä ontologia?
Ontologia on kokoelma käsitteitä, joiden väliset suhteet on kuvattu paitsi ihmisen, myös koneen tulkittavissa olevalla tavalla, ja Paikkatieto-ontologia on siis ontologia, joka sisältää paikkatietoon liittyviä käsitteitä. Valmisteilla oleva Paikkatieto-ontologia on nk. yhdistelmäontologia, eli sillä on runkona Yleisen suomalaisen asiasanaston pohjalta tehty Yleinen suomalainen ontologia (YSO), johon paikkatiedon erikoiskäsitteet on liitetty.
Paikkatieto-ontologian ensimmäinen, vuoden 2012 loppuun mennessä julkaistava versio sisältää noin 650 paikkatiedon erikoiskäsitettä, joista noin 220 on peräisin Geoinformatiikan sanastosta ja 430 Paikkatietohakemiston hakusanastosta. Jälkimmäinen on Teknillisen korkeakoulun Geoinformaatio- ja paikannustekniikan laboratoriossa laadittu asiasanasto.
Paikkatieto-ontologiaa laativassa työryhmässä on edustajia muun muassa Maanmittauslaitoksesta, Geodeettisesta laitoksesta, Geologian tutkimuskeskuksesta ja Aalto-yliopiston insinööritieteiden korkeakoulusta. Ontologiatyön asiantuntijoina työssä toimivat Sanastokeskuksen terminologit. Yhteistyötä on tehty kansallisen FinnONTO – Suomalaiset semanttisen webin ontologiat -hankkeen ja siinä mukana olevan Aalto-yliopiston Semanttisen laskennan tutkimusryhmän kanssa.
Ontologian laatimisesta
Tiivistäen voidaan sanoa, että Paikkatieto-ontologia on rakennettu vertaamalla paikkatiedon erikoiskäsitteitä YSOn käsitteisiin, merkitsemällä samoiksi todetut paikkatiedon ja YSOn käsitteet niin kutsutusti ekvivalenteiksi ja liittämällä YSOsta puuttuvat paikkatietokäsitteet omille paikoilleen YSOn hierarkiapuussa.
Ontologian laatiminen aloitettiin vertaamalla Geoinformatiikan sanaston ja Paikkatietohakemiston hakusanaston termejä YSOn termeihin koneellisesti yhdistelyohjelman avulla. Jos yhdistelyohjelma löysi Geoinformatiikan sanaston tai Paikkatietohakemiston hakusanaston termikentästä saman merkkijonon kuin YSOn käsitteen termikentästä, se merkitsi kyseiset käsitteet keskenään samoiksi eli ekvivalenteiksi.
Terminologin ja työryhmän ensimmäinen tehtävä olikin yhdistelyohjelman ekvivalenssiehdotusten tarkistaminen. Usein saatettiin todeta, että koneellisen yhdistelyn tuottama ehdotus oli oikea, mutta joissakin tapauksissa sitä jouduttiin korjaamaan. Esimerkiksi topografia-käsite on YSOssa ymmärretty maaston pinnanmuotojen yksityiskohtaiseksi kuvaamiseksi, siis toiminnaksi. Paikkatietoalalla topografia kuitenkin ymmärretään tämän lisäksi – tai oikeastaan ennen muuta – paikkatietokohteen ominaisuudeksi, siis vaikkapa maastokohteen harju pinnanmuotoa kuvaavaksi tiedoksi. Tämän vuoksi Paikkatieto-ontologiaan tarvittiin luoda YSOn kanssa ekvivalentin topografia-käsitteen lisäksi toinen topografia-käsite.
yso-käsitteet
muuttuva
prosessit
toiminta
luonti
tiedollinen luonti
topografia (tiedollinen luonti)
yso-käsitteet
pysyvä
ominaisuudet
sisäiset ominaisuudet
fyysiset ominaisuudet
topografia (fyysiset ominaisuudet)
Yhdistelyohjelma ei luonnollisestikaan tunnistanut ekvivalensseja, joissa käsitteiden termit olivat keskenään eri muotoiset. Esimerkiksi Paikkatietohakemiston hakusanaston toimialojen alla oli käsite kauppa; YSOssa taas kauppa-ala. Pienen pohdinnan jälkeen todettiin, että nämä kaksi käsitettä voidaan nimityserosta huolimatta merkitä keskenään ekvivalenteiksi.
Ekvivalenssien merkitsemisen jälkeen työryhmän tehtävänä oli löytää YSOn hierarkiasta paikka kullekin Geoinformatiikan sanaston ja Paikkatietohakemiston hakusanaston sellaiselle käsitteelle tai termille, jota YSOssa ei ennestään ollut.
Geoinformatiikan sanaston käsitteiden kohdalla tehtävää helpotti se, että sen käsitteille on kirjoitettu terminologiset määritelmät ja käsitteiden väliset suhteet on kuvattu käsitekaavioiden avulla. Haasteena oli siis ”vain” löytää Geoinformatiikan sanaston ylimmille yläkäsitteille sopivat paikat YSOsta. Pähkinää tässäkin silti riitti purtavaksi, sillä Geoinformatiikan sanaston käsitteet ovat osin varsin abstrakteja ja YSOsta puuttuu muun muassa matematiikan peruskäsitteistöä. Esimerkiksi käsite pituusaste – onko se sijainti vai koordinaatti? Työryhmä päätyi jälkimmäiseen ratkaisuun.
Entä vaikkapa käsitteen objekti yläkäsite? Geoinformatiikan sanastossa objekti on määritelty ”tietojärjestelmässä yksilöitävissä oleva kokonaisuus, jolla on tila ja käyttäytyminen”. Määritelmän perusteella vaikuttaisi, että objekti voisi olla jonkinlainen tekninen tuotos. Toisaalta objektilla ei välttämättä ole teknistä toteutusta, jolloin se on jotain abstraktimpaa. Työryhmä pohti asiaa useassa kokouksessa. Lopulta päädyttiin luomaan ontologiaan kaksi objekti-käsitettä, joista toinen ripustettiin YSOn abstrakti-käsitteen alakäsitteeksi ja toinen YSOn tekniset tuotokset -käsitteen alakäsitteeksi.
Paikkatietohakemiston hakusanaston käsitteiden kohdalla haastetta taas tuli ensinnäkin siitä, että sen käsitteillä ei yleensä ole kuvauksia, ja toisekseen siitä, että asiasanastojen esitystavasta ei aina voi päätellä käsitteiden välisiä suhteita. Esimerkiksi Paikkatietohakemiston hakusanastossa on seuraava kohta:
korkeus
• topografia
• korkeusmallit
• hilamalli (grid)
• kolmiomalli (TIN)
• korkeuskäyrät
• kaltevuus
• viettosuunta
Hierarkiaa muistuttavan esitystavan perusteella saattaisi ensivilkaisulla arvella, että korkeusmalli olisi yhdentyyppistä topografiaa. Tarkempi miettiminen paljastaa toki maallikollekin nopeasti, että näin ei ole, vaan korkeusmallille on etsittävä jokin muu yläkäsite. Mutta entä hilamalli ja kolmiomalli – ovatko ne yhdentyyppisiä korkeusmalleja? Terminologi ei tätä tiennyt, mutta työryhmän asiantuntijoiden mukaan sekä hila- että kolmiomallia voidaan käyttää muunkin kuin korkeuden mallintamiseen. Näin ollen korkeusmalli, hilamalli ja kolmiomalli päätettiin ripustaa YSOn käsitteen mallit (havainnointimallit) alle keskenään samalle hierarkiatasolle eli toistensa vieruskäsitteiksi.
Miksi ontologia?
Ontologiat liittyvät semanttiseen webiin, siis nykyistä www:tä kehittyneempään järjestelmään, jonka sisällöt ovat tulkittavissa myös koneellisesti ja jossa käyttäjälle voidaan tarjota niinsanotusti älykkäitä palveluita.
Esimerkiksi internetin hakukoneet voivat hyödyntää ontologioita ja siten vaikkapa laajentaa käyttäjän tekemiä hakuja. Jos käyttäjä hakee tietoa sanalla verkkopalvelu, hakukone voi esittää hänelle myös aineistoja, jotka liittyvät metatieto-, karttakuva-, tiedostolataus- ja muunnospalveluihin, sillä ontologia kertoo hakukoneelle, että termi verkkopalvelu on rajapintapalvelun (epäsuositettava) synonyymi ja että metatieto- ym. palvelut ovat yhdentyyppisiä rajapintapalveluita (ks. esimerkki alla).
verkkopalvelu → rajapintapalvelu
Yläkäsitteet:
yso-käsitteet
pysyvä
henkiset tuotokset
yhteiskunnalliset tuotokset
palvelu
rajapintapalvelu
Alakäsitteet:
karttakuvapalvelu
kohdepalvelu
kyselypalvelu
käynnistyspalvelu
metatietopalvelu
muunnospalvelu
tiedostolatauspalvelu
Määritelmä:
palvelu, joka tarjotaan sovelluksen avulla tietokoneverkon kautta muiden sovellusten saataville
Lähikäsitteet:
alustava toimintakyky
paikkatieto
paikkatietopalvelu
palvelurajapinta
Koneiden lisäksi ontologioita voivat hyödyntää ihmiset – myös ilman koneiden välitystä. Useat ontologiat onkin pääasiallisesti tarkoitettu käytettäviksi perinteisten asiasanastojen rinnalla ja sijaan aineistojen kuvailuun. Esimerkiksi Paikkatieto-ontologialla on tarkoitus korvata tähän saakka asiasanoituksessa käytetty Paikkatietohakemiston hakusanasto.
Ontologian etuna asiasanastoon nähden on esimerkiksi se, että (huolellisesti tehdystä) ontologiasta näkee asiasanastoa luotettavammin, mitkä asiasanat ovat keskenään synonyymeja, siis saman käsitteen eri nimityksiä, ja mitkä taas viittaavat eri käsitteeseen. Asiasanastossa saatetaan esimerkiksi kertoa, että termi paikkatietojärjestelmät korvaa asiasanoituksessa termit GIS-järjestelmät, LIS-järjestelmät ja maastotietojärjestelmät. Käyttäjän pääteltäväksi jää, ovatko nämä nk. korvatut termit paikkatietojärjestelmän synonyymeja vai viittaavatko ne esimerkiksi sen lähi- tai alakäsitteeseen.
Ontologiat puolestaan ovat käsitelähtöisiä, kuten terminologiset sanastot, ja näin ollen samaan käsitteeseen viittaavat termit voidaan esittää samassa käsitetietueessa ensisijaiseksi termiksi ja synonyymeiksi merkittyinä. Ylä-, ala- ja lähikäsitteisiin viittaavat termit puolestaan voidaan luetella selkeästi erikseen (kuten vaikkapa rajapintapalvelun lähikäsitteet paikkatietopalvelu ja palvelurajapinta; ks. edellinen esimerkki).
Toinen ontologioiden käytöstä saatava etu tulee esiin tapauksissa, joissa samalla termillä viitataan kahteen tai useampaan eri käsitteeseen. Ontologian avulla saadaan näissä polysemiatapauksissa helposti valittua asiasanoitukseen oikea käsite, esimerkiksi haluttu geometria-käsite, sen mukaan, tarkoitetaanko geometriaa tieteenalana vai paikkatietokohteen muotoa kuvaavana ominaisuutena (geometriatietona). Ontologian hierarkianäkymästä käyttäjä näkee ontologian kummankin geometrian yläkäsitteet, mikä auttaa oikean käsitteen valinnassa:
yso-käsitteet
pysyvä
ilmiöt
tieteet
matematiikka
geometria (tieteet)
yso-käsitteet
pysyvä
ominaisuudet
sisäiset ominaisuudet
geometria (sisäiset ominaisuudet)
Perinteisiin asiasanastoihin verrattuna ontologiat helpottavat myös sopivimmalle hierarkia- tai tarkkuustasolle kuuluvan asiasanan valintaa. Asiasanaston kenties aakkosellista asiasanalistaa katsoessa ei välttämättä tule mieleen miettiä, onko sopivinta asiasanoittaa jokin aineisto sanalla kartat, merikartat vai sisävesikartat, mutta kun käsitteet näkee ontologian hierarkiassa, ratkaisu helpottuu. (Sivuhuomautuksena mainittakoon, että ennen tätä ontologiaprojektia terminologi ei edes tiennyt, että sisävesikartatkin ovat merikarttoja, vaan luuli näitä kahta vieruskäsitteiksi...!)
kartat
merikartat
sisävesikartat
Julkaisu ja jatkosuunnitelmia
Paikkatieto-ontologian ensimmäinen versio julkaistaan FinnONTO-hankkeen tuottamassa kansallisessa ONKI-ontologiakirjastossa (http://onki.fi/fi/browser/) vuoden 2012 loppuun mennessä. Siinä vaiheessa ontologia sisältää YSOn, Geoinformatiikan sanaston ja Paikkatietohakemiston hakusanaston käsitteet.
Ensimmäisen version julkaisemisen jälkeen paikkatiedon ontologiatyötä on tarkoitus jatkaa viemällä ontologiamuotoon INSPIRE-direktiivin ja siihen liittyvien tietomäärittelyjen mukanaan tuomia käsitteitä ja termejä. Direktiivi muun muassa edellyttää, että tulevaisuudessa jokaisen paikkatietotuotteen aihepiiri on kuvailtava yhden nk. INSPIRE-teeman avulla (esimerkkejä teemoista ovat osoitteet, kiinteistöt, liikenneverkot ja hydrografia), joten nämä kuvailussa käytettävät teemat tarvitaan ontologiaan. Lisäksi ontologiaan on kaavailtu sisällytettäväksi INSPIRE-tietomäärittelyissä mainitut paikkatietokohdetyypit (esimerkiksi kiinteistöraja, tietyyppi, rataosa, kosteikko jne.) sekä näille kohdetyypeille määritetyt ominaisuudet (esimerkiksi tie-kohdetyypin ominaisuus kaistojen lukumäärä). Ontologiaan sisällytettävien INSPIRE-käsitteiden määrä ja valikoima täsmentyy loppuvuoden 2012 aikana, ja samalla ratkaistaan, tulevatko INSPIRE-käsitteet osaksi Paikkatieto-ontologiaa vai kenties omaksi erilliseksi, Paikkatieto-ontologiaa täydentäväksi ontologiatiedostokseen.