Yhdisteltyjen ontologioiden muutoksenhallinta

Sini Pessala

Semanttisen webin tavoitteena on tiedon ilmaiseminen koneluettavassa muodossa, mikä mahdollistaa tiedon yhdistelyn laajemmiksi kokonaisuuksiksi. Semanttisen webin tekniikat tarjoavat myös mahdollisuuden opettaa tietokonetta päättelemään ihmisen tavoin. Suomalaiselle semanttiselle webille on luotu pohjaa Aalto-yliopiston FinnONTO-hankesarjassa, jonka päätavoitteita on ollut asiasanastojen muuntaminen ontologioiksi sekä ontologioita hyödyntävien työkalujen luominen. Ontologiat kuuluvat semanttisen webin perustekniikoihin, sillä ne esittävät käsitteet ja niiden väliset suhteet sekä ihmis- että koneymmärrettävässä muodossa.

Yläontologiat ja erikoisontologiat

FinnONTO-projektien aikana luotiin 30 ontologiaa, joista suuri osa pohjautuu asiasanastoihin. Yleiseen suomalaiseen asiasanastoon (YSA) pohjautuva Yleinen suomalainen ontologia (YSO) on yleisontologia. Se sisältää yleiskielen käsitteitä, jotka voivat olla monille aloille yhteisiä, ja näiden lisäksi useiden eri erikoisalojen keskeisimpiä käsitteitä. Muut ontologiat taas keskittyvät erityisesti jonkin tietyn erikoisalan käsitteisiin. Kukin näistä alakohtaisista erikoisontologioista on yhdistetty YSOon niin, että niiden käsitteet täydentävät YSOn käsitteistöä kyseisen erikoisalan osalta. Yhdistelyssä erikoisalan käsitteet on liitetty YSOn hierarkiaan ylä-alaluokkasuhteilla tai esitetty YSOn käsitteiden kanssa yhtenevinä käsitteinä. Koska YSOn käsitteet kuuluvat pääosin ylemmälle hierarkiatasolle kuin erikoisontologioiden käsitteet, YSO toimii erikoisontologioiden yläontologiana. Erikoisontologioiden yhdistämisessä yläontologiaan on se etu, että erikoisontologian tarvitsemien yleisontologian käsitteiden hierarkiaa ei tarvitse rakentaa uudestaan erikoisontologiaa kehitettäessä. Lisäksi kun yläontologiaan on liitetty useampia erikoisontologioita, osataan nopeasti sanoa, mikä on kahden eri erikoisontologiaan kuuluvan käsitteen suhde toisiinsa.

Koko-ontologia

Erikoisontologioiden ja YSOn lisäksi projekteissa on luotu myös KOKO-ontologia. KOKO-ontologia luodaan automaattisesti yhdistämällä YSO ja 15 erikoisontologiaa yhdeksi itsenäiseksi ontologiaksi. KOKOa koostettaessa sellaiset käsitteet, jotka esiintyvät useammassa kuin yhdessä ontologiassa, sulautetaan yhteen. KOKO-ontologiaa käytettäessä kaikki käsitteet löytyvät samasta ontologiasta, joten aineiston kuvailijan ei tarvitse arvailla, mistä ontologiasta tarvittava käsite mahdollisesti löytyisi. Kuvailijan ei esimerkiksi tarvitse miettiä, tulisiko käsite varis valita YSO-ontologiasta vai Viikin kampuskirjaston Agriforest-asiasanastoon perustuvasta AFO-ontologiasta ja mikä näiden käsitteiden ero on, vaan KOKOsta löytyy vain yksi käsite, johon termi varis viittaa.

KOKOn automaattista yhdistämistä kehitetään parhaillaan. Tavoitteena on, että kun YSOa tai jotakin erikoisontologioista päivitetään, uusi yhdistäminen tehtäisiin automaattisesti. Silloin tuorein versio KOKOsta olisi heti käytössä. Erikoisontologiat voivat kuitenkin perustua YSOn eri versioihin, jolloin ne voivat olla epäyhtenäisiä yläontologian kanssa. Ensinnäkin sama käsite voi esiintyä sekä useissa YSOn eri versioissa että monissa erikoisontologioissa ilman, että käsitteitä on merkitty yhteneviksi. Tämä johtaa siihen, että sama käsite löytyy KOKOsta useamman kerran. Toiseksi samaan käsitteeseen voidaan viitata eri sanoilla, jolloin täytyy selvittää, mikä sanoista on suositeltava. Lisäksi joissain ontologioissa hierarkia on paikoittain tarkempi kuin toisissa. Esimerkiksi yhdessä ontologiassa käsite koira voi olla suoraan käsitteen nisäkkäät alla, kun taas toisessa ontologiassa koira on alakäsite koiraeläimille, joka taas on alakäsite nisäkkäille. Tällainen epäyhtenäisyys hankaloittaa automaattista yhdistämistä.

1204_mutu.jpg
Havaintokuva KOKOn sisältämien ontologioiden suhteista toisiinsa.

Työkaluja päivittämiseen ja koordinointiin

KOKOn yhdistämistä haittaavat ongelmat voitaisiin ratkaista niin, että erikoisontologiat päivitettäisiin vastaamaan uusinta YSOn versiota ja että erikoisontologioiden ylläpitäjät sopisivat keskenään, kuka vastaa mistäkin käsitteestä tai hierarkian osasta. Näin voitaisiin myös vähentää saman työn tekemistä useaan kertaan. Erikois-yläontologiaparin päivittämiseen tai erikoisontologioiden päällekkäisyyksien tarkasteluun ei FinnONTO-projekteissa ole aikaisemmin ollut työkaluja, mutta nyt Semanttisen laskennan tutkimusryhmässä on kehitetty MUTU-työkalu YSOn muutosten tunnistamiseen ja välittämiseen erikoisontologioille. MUTUn lisäksi käyttöön on tulossa KOAN-työkalu, jonka avulla voidaan löytää samoja käsitteitä usean erikoisontologian välillä. Aiemmin erikoisontologioissa on otettu huomioon vain YSOn käsitteet, mutta KOKOn rakentamisen myötä erikoisontologioiden kehittäjien tulisi sopia työnjaosta myös muiden yhteisten käsitteiden osalta.

KOKOn yhdistämisestä tekee haastavaa omalta osaltaan se, ettei kaikkia FinnONTO-projektien aikana tuotettuja erikoisontologioita päivitetä tasaisin väliajoin vaan pikemminkin projektiluontoisesti. Pitkät välit erikoisontologioiden päivityksissä johtavat siihen, että YSOon on voinut edellisen päivityksen jälkeen tulla tuhansia muutoksia ja muihin erikoisontologioihin paljon samoja käsitteitä. Ideaalitilanteessa kaikki erikoisontologiat perustuisivat samaan YSOn versioon, mutta käytännössä juuri päivitysvälien vaihtelun takia tavoitteena on päivittää erikoisontologiat mahdollisimman läheisiin YSOn versioihin. Sekä MUTUa että KOANia kehitettäessä on pyritty ottamaan huomioon erilaisten päivitysrytmien tuomat haasteet muutosten ja käsitteiden määrässä. Työkalujen lisäksi on suunniteltu myös prosesseja päivittämisen jouhevoittamiseen sekä käsitteiden koordinointiin ontologioiden välillä.

MUTU — työkalu YSOn muutosten tunnistamiseen

MUTU-työkalu luotiin tukemaan erikoisontologiakehittäjiä ontologioiden päivittämisessä. MUTU listaa muutokset erikoisontologian YSO-version sekä YSOn uusimman version välillä ja yhdistelmäontologioiden tapauksessa päivittää yhdistelmään uusimman YSOn. YSOn muutoksista tehdään lista ja muutokset myös merkitään erikoisontologiaan, jolloin muuttuneet käsitteet on helpompi huomata.

YSOn muutoksien määrää pyritään hallitsemaan kahdella tavalla. Listauksissa YSOn muutokset on jaoteltu muutostyyppien mukaan, ja lisäksi jokaisen muutostyypin muutokset on lajiteltu erikoisontologian kannalta kiinnostaviin ja ei-kiinnostaviin. Muutostyyppien mukaisessa lajittelussa esimerkiksi lisätyt käsitteet on eroteltu hierarkiamuutoksista, jotka taas on eroteltu asiasanamuutoksista. Kiinnostavien ja ei-kiinnostavien muutosten luokittelu vaihtelee muutostyypistä toiseen, sillä muutoksen kiinnostavuuden kriteerit vaihtelevat muutostyypeittäin. Kaikki YSOssa tapahtuneet muutokset eivät ole kiinnostavia erikoisontologian kannalta. Jonkin käsitteen hierarkiamuutos on mahdollisesti kiinnostava, jos se tapahtuu lähellä erikoisontologiaa, kun taas asiasanamuutos on kiinnostava vain silloin, kun se koskee erikoisontologian ja YSOn yhtenevää käsitettä. Esimerkiksi uuden tietotekniikkakäsitteen lisääminen YSOon ei luultavasti ole kiinnostava musiikkiontologian kannalta. Siksi ei ole järkevää yrittää selvittää silmämääräisesti pitkän listan perusteella, mitkä listatuista muutoksista olisivat kiinnostavia. Sen sijaan muutokset voidaan alustavasti erotella sen mukaan, ovatko ne lähellä ontologian aihepiiriä. Jos ovat, ne aiheuttavat todennäköisemmin muutoksia erikoisontologiaan.

FinnONTO-projektien erikoisontologiat ovat suurimmaksi osaksi ihmisen tuottamia ja siten hyvälaatuisia. Tämän takia MUTUlla ei muuteta itse erikoisontologian käsitteitä, vaan ontologiakehittäjä harkitsee jokaisen muutoksen kohdalla, miten muutos vaikuttaa erikoisontologiaan. Koneellisesti ei esimerkiksi voida varmasti sanoa, ovatko erikoisontologiasta jo löytyvä käsite ja YSOon lisätty käsite samoja, vaikka niihin viitattaisiinkin samalla sanalla. Esimerkki tästä on sana poliisi, joka on monimerkityksellinen ja voi tarkoittaa poliisia joko ammattina tai organisaationa.

MUTUn arvioiminen

MUTUn ensimmäinen versio valmistui kesällä, ja sen toimintaa on ollut arvioimassa neljä erikoisontologiakehittäjää. Arvioinnissa ontologiakehittäjät ovat päivittäneet ontologioitaan käyttäen MUTUn muutoslistauksia sekä raportoineet, kuinka hyvin kiinnostavien ja ei-kiinnostavien muutosten tunnistamisessa on onnistuttu. Lisäksi arvioinnin tavoitteena on ollut selvittää, kuinka hyvin MUTU tukee päivitystyötä ja miten päivittämistä voisi edelleen helpottaa ja tukea. Arvioinnin tulokset raportoidaan myöhemmin ilmestyvässä diplomityössäni.

KOKOn sisältämät ontologiat:

  • YSO/ALLSO - Yleinen suomalainen ontologia
  • MAO - Museoalan ontologia
  • TAO - Taideteollisuusalan ontologia
  • VALO - Valokuvausalan ontologia
  • AFO - Viikin tiedekirjaston ontologia
  • KAUNO - Kaunokki-ontologia
  • MUSO - Musiikin ontologia
  • KTO - Kielitieteen ontologia
  • KITO - Kirjallisuudentutkimuksen ontologia
  • KULO - Kulttuurien tutkimuksen ontologia
  • PUHO - Puolustushallinnon ontologia
  • LIITO - Liiketoimintaontologia
  • JUHO - Julkishallinnon ontologia
  • MERO - Merenkulkualan ontologia
  • TERO - Terveyden ja hyvinvoinnin ontologia



Kirjoittajasta:
Sini Pessala opiskelee koneoppimista ja WWW-teknologioita Aalto-yliopistossa sekä kieliteknologiaa ja yleistä kielitiedettä Helsingin yliopistossa. Lisäksi hän työskentelee Aalto-yliopiston Semanttisen laskennan tutkimusryhmässä, jossa hän tekee diplomityötään linkittyneiden ontologioiden muutoksenhallinnasta.