Museoiden säpäkkeet ja supikkaat semanttisen webin ontologisessa käsitteistössä

Suvi Kettula

Vuonna 2002 Helsingin yliopiston tietojenkäsittelytieteen laitoksen ja Tietotekniikan tutkimuslaitos HIIT:n yhteistyönä aloitettiin MuseoSuomi-tutkimushanke, jossa haluttiin kehittää ja testata semanttisen webin tekniikoita. Semanttisessa webissä muodostetaan tietojen välille tiedon merkityssisältöön perustuvia suhteita. Tavoitteena on konetulkintainen tieto, jolloin eri järjestelmistä tulevat tiedot voidaan liittää toisiinsa verkostoksi tiedon sisältämän merkityksen perusteella. Merkitykset voivat liittyä esimerkiksi aikaan, paikkaan, tapahtumiin, toimijoihin, esineisiin tai materiaaleihin. Tavoitteena on parantaa verkkosisältöihin liittyvää tietojen yhteentoimivuutta ja yhteismitallisuutta ja mahdollistaa sisältöperustainen haku ja samoilu.

Semanttisessa webissä merkitykset linkittyvät toisiinsa ontologioiden avulla. Ontologiat ovat tietorakenteita, joissa on yhteisesti sovittu täsmällinen kuvaustapa sovellusalueen käsitteistä ja käsitteiden välisistä suhteista. Etuna tässä on se, että käsitteistöt ovat sekä koneen että ihmisen tulkittavissa. Ontologian käsitteistössä käsitteet ja näiden väliset suhteet näkyvät ihmisille luonnollisen kielen avulla sanoina ja koneet hakevat, siirtävät ja yhdistävät tietoa käsitteiden koneelle tarkoitettujen URI-tunnisteiden ja niiden välisten yhteyksien avulla.

Semanttisen webin teknologioita testaava tutkimushanke tarvitsi sopivan testiaineiston. Samoihin aikoihin museoalalla keskusteltiin sekä kansallisella että kansainvälisellä tasolla yhä kuuluvammin tarpeesta julkaista museoiden kokoelmia internetissä. Tavoitteena oli saattaa usean museon kokoelmat nähtäväksi yhdestä portaalista.  Vuonna 2002 tietojenkäsittelytieteen ja museoalan tahtotilat yhdistettiin kulttuuriperintöön keskittyvässä MuseoSuomi-hankkeessa. Tavoitteena oli saattaa museokokoelmia semanttisen haun piiriin.

Yhteistyön alkaessa ei maassamme ollut semanttisen webin tarpeisiin sopivaa ontologista käsitteistöä, johon museon tietokannoissa oleva tieto olisi kiinnitetty. Sellainen tuli siis ensin luoda. Lähtökohdaksi otettiin museoalalla maassamme laajasti käytetty sanasto: Museoalan asiasanasto eli MASA, jonka avulla luotiin semanttisen webin tarpeisiin sopiva ontologinen käsitteistö. Itselläni oli mahdollisuus työskennellä tutkijana hankkeen yhteydessä muodostetussa Semanttisen laskennan tutkimusryhmässä (SeCo) kahteen eri otteeseen.

Tesauruksesta ontologiaksi

Väitöskirjassani kuvaan Museoalan asiasanastoon sisältyvien tekstiili- ja pukinetermien ja niihin liittyvien materiaalitermien muokkaamista asiasanastosta semanttisen webiin sopivaksi ontologiseksi käsitteistöksi.

Väitöskirja jakautuu kahteen osaan. Ensimmäisessä osassa vastataan kysymykseen: miten museotekstiileihin liittyvistä tekstiilialan käsitteistä muodostetaan ontologinen käsitteistö? Käsitteistön kehittämisessä tutkimusmenetelmänä on terminologian teoriassa ja sanastotyössä käytetty käsiteanalyysi. Analyysin avulla tutkin muun muassa termin ja käsitteen sekä käsitteiden välisiä suhteita. Samanaikaisesti otin huomioon semanttisen webin ontologisen näkökulman ehdot, joihin sisältyy muun muassa vaatimus pystyä erottamaan käsitteiden välinen geneerinen hierarkkinen suhde, koostumussuhde sekä funktiosuhde. Museoalan asiasanaston tekstiili- ja pukinekäsitteistöä rikastin muiden sanastojen avulla. Tällaisia ovat muun muassa Yleinen suomalainen asiasanasto, Muotoilualan asiasanasto ja Taideteollisuuden asiasanasto. Lisäksi käytin hyväkseni tekstiilikulttuuriin nojaavia tutkimuksia, kirjallisuutta sekä sellaisia tekstiilialan standardeja, joissa käsitellään alan termejä. Käsiteluokkien muokkaamista siivittivät myös kokemukseni käsityötieteen, Designmuseon sekä Helsingin ja Espoon kaupunginmuseoiden tekstiilikokoelmien parissa.

Ontologian käsitteistö muokkautui lähes 1000 käsiteluokkaa sisältäväksi hierarkiaksi. Näistä noin puolet kuvaa pukineita eli vaatteisiin ja asusteisiin liittyviä käsitteitä ja noin 300 tekstiilikäsitteitä. Näitä ovat esimerkiksi sisustus-, suoja-, säilytys- ja kodintekstiilit (ks. kuva 1). Tekstiilimateriaaleja ja kuituluokkia on yhteensä noin 100. Käsitteistön kehitystyössä pohdinnan kohteena ovat käsitteiden väliset semanttiset suhteet, käsiteluokkien hierarkkinen syvyys, vieruskäsitteiden määrä ja luokkien nimeäminen.

Kuvankaappaus1_Ve-TI.jpg

Kuva 1. Kuvankaappaus osasta tekstiiliontologian hierarkkista käsitteistöä.

Ontologiat ja museoiden luettelointitiedot yhdistetään

Jotta tietoja voidaan ontologian avulla hakea, täytyy tieto ensin yhdistää, annotoida, kehitettyyn ontologiseen käsitteistöön. Tässä vaiheessa siirrytään tutkimukseni toiseen osaan. Tutkimuksen kohteena olevat yhdistettävät tiedot ovat MuseoSuomi-hankkeessa mukana olleiden kolmen museon: Suomen Kansallismuseon, Lahden kaupunginmuseon ja Espoon kaupunginmuseon tekstiilikokoelmien luettelointitiedoista. Esineiden luettelointi kuuluu museoiden perustutkimukseen. Luetteloinnissa tutkitaan ja kirjataan tietojärjestelmään esineeseen liittyviä artefaktitietoja, esineen tausta- eli provenienssitietoja ja esineeseen liittyviä museon hallinnointiin liittyviä tietoja.

Väitöskirjani kohteena oli 4128 museoesinettä, joista tekstiilejä oli yhteensä 1803. Tekstiilit yhdistettiin eli annotoitiin ontologian käsiteluokkiin esineen nimen ja esineen materiaalin nimen perusteella. Kaikkien esineiden materiaalit yhdistettiin tekstiilimateriaalien osalta tehtyyn ontologian käsitteistöön. Automaattisen annotoinnin avulla museoiden ryijyt, koivikkaat, tohtorinhatut, sandaletit, lappavyöt ja monet muut tekstiilit ja pukineet ja niistä tehdyt materiaalitiedot yhdistyivät automaattisesti vastaavaan ontologian käsiteluokkaan. Yhdistyminen ei kuitenkaan kaikissa tapauksissa onnistunut, jolloin kyseiset tiedot jouduttiin annotoimaan käsin. Tämä käsin tehtävä annotointi kuului työhöni Semanttisen laskennan tutkimusryhmässä.

Koska automaattinen annotointi olisi kustannustehokasta ja nopeaa, halusin väitöskirjani toisessa osassa tutkia syitä siihen, miksi osa nimi- ja materiaalitiedoista jäi annotoitumatta käsitteistöön. Samalla etsin ratkaisua sille, voitaisiinko joko museoiden luettelointitapaa tai ontologian käsitteistöä muuttamalla saada aikaan parempi annotoitumistulos. Tuloksena oli, että esineen nimikentän tiedoista löytyi kuusi ja materiaalitietojen kohdalla kahdeksan erilaista syykategoriaa annotoitumisen esteeksi. Edellisiä oli 475 ja jälkimmäisiä 423 tapausta. Keskeisimpänä ongelmana oli esineen nimi- tai materiaalikentän täyttäminen pitkillä, useiden termien lausekkeella, kun useissa tapauksissa olisi riittänyt tekstiiliä kuvaavan termin perusmuoto ilman lisämääreitä. Yhdyssanatermeihin oli usein yhdistetty esimerkiksi materiaali ja esinettä (samettitakki, pellavapöytäliina, verkapaulat) kuvaava termi tai käyttötapaa ja esinettä (aamunuttu, mökkimatto, edustuspäähine) kuvaava termi. Myös luettelointikenttään kirjoitetut numeeriset ilmaisut estivät annotoitumisen. Oli myös tapauksia, joiden perusteella itse ontologiaa tulisi rikastaa uusilla käsiteluokilla. Homonyymisissä termin ja käsitteen välisissä suhteissa tarvitaan kuitenkin yleensä aina apuna käsin tehtävää annotointia.

Ontologiaan pohjautuvan tiedontallennuksen ja -haun etuja

MuseoSuomi-pilottiportaali hyväksikäyttää väitöskirjassa kehitettyä käsitteistöä. Se on demonstraatio semanttisesta julkaisukanavasta, jossa eri tietolähteistä museoesineisiin yhteismitallisesti liitettyä tietoa voidaan hakea yhdestä portaalista. Hakuja voidaan tehdä perinteisen sanahaun lisäksi ns. käsitehaun avulla, missä kone osaa erotella käsitteiden merkityksiä. Jos esimerkiksi tiedonhakija kirjoittaa käsitehakukenttään sanan villa, hakutuloksessa kone tulkitsee, että villa-sana tarkoittaa materiaalia, yhdyssanassa villatakki esinetyyppiä tai yhdistelmässä Helsingin Villakehräämö valmistajatietoon liittyvää tietoa. Hakija voi jatkaa hakuaan tästä eteenpäin haluamaansa suuntaan.

Kun ontologian hierarkia on näkyvillä käyttöliittymässä, voi tiedonhakija hakea tietoa haluamaltaan hierarkian tasolta. Hakutulos ottaa huomioon automaattisesti kaikki sellaiset käsitteet ja niihin liittyvät tiedot, jotka kuuluvat kyseisen luokkakäsitteen alaluokkiin. Näin yhdellä haulla saadaan hakutulokseksi esimerkiksi kaikki päällystakkityypit tarvitsematta hakea erikseen esimerkiksi peskiä, kaprokkia tai sortuukkia.

Koska ontologian käsitteistöön liittyvä haku on kielestä riippumaton, voidaan vaikka englanninkielisellä kyselyllä saada hakutulokseksi suomenkielellä luetteloituja esineitä ja näihin liittyviä tietoja. Tieto haetaan ja yhdistetään ontologian käsiteluokkien avulla.

Koska ontologian käsitteistön suhteet perustuvat merkityssisältöön, voidaan tiedonhakijalle suositella muita samankaltaisia tekstiileitä tai esimerkiksi muita samasta materiaalista tai samana aikana tehtyjä pukineita (ks. kuva 2). Myös paikat ja toimijat eli valmistajat ja käyttäjät yhdistävät tekstiilejä, jolloin muodostuu suuri semanttinen verkosto.

Kuvankaappaus2_Ve-TI.jpg

Kuva 2. Kuvankaappaus MuseoSuomi-portaalin yhden esineen tiedoista. Oikeassa reunassa ohjelman tekemät suositukset.

Erilaisten käsiteluokkien välisiin assosiatiivisiin kytkentöihin perustuvien suosittelusääntöjen avulla voidaan liittää automaattisesti toisiinsa vaikkapa tietyt esineet ja tapahtumat tai esineet ja työvälineet. Esimerkiksi tapahtumaontologian nypläys-käsitteeseen voidaan kytkeä esineontologian nypylät-, mynsterit- ja nyplätyt pitsit -käsitteisiin. Näin tiedonhakijalle voidaan suositella automaattisesti muita semanttisesti toisiinsa liittyviä esineitä tai tietoja. Nämä puolestaan ovat aika-, paikka- ja toimijaontologioihin sidottuja, jolloin haku laajenee, ja tuloksena saadaan aiheisiin liittyviä uusia näkökulmia.

Väitöskirjassa kehitetty ontologinen tekstiilialan käsitteistö on maassamme ensimmäinen. Myöskään museoiden tekstiilien luettelointitietojen annotoitumista ontologiseen käsitteistöön ei ole aiemmin tutkittu. Ontologinen tekstiilikäsitteistö on käytössä MuseoSuomi-portaalin (www.museosuomi.fi) ohella Suomen Museot online -järjestelmässä (http://suomenmuseotonline.fi/fi), Kulttuurisampo-järjestelmässä (www.kulttuurisampo.fi) ja FinnONTO-ontologiajärjestelmässä (www.seco.tkk.fi/projects/sw20/). Työ on luonteeltaan tieteiden välinen ja käsityötieteen rajapinnoilla kulkevat erityisesti tietojenkäsittelytieteen, terminologian ja museologian tieteenalat.

Väitöskirja Semanttisen webin ontologisen tekstiilikäsitteistön kehittäminen ja liittäminen museoiden luettelointitietoihin on julkaistu verkkojulkaisuna osoitteessa https://oa.doria.fi/handle/10024/50313.

Kirjoittajasta:
Suvi Kettula työskentelee intendenttinä Espoon kaupunginmuseossa. Hänen käsityötieteen tieteenalaan kuuluva väitöskirjansa tarkastettiin Helsingin yliopistossa marraskuussa 2009. Oheinen artikkeli perustuu kirjoittajan väitöskirjatyöhön, jossa kehitettiin semanttisen webin ontologinen tekstiilikäsitteistö ja liitettiin tämä museoiden luettelointitietoihin.