Käsite työssä: Semanttisen yhteentoimivuuden kehittämistyö koulutuksessa ja tutkimuksessa

Suvi Remes, Miika Alonen & Mikael af Hällström

Digitalisaatio – toiminnan ja palveluiden sähköistäminen ja automatisointi sekä tämän murroksen mukanaan tuomat uudet verkostomaiset toimintatavat – vaatii meiltä tulevaisuudessa yhä kehittyneempiä tapoja hallita tietoa. Useat toimijat1 ovat jo vuosia tehneet työtä edistääkseen yhteisymmärrystä tiedonhallinnasta ja helpottaakseen eri käyttökonteksteissa ja erilaisten tietojärjestelmien avulla käsiteltävien tietosisältöjen yhteensovittamista. Myös korkeakoulut ovat toteuttaneet lukuisia yhteisiä hankkeita, joissa keskeisenä tehtävänä on ollut yhteisen määrittelyn löytäminen tiedolle. Yksi merkittävimmistä oli korkeakoulujen ja opetus- ja kulttuuriministeriön vuosina 2008–2014 toteuttama RAKETTI-hanke (RAkenteellisen KEhittämisen Tukena TIetohallinto), jossa keskityttiin korkeakoulujen toiminnan ja ministeriön ohjauksen tukemiseen. Hankkeen seurauksena ylläpidetään ja edelleen kehitetään erilaisia yhteistyön muotoja ja tietojärjestelmien yhteentoimivuutta sekä käsitteiden ja tietojen yhteismitallisuutta.

Haasteena yhteentoimivuudelle on ollut kyvyttömyys sitoa eri käyttökonteksteissa tuotetut määritykset ja merkitykset yhteen ja toisaalta puuttuvat keinot tarjota jo luodut määritykset dokumentoituna ja käytettävässä muodossa niitä tarvitsevien saataville. Vaikka määritykset ovat olleet korkeakoulujen yhteistyön tulosta, ne ovat poikkeuksetta olleet tiettyyn toteutukseen sidottuja. Kun käsite- tai tietomallit on suunniteltu ja mallinnettu tiettyyn tarpeeseen ja tietyistä lähtökohdista käsin, näiden määritysten lainaaminen uusiin toteutuksiin on johtanut tilanteisiin, joissa sidos alkuperäiseen käyttöyhteyteen on katkennut ja merkityksetkin ovat saattaneet muuttua. Koska käsitteellisiä rakenteita on hahmoteltu eri tahoilla, olemme esimerkiksi joutuneet yhä uudelleen kysymään, mitä koulutus kunkin toteutuksen kohdalla tarkoittaa. Termillä on voitu tarkoittaa määrittelijästä riippuen tutkintoa, opintojaksoa, hakukohdetta tai organisoitua kasvatusta.

Kestävän tiedonhallinnan perustaksi on kehitetty semanttista ja teknistä yhteentoimivuutta tukevaa yhteisiin sanastoihin perustuvaa tietoarkkitehtuuria. Tietoarkkitehtuuri rakentuu toisiinsa kiinteästi liittyvistä osista: sanastoista, tietokomponenteista ja näiden käyttöä kuvaavista tietomäärityksistä sekä määritysten muodostamista tukevasta yhteentoimivuusmenetelmästä.

Semanttisesti yhteentoimivat tietomääritykset

Yhteentoimivuusmenetelmässä semantiikka rakennetaan sanastojen avulla. Vuonna 2010 aloitettiin kolmikielisen Opetus- ja koulutussanaston (OKSA) laatiminen, jota koordinoi opetus- ja kulttuuriministeriö. Sanastotyöryhmässä ovat edustettuina kaikki koulutusasteet varhaiskasvatuksesta korkeakoulutukseen. Tutkimuksen tuen ja hallinnan työryhmä puolestaan aloitti syksyllä 2014 Tutkimuksen sanaston laatimisen ministeriön tuella. Näiden korkeakoulujen keskeisintä toimintaa kuvaavien sanastojen lisäksi hyödynnetään julkisen hallinnon sanastotyöprosessin suosituksen mukaisesti Julkisen hallinnon ydinsanastoa. Lisäksi on tunnistettu tarve korkeakoulujen toiminnan muita osa-alueita, esimerkiksi talous- ja henkilöstöhallintoa, käsitteleville sanastoille. Yhteentoimivuusmenetelmä edellyttää, että sanastojen täytyy olla myös koneluettavia, jotta sanastoissa käsitteille annettuja merkityksiä voidaan hyödyntää tietojärjestelmätoteutuksessa. Sanastoihin ja niissä määriteltyihin käsitteisiin täytyy näin ollen pystyä viittamaan yksilöivillä tunnisteilla. Sanastojen koneluettavuus ja yhteiskäyttö ovat mahdollisia, jos sanastot julkaistaan avoimesti kaikkien saataville keskitettyjen kansallisten sanasto- ja ontologiapalveluiden kautta.

Yhteiskäyttöiset sanastot mahdollistetaan sopimalla yhdessä käsitteiden merkityksistä ja nimityksistä ja sitoutumalla näiden käyttöön. Tämän saavuttamiseksi täytyy lisätä toimijoiden tietoisuutta paitsi jo saatavilla tai työn alla olevista sanastoista, myös sanastotyön tavoitteista, menetelmistä ja hyödyistä. Osana yhteentoimivuusmenetelmän jalkauttamista korkeakoulujen toimijoille onkin järjestetty terminologisen sanastotyön koulutusta.

Yhteentoimivuusmenetelmän sisällöllinen ja menetelmällinen perusta ovat tietokomponenteiksi nimetyt tietomääritykset. Ne ovat tietomallinnuksen keinoin luokiksi ja ominaisuuksiksi mallinnettuja käsitteitä. Tietokomponenttia muodostettaessa luokan tai ominaisuuden merkitystä ei määritellä jälleen uudelleen vaan merkitykset pohjautuvat sanaston käsitteisiin. Kyse on siis käsitteellistämisen eri tasoista ja näiden eritasoisten määritysten hyödyntämismahdollisuuksista: tavoitteena ei ole hyödyntää sanastoja tiedon hallintaan käytettävissä tietojärjestelmissä suoraan, vaan tietokomponentteina ilmenevän loogisen kerroksen kautta. Tämän lähestymistavan arvioidaan mahdollistavan eri näkökulmista tietomäärityksiä käsittelevien toimijoiden rakentavan yhteistyön ja sovellettavien määritysmenetelmien, esimerkiksi käsiteanalyysin, yhteiskäyttöisyyden. Lähestyipä asiaa sitten sanaston eli käsitemallinnuksen tai tietokomponentin eli tietomallinnuksen suunnasta, molemmissa on pohjimmiltaan kyse tietomäärityksen sisällöstä2 sopimisesta. Korkeakoulujen tietokomponenttimäärittelyn ensimmäisiä työkohteita ovat olleet opiskelun ja opetuksen alueen määritykset, joita työstetään yhdessä korkeakoulujen opintohallinnon ja tietohallinnon asiantuntijoiden osaamisverkostossa Synergiaryhmässä.

Sanastokytköksen lisäksi on keskeistä huomata, että tietokomponentit itsessään eivät kuvaa mitään yksittäistä toteutusta vaan ovat hyödynnettävissä yhä uudelleen tarvelähtöisten järjestelmäratkaisujen materiaalina. Myös jo olemassa olevien toteutusten tietomäärityksiä voidaan peilata suhteessa tietokomponentteihin ja näin vähitellen harmonisoida ne osaksi korkeakoulujen yhteistä tietoarkkitehtuuria (kuva 1).

Käsitteet osana tietojen kuvausta
Kuva 1. Käsitteet osana toiminnan ja tietojärjestelmissä käsiteltävien tietojen kuvausta.
(Miika Alonen, Creative Commons Nimeä 4.0 kansainvälinen -lisenssi)

Yhteiskäyttöisten määrityskerrosten, sanastojen ja tietokomponenttien, tuottamiseen panostetut resurssit alkavat hyödyttää toimijayhteisöä, kun toteutusprojektit pääsevät käyttämään niitä tietomallien pohjana sen sijaan, että käsitteet pitäisi kerta kerran jälkeen määritellä uudelleen. Yhdenmukaisen dokumentaation varmistamiseksi hyödyntämisen tulisi olla harkittua ja tietyllä menetelmällä toteutettua. Näitä toteutuskohtaisia otoksia nimitetään yhteentoimivuusmenetelmässä sovellusprofiileiksi. Taustalla on kansainvälinen suositus määrämuotoisen, toisesta tietomäärityksestä johdetun määrityksen dokumentaatiolle3, joka on käytössä opetusteknologian alalla muun muassa oppimateriaalien metatietoja kuvaavassa ISO/IEC 19788 standardissa. Sovellusprofiili-nimityksestä huolimatta kyse ei ole teknisestä sovelluskohtaisesta määrittelystä, vaan yhteisten määritysten soveltamisesta tiettyyn käyttötarkoitukseen. Nämä tietomallien soveltamista dokumentoivat profiilit ohjaavat edelleen teknistä määrittelyä kuten rajapinnan tai fyysisen tietomallin toteuttamista. Ohjelmistokehittäjä hyötyy, kun hän voi tarkastaa tietomäärityksen merkityksen sen profiiliin tietokomponenttitason kautta liitetystä sanastosta. Toisaalta mahdollistetaan asiantuntijoiden osallistuminen määritystyöhön, sillä profiili on edelleen selkokielinen määritys tietyn tietojärjestelmän, esimerkiksi rajanpinnan tai tietovaraston, sisällöksi aiotusta tiedosta.

Linkittämällä tietomäärityksiä yhtenäisellä tavalla eri käsitteellistämisen tasoilla (kuva 2) muodostetaan korkeakoulutuksen ja tutkimuksen yhteiskäyttöiset tietomääritykset eli kuvataan tieto, joka organisaation prosesseissa ja palveluissa käytetään. Kerran luotuja yhteiskäyttöisiä määrityskerroksia voidaan pitää kohtuullisen vakaina: ne muuttuvat hitaasti toiminnan muutoksien yhteydessä. Kuvatulla toimintatavalla varmistetaan myös semanttinen yhteentoimivuus eli tiedon vastaanottaminen ja käsittely tavalla, jossa tietojen merkitys säilyy – käsitteet otetaan konkreettisesti työhön.

Semanttisen yhteentoimivuuden toteuttaminen tietomääritysten linkittämisellä
Kuva 2. Yhteentoimivuusmenetelmä ja semanttisen yhteentoimivuuden toteuttaminen tietomääritysten linkittämisellä.
(Miika Alonen, Creative Commons Nimeä 4.0 kansainvälinen -lisenssi)

Yhteentoimivuuden välineistö

Uudet toimintatavat tarvitsevat usein jalkauttamisen tueksi työvälineitä. Yhteiskäyttöisten tietokomponenttien määrittelyyn, ylläpitoon ja julkaisemiseen ei ole saatavilla työskentelyä tukevaa järjestelmäratkaisua ja siksi sellaisen kehittämiseksi on käynnissä välineistöprojekti. Tietokomponenttikirjastoksi nimetyn osan lisäksi kehitetään toimijoiden toteutuskohtaisesti tarvitsemien rajapintojen ja tietomallien määrittelyyn sovellusprofiilien ylläpito- ja julkaisuympäristö. Tietojärjestelmällä voidaan dokumentoida tietokomponenteista johdettu toteutus, esimerkiksi rajapinnan tietosisältö, ja tuottaa sovellusprofiilin koneluettavasta formaatista teknisiä skeemoja rajapintojen määrittelyä varten. Kehitettävä tietojärjestelmä on työkalu, jolla voidaan konkreettisesti hyödyntää syntyviä tietoarkkitehtuurin määrityksiä operatiivisessa toiminnassa.

Työkalujen kehittämisessä noudatetaan avoimen lähdekoodin periaatetta ja syntyvä toteutus lisensoidaan avoimen lähdekoodin lisenssillä. Näin halutaan mahdollistaa palveluiden yhteisöllinen ja tarvelähtöinen kehittäminen ja myös jatkokehitysideat. Avoin kehittäminen mahdollistaa sen, että sidosryhmät voivat seurata projektin etenemistä ja arvioida sen tuotoksia oman toimintansa kannalta joustavasti eri vaiheissa.

Tietomääritysten keskinäisestä linkittymisestä johtuen kehitettävä työkalu ei ole irrallinen järjestelmä vaan vahvasti sidoksissa jo olemassa olevaan palvelu- ja järjestelmäekosysteemiin. Työkaluun kehitetään integraatio sanastopalveluun ja tuodaan näin siellä julkaistujen sanastojen käsitemääritelmät osaksi tietokomponenttien sisältöä. Vastaava integraatiotarve on tunnistettu myös koodistojen ylläpitoon käytettävien järjestelmien osalta. Monet tietokomponenttien ominaisuudet ilmentyvät koodistoina, tietynlaisina rajoitettuina arvojoukkoina, ja sovellusprofiileja muodostettaessa olisi tärkeää pystyä viittamaan juuri kyseisessä sovellusprofiilissa tarvittavaan koodistoon. Edelleen koodistoista tulisi olla linkitys sanastoon: myös koodiarvot perustuvat sanaston käsitteisiin4, joten ei pitäisi olla tarvetta määritellä koodiarvojen merkityssisältöä sanaston määritelmistä poikkeavalla tavalla. Selvitystyössä on todettu monilla toimijoilla olevan käytössä hyvin kehittyneitäkin koodistopalveluja, mutta semanttisen yhteentoimivuuden mahdollistavat integraatiot vaativat jatkoselvityksiä ja järjestelmien jatkokehittämistä. Yhteentoimivuuden välineistö tulisikin nähdä modulaarisista järjestelmäkomponenteista muodostuvaksi palvelukokonaisuudeksi; osia siihen voidaan tuottaa tarvelähtöisesti erilaisilla kehitysprojektikokoonpanoilla.

Tietokomponenttien ja sovellusprofiilien määrittely-, ylläpito- ja julkaisuratkaisua toteutetaan poikkihallinnollisena ja organisaatiorajat ylittävänä yhteistyönä. CSC – Tieteen tietotekniikan keskus koordinoi ja toteuttaa työkalua korkeakoulujen tarpeisiin osana opetus- ja kulttuuriministeriön hallinnonalan arkkitehtuurityötä. Projektikumppanuudella Aalto-yliopiston kanssa halutaan varmistaa toteutuksen tarkoituksenmukaisuus ja soveltuvuus käytännön integraatioratkaisuihin. Kehitystyössä on kuitenkin alusta saakka huomioitu tietomääritysten ja järjestelmäratkaisun laajempi kansallinen yhteiskäyttöisyyden ulottuvuus. Kehitystyötä tarkastellaan muun muassa Verohallinnon koordinoimassa Kansallisen tulorekisteri -hankkeessa, ja tämän laajemman vuoropuhelun kautta pyritään varmistamaan kestävät mallinnusvalinnat ja teknologiat. Välineistön kehityslaboratoriona toimii valtiovarainministeriön JulkICT-toiminnon ylläpitämä JulkICTLab-palvelukehitysympäristö.

Mallinnustyön synergiat

Tietomallinnuksen perimmäisenä tarkoituksena on mahdollistaa palveluiden ja palveluita tukevien tietojärjestelmien toteutus. Siihen liittyvänä semanttisen yhteentoimivuuden toteuttamistarve ei koske vain koulutuksen ja tutkimuksen toimintakenttää, vaan myös muualla julkisessa hallinnossa on jo pidemmän aikaa kiinnitetty huomiota yhteentoimivuuden ja semanttisen yhteentoimivuuden kehittämisen tavoitteisiin ja toimenpiteisiin5. Tietoisuus yhteiskäyttöisten tietomääritysten hyödyistä lisääntyy konkreettisten esimerkkien ja toteutusten kautta. Digitalisaatioon liittyvän koneälyn lisäksi tarvitsemme edelleen myös meidän ihmisten välistä yhteisymmärrystä ja yhteisiä toimintamalleja – avoimesti ja selkokielisinä julkaistut tietomääritykset palvelevat parhaimmillaan myös tämän vuorovaikutuksen edistämisessä.

1Esimerkiksi Tikesos-hanke
2Kalliokuusi, Virpi & Katri Seppälä 2014. "Terminologisen käsiteanalyysin rooli käsitemallinnuksessa". Terminfo 4/2014.
3Dublin Core, Application Profile
4Teemaa käsitelty esim. Laaksonen, Maarit & Erja Ailio 2012. "Terminologisen sanastotyön ja luokitustyön yhdistäminen". Finnish Journal of eHealth and eWelfare, vol. 4, no.1. 2012.
5Julkisen hallinnon yhteisen metatietopalvelun esiselvitys

Kirjoittajista:
Suvi Remes työskentelee projektipäällikkönä CSC – Tieteen tietotekniikan keskuksessa semanttisen yhteentoimivuuden kehittämistehtävissä.
Miika Alonen työskentelee tietoarkkitehtina CSC – Tieteen tietotekniikan keskuksessa semanttisen yhteentoimivuuden kehittämistehtävissä.
Mikael af Hällström on ylitarkastaja Verohallinnon henkilöverotuksen ohjaus- ja kehittämisyksikössä ja toimii julkisen hallinnon käsitemalli- ja ydinsanastoryhmien vetäjänä.