Sanastotyö tietokomponenttityön tukena

Erja Ailio & Konstantin Hyppönen

Sosiaalialan tietoteknologiahanke (Tikesos) käynnistyi vuonna 2005 ja päättyy vuoden 2011 lopussa. Sosiaali- ja terveysministeriön hankkeen toteuttavat Suomen Kuntaliitto, Terveyden ja hyvinvoinnin laitos ja Itä-Suomen sosiaalialan osaamiskeskus yhteistyössä Itä-Suomen yliopiston kanssa. Yksi hankkeen keskeisistä tavoitteista on ollut vahvistaa sosiaalihuollon yhtenäistä tietopohjaa sekä luoda alalle tietotekniikkaa hyödyntäviä palvelutapoja ja toimintarakenteita.

Vuosina 2006–2010 hankkeessa kartoitettiin sosiaalihuollon palvelujen asiakastietotarpeita. Kartoitus tehtiin yhteistyössä kunkin palvelutehtävän ammattilaisten kanssa. Kartoituksen pohjalta julkaistiin useita selvityksiä palvelukohtaisista asiakastiedoista. Nämä selvitykset ovat toimineet hankkeessa mallinnettujen asiakasasiakirjarakenteiden pohjana. Asiakasasiakirjojen mallintamisen alkuvaiheessa todettiin kuitenkin palvelukohtaisten asiakastietojen systemaattisen yhtenäistämisen tarve. Kuvissa 1 ja 2 on kahdessa eri palvelukohtaisen asiakastiedon selvityksessä ilmaistut velkaan liittyvät tietotarpeet.

tietokomponentti1.jpg tietokomponentti2.jpg

Kuvat 1 ja 2. Velkaan liittyvät tietotarpeet toimeentulotuessa ja sosiaalisessa luototuksessa

Tietokomponentit

Asiakastietojen yhtenäistämisen perustana päätettiin käyttää tietokomponentteja. Linjaus perustui hankkeessa tehtyyn selvitykseen semanttiseen yhteentoimivuuteen tähtäävistä standardeista. Tietokomponentit ovat semanttisia tietokokonaisuuksia, jotka kuvaavat reaalimaailman ilmiöitä. Jokaisella tietokomponentilla on nimi sekä joukko tietokenttiä. Tietokomponentilla ja sen kentillä pitää olla selkeästi määritelty käyttötarkoitus ja semanttinen merkitys. Tietokomponenttien mallintamisen toinen keskeinen tavoite yhtenäistämisen rinnalla on tietokomponenttien uudelleenkäytettävyys. Sen perusajatuksena on, että tietokomponentin rakenne määritellään kerran, ja sitä hyödynnetään useassa eri asiakirjassa. Joitakin tietokomponentteja käytetään jopa kaikissa sosiaalihuollon asiakirjoissa. Esimerkiksi tietokomponentti asiakirjan perustiedot sisällytetään kaikkiin sosiaalihuollon asiakirjoihin, koska se sisältää kenttiä, joita saatetaan tarvita missä tahansa asiakirjassa. Kuvassa 3 on esimerkki tietokomponentista Velka, jossa on huomioitu kuvissa 1 ja 2 esitetyt sekä toimeentulotuen että sosiaalisen luototuksen velkaan liittyvät tietotarpeet.

Tietokomponenttien mallinnustyössä tarvitaan monen tyyppistä osaamista ja taitoa. Vaikka kyseessä on tekninen tietomallinnustyö, tietokomponenttien luokkien ja niiden kenttien taustalla on käsite, jonka semanttista merkitystä pitää pohtia myös sisällöllisestä, esimerkiksi sosiaalihuollon, näkökulmasta. Teknistä osaamista tietämyksenhallinnasta tarvitaan, koska tietokomponentit muodostavat semanttisen tietomallin, jonka suunnittelussa on sovellettava valittuja tietomallinnusperiaatteita. Tietokomponenttien luokkien ja kenttien määritelmien laatimisessa tarvitaan myös terminologista sanastotyötä. Sosiaalialan tietoteknologiahanke ja Sanastokeskus TSK toteuttivat vuosina 2010–2011 yhdessä tietokomponentteihin liittyvän sanastoprojektin sosiaali- ja terveysministeriön rahoituksella.

tietokomponentti3.jpg

Kansainvälisistä standardeista ohjeita 

Tietokomponenttien mallinnustyöllä on selkeä yhteys terminologiseen sanastotyöhön. Kummassakin pyritään analysoimaan käsitteitä ja niiden välisiä suhteita sekä määrittelemään käsitteet niin, että niiden merkitykset pysyvät selkeästi erillään toisistaan.  Tästä huolimatta tiedossamme ei ole tietokomponentteihin liittyvää perusteellista terminologista sanastotyötä. Kattavia tietokomponenttikirjastoja on kehitetty muun muassa YK:ssa (UN/CEFACT CCL), Yhdysvalloissa (NIEM) ja Tanskassa (OIO XML), mutta näissäkin tietorakenteet on yleensä varustettu vain kuvauksilla, ei varsinaisilla terminologisilla määritelmillä.

ISO/IEC 11179-4 -standardi antaa ohjeita tietorakenteisiin liittyvien kuvausten laatimiseen. Standardissa kerrotaan muun muassa, että kuvauksen tulee olla tarkka, yksiselitteinen, lyhyt, kuvaileva lause. Terminologisesta määritelmästä poiketen kuvaus voi koostua myös useasta lauseesta. Kehämääritelmien käyttö ei ole sallittua. Kuvauksiin otetaan usein mukaan myös tietotyyppi. Standardissa on annettu myös esimerkkejä ohjeiden käytöstä ”hyvien” ja ”huonojen” kuvausten muodossa, kuten:

Freight Cost Amount
1) good definition: Cost amount incurred by a shipper in moving goods from one place to another.
2) poor definition: Costs which are not related to packing,                   Kuva 3. Tietokomponentti Velka             documentation, loading, unloading, and insurance.
                                                          REASON - The poor definition does not specify what is included in the                                                           meaning of the data.

Muissa kansainvälisissä standardeissa näitä ohjeita on tarkennettu. Esimerkiksi NIEM antaa melko tarkkoja ohjeita siitä, miten tietokentän tietotyyppi vaikuttaa kuvaukseen. 

Tietorakenne vaikuttaa määrittelyyn

Tietokomponenttien mallinnustyössä tarvitaan terminologisen työn osaamista, koska kyseessä on käsitteiden seikkaperäinen analyysi ja oikeiden termien valitseminen. Tietomallinnus lyö kuitenkin oman leimansa terminologiseen työhön. Tietokomponentin luokan taustalla olevan käsitteen määritelmän suunnittelussa pitää huomioida tietokomponentin kenttien sisällöt ja toisaalta kentän määritelmässä koko tietokomponentti toimii kontekstina, joka vaikuttaa määritelmään. Esimerkiksi Kuvaus-kenttä voi liittyä useisiin eri komponentteihin ja kussakin tapauksessa sen tarkoitus on mahdollistaa komponentin kuvaaman asian vapaamuotoinen kuvailu. Kielitaito-tietokomponentissa kuvailulla tarkoitetaan kielitaidon vapaamuotoista kuvailua kun taas Varallisuus-tietokomponentissa varallisuuden luonteen vapaamuotoista kuvailua. Kentän määritelmässä tai huomautustekstissä voi olla myös viittauksia muihin saman tietokomponentin kenttiin.  Esimerkiksi tietokomponentin Pankkitili määritelmä ”pankin ja pankkitilin tunnusten yhdistelmä” viittaa kahteen tietokomponentissa olevaan kenttään BIC (pankin tunnus) ja IBAN (tilinumero).

Ihmisten käyttämissä luonnollisissa kielissä sanan lopullinen merkitys muodostuu usein vain kontekstin, eli lauseen kautta. Myös tietomallinnustyössä termeillä ja määritelmillä on monia kasvoja. Kenttien ja tietokomponenttien lopullinen semanttinen merkitys on usein tiedossa vasta siinä vaiheessa, kun niitä käytetään asiakirjarakenteessa, tai jopa vasta silloin, kun asiakirjaan tallennetaan tietoa. Kenttien ja tietokomponenttien nimissä on aina tulkinnan varaa. Esimerkiksi sosiaalisen luototuksen asiakasasiakirjoissa Velka-tietokomponenttia voidaan käyttää ilmaisemaan sekä asiakkaan olemassa olevaa velkaa että sosiaalista luottoa, jota asiakas on hakemassa. Myös komponentissa olevan Määrä-kentän sisältö tarkentuu asiakirjakontekstin mukaisesti maksamattoman velan määräksi tai haettavan luoton määräksi. 

Kun määritelmän kaikki tulevat käyttökohteet eivät ole ennalta tiedossa, tietokentän määrittely onnistuu harvoin kattavasti ensi yrittämällä. Useimmiten käy niin, että joudutaan tarkentamaan ohjeita kentän käytöstä  tai täydentämään termiä lisäotsikoilla. Joillakin aloilla käytetään myös kansainvälisistä standardeista tulevia tietokenttiä. Niitä sovelletaan toimialan tarpeisiin, ja soveltaminen johtaa joskus siihen, että samaa kenttää käytetään eri konteksteissa hyvinkin eri tavalla.

Erilainen sanastotyön prosessi

Tietokomponentteihin liittyvässä sanastotyössä on myös ominaispiirteitä, jotka asettavat haasteita terminologisen sanastotyön prosessille. Sanastotyössä käsitteiden määrä kannattaa yleensä rajata selvästi. Työskentely liian suuren käsitemäärän kanssa saattaa olla hidasta ja johtaa epäyhtenäisyyksiin ja puutteisiin. Alkuperäisenä tavoitteena oli laatia kaikille sosiaalihuollon asiakastietomallissa oleville tietokomponenteille ja niiden kentille määritelmät. Tietomallissa on tällä hetkellä 148 tietokomponenttia, mutta jo sanastoprojektin alkaessa niitä oli reilusti yli sata. Tietokomponentit ja niiden kentät mukaan laskettuina, tarvittavien määritelmien määrä nousi siis useisiin satoihin. Valtavan aineiston koon vuoksi päädyttiin laatimaan määritelmät ensisijaisesti vain tietokomponenteille eikä niiden kentille. 

Yleiskieleen kuuluvia käsitteitä tulisi yleensä ottaa erikoisalan sanastoon vain poikkeustapauksissa. Sosiaalihuollon asiakasasiakirjoihin pitää kuitenkin pystyä tallentamaan kunkin palvelutehtävän kannalta keskeiset tiedot asiakkaan elämäntilanteesta. Nämä tiedot saattavat kuvata esimerkiksi asiakkaan taloudellista tilannetta, terveydentilaa tai koulutusta. Tästä syystä tietokomponenttien sanastossa olevien käsitteiden kirjo on hyvin laaja ja se sisältää myös yleiskielen käsitteitä. 

Sanastotyön tiedettiin yllämainittujen seikkojen takia vievän paljon aikaa, eikä sitä sen vuoksi voitu aloittaa vasta asiakastietomallin valmistuttua. Tietokomponentteja siis työstettiin koko ajan myös sanastotyön aikana ja työssä oli otettava huomioon, että osana tietomallin kehitystyötä tietokomponentti saattoi yhdistyä toiseen komponenttiin tai poistua tietomallista kokonaan. Määritelmien laatiminen pyrittiin aloittamaan tietokomponenteista, jotka olivat jo vakiintuneempia, mutta silti määritelmien laatimisen aikatauluttaminen osoittautui varsin haastavaksi.

Sanastotyöryhmän hyvänä kokona on usein pidetty 5–8 jäsentä. Tietokomponenttien mallintamiseen ja niiden alustavien määritelmien laatimiseen oli kuitenkin osallistunut melko suuri joukko eri alojen asiantuntijoita. Sanastotyö lisäsi tietokomponenteissa olevien määritelmien tasalaatuisuutta. Terminologinen sanastotyö toi komponenttien mallintamiseen teknisen ja sisällöllisen näkökulman lisäksi vielä yhden uuden näkökulman. Sanastotyön näkökulma toimi kuitenkin ennen kaikkea kokoavana näkökulmana ja auttoi yhtenäistämään tietokomponentteihin liittyvää kielenkäyttöä. 

Tulevaisuus

Tikesos hankkeena päättyy ja sosiaalihuollon tiedonhallinnan kehittämistä ohjaa jatkossa Terveyden ja hyvinvoinnin laitoksen Sosiaali- ja terveydenhuollon tietohallinnon operatiivisen ohjauksen yksikkö. Terminologien avustuksella laaditut tietokomponenttien määritelmät tulevat helpottamaan tehdyn työn hyödyntämistä julkishallinnon sanasto- ja tietoarkkitehtuurityössä.  Jotta koko sosiaalihuollon asiakastietomalli saisi laadukkaat määritelmät, tulisi tietokomponenttien kenttien määritelmien laatimista jatkaa myös Tikesos-hankkeen päätyttyä. Sosiaalihuollon asiakastietomalli kehittyy ja muuttuu myös tulevaisuudessa. Muutostarpeita voivat aiheuttaa esimerkiksi muutokset lainsäädännössä, tietotarpeissa tai valtakunnallisessa tilastoinnissa. Tulevaisuudessakin tarvitaan siis terminologista sanastotyötä tietokomponenttityön tukena.



Kirjoittajista:
Erja Ailio Itä-Suomen sosiaalialan osaamiskeskuksesta on vastannut Tikesos-hankkeessa asiakirja- ja sanomamäärittelyistä sekä tietokomponenteista.
Konstantin Hyppönen on toiminut Tikesos-hankkeessa tietoarkkitehtuurin suunnittelijana sekä asiakirjastandardin kehittäjänä.