TSR-ontologia – työsuojelun käsitteet rakenteiseen muotoon

Mari Suhonen

Työsuojelurahasto (TSR) rahoittaa tutkimus-, kehitys- ja tiedotustoimintaa, joka parantaa työoloja ja edistää työyhteisöjen toiminnan turvallisuutta ja tuottavuutta. TSR julkaisee verkkosivustollaan tietoa rahoittamistaan hankkeista niiden eri vaiheissa. Tiedonhaun tukena sivustolla on ollut asiasanasto, joka on muodostunut hankkeiden vastuuhenkilöiden vapaasti valitsemista suomen- ja englanninkielisistä asiasanoista. Vuoden 2011 alussa Sanastokeskus TSK ja Työsuojelurahasto aloittivat yhteistyön asiasanaston muuttamiseksi ontologiaksi. Työn tavoitteena oli toisaalta helpottaa työsuojelualan aineistojen yhtenäistä kuvailua ja toisaalta tehostaa tiedonhakua ontologiaa hyödyntävissä hakukäyttöliittymissä.

TSR-ontologia laadittiin työryhmässä, johon osallistui työsuojelualan asiantuntijoita sosiaali- ja terveysministeriöstä, Työsuojelurahastosta, Työterveyslaitoksesta ja Työturvallisuuskeskuksesta sekä alkuvaiheessa Terveyden ja hyvinvoinnin laitoksesta. Ontologian muokkauksesta ja tallennuksesta sekä projektin koordinoinnista vastasivat Sanastokeskuksen terminologit, ja ontologian tekniseen käsittelyyn osallistui Sanastokeskuksen IT-suunnittelija. TSR-ontologian ensimmäinen versio valmistui vuoden 2013 helmikuussa, ja se julkaistiin huhtikuussa 2013 vapaasti käytettäväksi Kansallisessa ontologiakirjastopalvelussa ONKIssa osoitteessa http://onki.fi/fi/browser/overview/tsr.

TSR-ontologiasta voi tarkistaa vaikkapa sen, mitä alan asiantuntijat tarkoittavat työsuojelu-termillä ja miten työsuojelu-käsite sijoittuu muiden työsuojelualan käsitteiden ja Yleisen suomalaisen ontologian (YSO) käsitteiden joukkoon (ks. kuva 1).

1302_tsr.jpg

Kuva 1. Kuvakaappaus ONKIsta työsuojelu-tietueesta ja sen selitykset

TSR-ontologian kokoaminen

Ontologisoitava Työsuojelurahaston asiasanasto sisälsi yli 6 000 suomenkielistä ja vajaat 2 000 englanninkielistä asiasanaa, joiden välisiä suhteita ei oltu ilmaistu. TSR:n asiasanaston rakenteettomuus ja kontrolloimaton syntyhistoria olivat haasteita erityisesti ontologiatyön alussa. Esimerkiksi tarvittavan työmäärän arviointi oli projektin suunnitteluvaiheessa vaikeaa. Tiedettiin, että asiasanastossa saattaa tulla vastaan lähes mitä tahansa käsitteitä sen sijaan, että yhdistettävänä olisi kaksi tavalla tai toisella yhtenäisesti jäsennettyä aineistoa. Projektisuunnitelmaan sovittiinkin joustavasti muutoksia Työsuojelurahaston kanssa työn aikana, kun työn luonne tarkentui. Vuoden kestäneen projektin lähestyessä loppuaan ontologiatyötä päätettiin jatkaa vielä vuoden ajan, jotta voitiin toteuttaa työnaikaisia toiveita TSR-ontologian kehittämiseksi ennen julkaisua.

Ontologiatyö aloitettiin yhdistämällä TSR:n asiasanat Terveyden ja hyvinvoinnin ontologiaan (TERO), joka on puolestaan yhdistetty Yleiseen suomalaiseen ontologiaan (YSO). Näin toivottiin saatavan yleisen ontologian ja kahden toisiaan tukevan ja täydentävän erikoisalan ontologian yhdistelmäontologia. Työn edetessä ilmeni kuitenkin, että YSO oli yksinään TEROa sopivampi lähtökohta TSR:n asiasanaston rakenteistamiseksi. TEROn käsitteistö päätettiin poistaa toistaiseksi ontologiasta, ja TSR:n käsitteet ripustettiin lopulta ainoastaan YSOon. 

Yhdistelmäontologian luominen on tapana aloittaa käsitteiden merkkijonopohjaisella vertailulla yhdistelyohjelman avulla, jolloin löydetään suuri osa kohdeontologian ja siihen yhdistettävän sanaston ekvivalenteista eli samaan käsitteeseen viittaavista asiasanoista. Näin TSR:n asiasanastonkin käsitteille etsittiin ekvivalentit käsitteet YSOsta. Koneellisen yhdistelyn jälkeen terminologit tarkistivat ekvivalenssit ja korjasivat tarvittaessa ekvivalensseja sekä tarkensivat käsitteiden hierarkiaa. Työryhmän asiantuntijoilta kysyttiin tarvittaessa neuvoa ontologiatyöryhmälle luodussa verkkotyötilassa. Tavoitteena oli löytää kaikille TSR:n asiasanoille joko ekvivalentti käsite YSOsta tai mahdollisimman täsmällinen hierarkkinen yläkäsite YSOn tai TSR:n asiasanojen joukosta. Kun hierarkia ja ekvivalenssit oli valmisteltu, TSR-ontologia käytiin läpi työryhmän kokouksissa.

TSR-ontologian kehittyminen

Työryhmää pyydettiin tarkistamaan synonyymien oikeellisuutta eli ensinnäkin TSR-käsitteen ekvivalenssi YSO-käsitteeseen ja toiseksi se, esiintyykö TSR-ontologiasssa synonyymejä eri käsitteiden nimityksinä. Asiantuntijoilla ei ollut juuri korjattavaa terminologien tarkistamiin ekvivalensseihin. TSR-ontologian sisäistä synonymiaa sen sijaan korjattiin ja tarkennettiin. Asiantuntijat huomasivat esimerkiksi, että omina käsitteinään esitetyt pyrenoli ja hydroksipyreeni viittaavat samaan käsitteeseen, joten kyseiset asiasanat muutettiin synonyymeiksi. Ontologiaan lisättiin synonyymeiksi myös sellaisia asiasanoja, joita ei alun perin ollut mukana TSR:n asiasanastossa. Esimerkiksi moraalikonfliktien synonyymiksi lisättiin eettiset konfliktit.

Työryhmän asiantuntemusta tarvittiin myös hierarkian tarkistamisessa. Terminologi oli esimerkiksi sijoittanut sevofluraani-asiasanan YSOn aine käytön mukaan -käsitteen alakäsitteeksi. Työryhmän kokouksessa sille löytyi tarkempi yläkäsite anestesiakaasut. TSR-ontologiaan päädyttiin myös lisäämään käsitteitä, jos hierarkiasta huomattiin puuttuvan olennainen vieruskäsite. Esimerkiksi pintakäsittelyaineiden alakäsitteenä oli vesiohenteiset pintakäsittelyaineet, jolle haluttiin lisätä vieruskäsite öljypohjaiset pintakäsittelyaineet.

Heti työryhmätyöskentelyn alussa havaittiin, että TSR-ontologiassa kannattaa esittää alun perin sovittujen hierarkkisten käsitesuhteiden lisäksi koostumussuhteita ja assosiatiivisia käsitesuhteita, koska näitä tuli luontevasti esiin työryhmän keskusteluissa. Erilaisten käsitteiden välisten suhteiden esittäminen parantaa tiedon löytymistä ontologian avulla. Todettiin esimerkiksi, että formaliinin (eräänlainen liuos) ja formaldehydin (orgaaninen yhdiste) välillä on muu kuin hierarkkinen käsitesuhde, ja niille lisättiin assosiatiivinen käsitesuhde. Pelkän hierarkian avulla käsitteiden välistä yhteyttä ei olisi muodostunut ontologiaan.

Englanninkielisiä asiasanoja käsiteltiin ontologiassa suomenkielisten asiasanojen vastineina. Jos sopivaa suomenkielistä käsitettä ei löytynyt ontologiasta, englanninkielistä asiasanaa vastaava suomenkielinen käsite mietittiin erikseen ja TSR-ontologian hierarkiaan lisättiin tarvittaessa uusi suomenkielinen käsite sekä sen englanninkielinen vastine. Englanninkielisten asiasanojen taustalla olevien suomenkielisten käsitteiden etsimiseen osallistui merkittävästi TSR:n käyttämä englannin kääntäjä. 

Työn aikana TSR:n asiasanoja karsittiin runsaasti. Poistettavaksi päätyi esimerkiksi vain yhdessä hankkeessa tutkittua ilmiötä kuvaavia sanaliittoja, jotka eivät viittaa vakiintuneeseen käsitteeseen ja joiden kuvaama asia on helppo esittää usean asiasanan avulla. Esimerkiksi uimahallien sisäilma -ilmauksen sijaan voidaan käyttää asiasanoja uimahallit ja sisäilma ja eväät työpaikalla -ilmauksen sijaan asiasanoja eväät ja työpaikat. Myönteinen elämänpolku -asiasana puolestaan poistettiin, koska sen ei katsottu viittaavan vakiintuneeseen käsitteeseen. TSR-ontologiasta päädyttiin karsimaan systemaattisesti yksilökäsitteisiin viittaavia asiasanoja, kuten tutkimusohjelmien nimiä. TSR-ontologiasta poistettiin myös sellaisia YSOssa jo olevia asiasanoja, joiden ei katsottu liittyvän erityisesti työsuojeluun, kuten multimedia.

Terminologinen sanastotyö ontologiatyön tukena

TSR-ontologian jatkotyöstämisessä päätettiin hyödyntää terminologisen käsiteanalyysin menetelmiä tavanomaista ontologiatyötä perusteellisemmin. Samalla ontologiaan lisättiin vuonna 2006 julkaistu Työsuojelusanasto (TSK 35). Tarkempaa käsiteanalyysia hyödynnettiin pääasiassa Työsuojelusanastossa tunnistettujen vanhentuneiden tietojen päivittämiseen sekä Työsuojelusanaston käsitejärjestelmien ja TSR-ontologian hierarkian yhteensovittamiseen. Isoista tai hankalista päivityksistä pyydettiin kommentteja myös työryhmän ulkopuolisilta asiantuntijoilta alan asiantuntijoiden mahdollisimman yhdenmukaisen näkemyksen varmistamiseksi.

Muutaman sadan käsitteen laajuisen terminologisen sanaston ja tuhansia käsitteitä sisältävän yhdistelmäontologian käsitejärjestelmien vertailu oli mielenkiintoista, koska ne osoittautuivat luonteeltaan erilaisiksi. YSOn kautta TSR-ontologiaan saatiin Työsuojelusanastoon verrattuna valtava, tarkasti harkittu hierarkkinen käsitejärjestelmä, josta myös Työsuojelusanastosta peräisin olevien käsitteiden hierarkkinen yläkäsite oli mahdollista ja järkevää valita eri tavoin kuin sanaston määritelmässä oli tehty. Sanastossa esimerkiksi työturvallisuuskortti-käsitteen ymmärtämiseksi riittävä yläkäsite on kortti:

työturvallisuuskortti
kortti, jonka henkilö saa suoritettuaan hyväksytysti yhteisen työpaikan työturvallisuutta käsittelevän kurssin

TSR-ontologiassa ei ollut kortti-käsitettä tässä merkityksessä, vaan eräänlaisia kortteja olivat esimerkiksi pelikortit ja postikortit. Siksi työturvallisuuskortille valittiin ontologiassa yläkäsitteeksi asiakirja. Yläkäsitteen valinta kävi usein näin helposti. Toisinaan sitä piti pohtia pitkään, jolloin otettiin järeämmät käsiteanalyysiin työkalut käyttöön ja hahmoteltiin TSR-ontologiasta ja siihen sijoitettavista käsitteistä käsitejärjestelmäkaavio, jota analysoitiin työryhmässä.

Käsiteanalyysin avulla selvitettiin esimerkiksi tilannetta, jossa useiden arvoiksi määriteltyjen käsitteiden yläkäsitteeksi ei sopinut kumpikaan YSOssa esitetyistä kahdesta arvo-käsitteestä: arvo ulkoisena ominaisuutena tai arvo mentaalisena ilmiönä. Alla on kuvattu YSOn kahden arvo-käsitteen sijoittuminen hierarkiaan:

yso-käsitteet
    pysyvä
        ominaisuudet
            ulkoiset ominaisuudet
                arvo (ominaisuudet)
                    goodwill
                    lisäarvo
                    maanarvo
                    markkina-arvo
                    rahanarvo
                    verotusarvo

 

yso-käsitteet
    pysyvä
        ilmiöt
            mentaaliset ilmiöt
                arvot (ilmiöt)
                    altruismi
                    epäoikeudenmukaisuus
                    hyöty
                    ihmisarvo
                    itseisarvo
                    kauneus
                    luontoarvot
                    jne.

Esimerkiksi raja-arvo ei alla määritellyssä merkityksessä ole kummankaan alakäsite:

raja-arvo
muuttuvan suureen arvo, joka määräoloissa rajoittaa toimintaa tai tapahtumista ja joka on määritelty kokemusten, kokeiden ja laskennallisten tulosten perusteella

Asiaa selvitettäessä ilmeni, ettei Työsuojelusanaston määritelmiä laadittaessa oltu katsottu tarpeelliseksi miettiä erilaisia arvoihin liittyviä käsitteitä nimenomaan arvojen käsitejärjestelmänä, vaan yläkäsitteiksi oli valittu paitsi arvo (kuten raja-arvot, kynnysarvot) myös esimerkiksi raja (kuten räjähdysrajat) ja maksimi (kuten huippuarvot). TSR-ontologian hierarkiaa tarkistettaessa heräsi kysymys, millä kaikilla arvoihin liittyvillä käsitteillä oikeastaan voisi ontologian hierarkiassa olla yhteinen yläkäsite ja mitkä ovat toistensa ylä-, ala- ja vieruskäsitteitä. Käsitteille etsittiin sopivaa paikkaa TSR-ontologian hierarkiassa Työsuojelusanaston määritelmissä esitettyjen käsitepiirteiden sekä TSR-ontologiasta ja arvoihin liittyvistä käsitteistä laadittujen käsitejärjestelmäkaavioiden avulla. Pohdintojen tuloksena arvot päädyttiin sijoittamaan tiedon alakäsitteiksi. TSR-ontologiaan lisättiin kolmas arvot-niminen käsite, arvot (tieto), ja kyseinen lisäys ehdotettiin ja hyväksyttiin myös YSOon. TSR-ontologiassa uusi käsite ja sen lähimmät alakäsitteet näkyvät näin:

yso-käsitteet
    pysyvä
        henkiset tuotokset
            yhteiskunnalliset tuotokset
               tieto
                   arvot (tieto)
                        biologiset altistumisarvot
                        huippuarvot
                        kynnysarvot
                        ohjearvot
                        raja-arvot
                        räjähdysrajat
                        suojauskertoimet
                        viitearvot

Työn tulokset ja ontologian jatkokehitys

TSR-ontologian työryhmään oli päätynyt termeistä kiinnostuneita ja ontologiatyöhön motivoituneita asiantuntijoita, jotka jaksoivat innostua ja uurastaa kokouksissa toisinaan loputtomalta ja hahmottomalta tuntuneen käsitemassan parissa. Työn tuloksena syntyi TSR-ontologia, jossa noin 5 100 työsuojeluun liittyvää käsitettä on yhdistetty huomattavasti laajempaan, yli 20 000 käsitettä sisältävään YSOon.

TSR-ontologian kehittämistä kannattaa jatkaa edelleen. Aineiston täydentäminen uusilla käsitteillä tuntuu todennäköiseltä, koska kyseessä on tutkimukseen ja kehittämiseen liittyvän tiedon kuvailu ja uusiin ilmiöihin liittyviä käsitteitä syntyy tiedon lisääntyessä. Toisaalta ontologian karsiminen voi olla mielekästä. Kun erikoisalojen ontologioita kehitetään edelleen, lienee mahdollista käyttää useita ontologioita työsuojelualan aineiston kuvailuun. Tällöin TSR-ontologiasta voisi karsia osa-alueita, joita kuvataan toisessa erikoisontologiassa ja keskittää ylläpito vain työsuojelun keskeisimpiin käsitteisiin. Terminologin näkökulmasta TSR-ontologiaa on mahdollista kehittää monin tavoin antamalla termisuosituksia, täsmentämällä hierarkioita ja muita käsitesuhteita sekä laatimalla sanallisia käsitteiden kuvauksia.

Koska ontologioiden hyödyntäminen ja sovellusten kehittäminen on vasta aluillaan, tulee aika näyttämään miten TSR-ontologian käytettävyyttä kannattaa parantaa. Jäämme kiinnostuneina odottamaan TSR-ontologian käyttöönottoa ja käyttäjien palautetta.

Linkkejä:
Terveyden ja hyvinvoinnin ontologia (TERO) http://onki.fi/fi/browser/overview/tero
Yleinen suomalainen ontologia (YSO) http://onki.fi/fi/browser/overview/yso