Linked Data Finland

Yhdistetty tieto (Linked Data) tarkoittaa webistä puhuttaessa metodologiaa, jonka avulla eri lähteistä saatavaa tietoa yhdistetään toisiinsa semanttiseksi eli tietokoneiden ”ymmärtämäksi” verkoksi. Semanttinen web muodostaa uuden perustan aiempaa älykkäämmille verkkopalveluille. Ideana on, että erillinen tieto rikastuu automaattisesti siihen liittyvän muun tiedon kautta. Kun kertaalleen tuotettu tieto voidaan ottaa käyttöön toisaalla webin kautta, ei tietoa tarvitse tuottaa tarpeettomasti moneen kertaan. Linked Data perustuu W3C-järjestön semanttisen webin standardeihin ja parhaisiin käytäntöihin.

Yhdistetyn tiedon määrä webissä on kasvanut räjähdysmäisesti. Työn ytimessä on ollut Wikipediasta louhittu DBpedia-verkko, johon on yhdistetty satoja muita tietojoukkoja. Tuloksena syntynyt datapilvi Linked Open Data Cloud sisältää miljardeja tietoja ja niiden välisiä yhteyksiä. Sitä hyödyntää mm. Google Knowledge Graph –järjestelmässään. Microsoft käyttää vastaavasta semanttisesta verkostaan nimeä Satori, joka tarkoittaa buddhalaista valaistumista. Tunnettu alan sovellus on esimerkiksi BBC:n kotisivut, jotka perustuvat DBpedian käyttöön sanastona organisaation tuottamien tietosisältöjen yhdistämisessä ja rikastamisessa.

Linked Data -paratiisissa on kuitenkin käärmeitäkin. Yksi keskeisimmistä haasteista liittyy sanastoihin, joiden avulla tietoa kuvataan: sama termi, ilmaus tai tunniste eri alojen tai toimijoiden käyttämänä voi tarkoittaa eri asiaa, jolloin tietojen suoraviivainen yhdistäminen johtaa semanttiseen sekasotkuun.

Ratkaisuna on yhteisten ontologisten sanastojen käyttö, joissa tiedon indeksointi perustuu monimerkityksisten kielellisten ilmausten sijasta näiden takana oleviin yksikäsitteisiin merkityksiin. Lisäksi tarvitaan eri sanastojen linkittämistä toisiinsa. Keskeisimmät tarvittavat sanastotyypit ovat: yleiskäsitteiden nimityksiä eli yleistermejä vastaavat ontologiset tesaurukset, paikannimirekisterit (historialliset ja nykyiset paikat erikseen), toimijarekisterit (henkilöt, ryhmät, organisaatiot), tapahtumarekisterit (kuten historialliset ja uutistapahtumat) sekä alakohtaiset nomenklatuurit, kuten biologian lajilistat, tuotenimet tai lääkeaineet.

Suomessa on FinnONTO-hankkeen tuloksena käytettävissä yleistermejä sisältäviä ontologisia sanastoja kansallisessa ONKI.fi-palvelussa. Vähemmällä huomiolla palvelussa on ollut paikkoihin, toimijoihin, tapahtumiin ja nomenklatuureihin liittyvät nimistöt, joskin esimerkiksi Maanmittauslaitoksen Paikannimirekisteri on ollut käytettävissä erillisessä ONKI Geo ‑palvelussa jo vuodesta 2007. Näissä nimistöissä rajanveto sanaston ja tietolähteen välillä hämärtyy. Esimerkiksi henkilörekisterit ovat samanaikaisesti sanastoja ja tietokantoja, jos ne sisältävät nimien ohella näihin yhdistyvää biografista tietoa.

Tutkimus- ja kehitystyötä yhdistetyn tiedon suuntaan jatkaa kansallinen Linked Data Finland –hanke (LDF), joka julkaisi lokakuussa LDF.fi-portaalin (www.ldf.fi). Se on prototyyppi kansallisesta avoimen yhdistetyn tiedon Living Lab -palvelusta. LDF.fi sisältää kymmeniä keskeisiä kansallisen tason datajulkaisuja, kuten oikeusministeriön Finlex-tietokanta (Suomen lainsäädäntö ja oikeustapauksia), yleisten kirjastojen Kirjasampo.fi-aineistot, suomenkielisen Wikipedian (DPpedia) ensimmäinen julkaisu Linked Data -palveluna, ONKI:n ontologioita, semanttinen Kansallisbiografia ja Kalevala semanttisena Linked Data -julkaisuna. Työlistalla ovat myös paikkojen, toimijoiden ja tapahtumien ontologiset nimistöt.


Kirjoittajasta:
Eero Hyvönen toimii professorina Aalto-yliopiston perustieteiden korkeakoulun mediatekniikan laitoksessa.