Kieliaineistot avainasemassa konekääntämisen kehittämisessä – kuulumisia Suomen ELRC-työpajasta

Päivi Kouki

Monikielisyys haastaa palveluntarjoajat

Euroopan maiden julkishallinnot toimivat vuorovaikutuksessa toistensa ja kansalaisten kanssa yli valtioiden rajojen. Myös eurooppalaisilla sisämarkkinoilla ihmiset, tavarat ja palvelut liikkuvat vapaasti maasta toiseen. Rajat ylittävää liikkuvuutta ja vuorovaikutusta helpottavat erilaiset digitaaliset palvelut. Niiden käytön lisääminen ei kuitenkaan ole ongelmatonta: palveluita ei käytetä, elleivät ne ole saatavilla tutuilla kielillä. Tämä koskee niin kansalaisille tarkoitettuja julkisia palveluja kuin yritysten tarjoamia palveluita.

Euroopan komissio tukee julkishallintojen ja kansalaisten välistä viestintää tarjoamalla julkishallinnoille osana Verkkojen Eurooppa -välinettä (Connecting Europe Facility, CEF) automatisoidun käännösalustan. CEF.AT-käännösalusta tukee digitaalisen palvelun infrastruktuurin muuttamista monikieliseksi. Näin halutaan mahdollistaa euroopanlaajuisten julkisten digitaalisten palveluiden käyttö sekä madaltaa kielimuuria palveluntarjoajien ja palveluiden käyttäjien välillä.

Kattavan ja laadukkaan automatisoidun käännösratkaisun kehittämiseen tarvitaan kieliaineistoja. Niiden löytämiseksi komissio käynnisti keväällä 2015 Euroopan kieliresurssien koordinointi -hankkeen (European Language Resource Coordination, ELRC), jonka tavoitteena on kerätä julkisten palveluiden, julkishallinnon ja valtiollisten laitosten toimialoihin liittyviä kieli- ja käännösaineistoja niissä maissa, jotka ovat mukana Verkkojen Eurooppa -ohjelmassa.

Työpajasta apua kieliaineistojen keräämiseen

Verkkojen Eurooppa -ohjelmaan osallistuu 28 EU-maata sekä Norja ja Islanti. Kaikissa näissä maissa järjestetään paikallinen työpaja, jonka tavoitteena on lisätä tietoisuutta ELRC-hankkeesta ja kannustaa kansallisia toimijoita osallistumaan kieliaineistojen keräämiseen. Lisäksi ELRC-konsortio tarjoaa ilmaista neuvontapalvelua, joka vastaa aineistojen käyttöä, tuottamista, jakamista ja keräämistä koskeviin kysymyksiin.

Suomen ELRC-työpaja järjestettiin 19. helmikuuta Helsingissä yhteistyössä FIN-CLARINin1 kanssa. Työpajassa ELRC:n ja FIN-CLARINin edustajat kertoivat ELRC-hankkeen lähtökohdista ja tavoitteista. Lisäksi paikalle oli kutsuttu kieliaineiston tuottajien edustajia sekä julkishallinnon että yksityisen sektorin piiristä. Paneelikeskusteluihin osallistui edustajia muun muassa valtioneuvoston kansliasta, Verohallinnosta, Yleisradiosta ja AAC Globalista. Työpajan ohjelma ja videoidut esitykset sekä paneelikeskustelut ovat vapaasti saatavilla internetissä osoitteessa http://lr-coordination.eu/fi/finland_agenda.

Kieliaineistojen käyttöä rajoittavat sekä niiden saatavuus että tekijänoikeudet, joten työpajassa vedottiin sekä julkisiin että yksityisiin toimijoihin aineistojen luovuttamiseksi kehityskäyttöön. Toimivien työvälineiden kehittämiseksi tarvitaan varsin mittava määrä tekstiaineistoja, ja siksi vapaasti verkossa saatavilla olevan aineiston lisäksi kaivataan myös sellaista materiaalia, joka on vain organisaatioiden sisäisessä käytössä: esimerkiksi raportteja, rekistereitä, termipankkeja, sopimustekstejä ja niin edelleen. Julkishallinnoille koituu myös hyötyä kieliaineistojen lahjoittamisesta, koska ne saavat käyttää CEF.AT-käännösalustaa veloituksetta.

Automatisoidut käännökset kääntäjien työn tukena

Työpajassa käsiteltiin myös ongelmia, joita automatisoituun kääntämiseen usein yhdistetään: sen epäsopivuutta pienille, rakenteeltaan englannista huomattavasti poikkeaville kielille, sekä konekäännösten heikkoa laatua.

Kieliteknologian professori Jörg Tiedemann Helsingin yliopistosta kertoi konekääntämisen työkalujen kehittämisestä. Hän sanoi, ettei mikään kieli sinänsä ole toista paremmin tai huonommin käännettävissä automatisoitujen käännösohjelmien avulla. Kuitenkin mitä suurempi kielen käyttäjäjoukko on, sitä helpommin taloudellisia ja kieliresursseja on saatavilla. Tämä puolestaan vaikuttaa siihen, kuinka nopeaa automatisaation kehittäminen kunkin kielen kohdalla on. ELRC:n edustaja Andrejs Vasiļjevs muistutti omassa puheenvuorossaan, että yksi automatisoidun kääntämisen eduista on pienten kielten aseman vahvistuminen. Kun käännösten kustannukset laskevat tehokkaiden apuvälineiden ansiosta, voidaan yhä suurempi määrä vaikkapa EU:ssa tuotetuista teksteistä kääntää yhä useammalle kielelle.

Paneelikeskusteluissa jaettiin kokemuksia ja ajatuksia automatisoidusta kääntämisestä. Muun muassa vieraiden kielten yksikön päällikkö Taru Virtanen Valtioneuvoston kansliasta ja kääntäjä Marjaana Kulovesi Ylestä kertoivat, ettei konekääntämistä toistaiseksi ole pystytty hyödyntämään heidän organisaatioidensa tarpeisiin muun muassa käännöksen suhteellisen heikon laadun vuoksi tai lähtötekstin luonteesta johtuen. Ajatusta automatisoidun käännösalustan käyttämistä apuvälineenä tulevaisuudessa pidettiin kuitenkin kiinnostavana mahdollisuutena.

Sekä paneelikeskustelijat että esitystenpitäjät korostivat, ettei automatisoidun kääntämisen työkalujen ole tarkoitus syrjäyttää kääntäjiä, vaan konekääntämisestä voisi tulla yksi kääntäjän työväline siinä missä käännösmuisteista ja termipankeistakin. Kielten ammattilaisia tarvitaan joka tapauksessa tarkistamaan ja mahdollisesti toimittamaan konekäännettyjä tekstejä. Työpajassa todettiin, että niin EU-tasolla kuin kansallisellakin tasolla käännettävien tekstien määrä on jatkuvassa kasvussa, kun taas käytössä olevien resurssien määrä pysyy ennallaan tai jopa vähenee. Siksi automatisoituun kääntämiseen työprosessien nopeuttajana suhtauduttiinkin positiivisena mahdollisuutena.1FIN-CLARIN on suomalaisten yliopistojen, CSC – Tieteen tietotekniikan keskuksen ja Kotimaisten kielten keskuksen muodostama konsortio. Konsortio auttaa humanististen tieteiden tutkijoita käyttämään, jalostamaan, säilyttämään ja jakamaan tutkimusaineistoja. FIN-CLARINin palvelukokonaisuus Kielipankki tarjoaa aineistoja ja työkaluja tutkijoiden käyttöön.