Termiharava

Vuoden 2014 ensimmäiseen Termiharavaan olemme tällä kertaa valinneet tiedonhankintaan liittyviä termejä. Muutamaa alla mainituista käsitteistä on tarkasteltu Termiharavassa aiemminkin, mutta niiden määritelmiä tai termisuosituksia on sittemmin päivitetty. Käsitteitä, niiden määritelmiä sekä termisuosituksia on käsitelty Tietotekniikan termitalkoissa (http://www.tsk.fi/tsk/termitalkoot/fi) vuosina 2009–2013.

Tietotekniikan termitalkoissa tuotetaan suosituksia ajankohtaisista ja usein ongelmallisiksi koetuista termeistä. Koska tietotekniikan alan käsitteistä ja termistö uudistuu nopeasti, tavanomainen projektimuotoinen sanastotyö ei välttämättä ehdi vastata kaikkiin tarpeisiin. Termitalkoot aloitettiin vuonna 1999, ja suosituksia on vuoden 2014 alkuun mennessä julkaistu noin 540 kappaletta. Uusien suositusten julkaisemisesta ilmoitetaan Sanastokeskuksen etusivulla (www.tsk.fi) ja Facebook-sivulla (www.facebook.com/Sanastokeskus) sekä termitalkoiden sähköpostilistalle, jolle voi liittyä lähettämällä sähköpostia osoitteeseen termitalkoot@tsk.fi.

tiedonhaku
Tiedonhaku (engl. information retrieval; IR; data retrieval; DR) tarkoittaa haluttujen tietojen etsimistä tietolähteistä. Tietolähteenä voidaan käyttää esimerkiksi kirjoja, asiakirjoja, tietokantoja ja asiantuntijoita, ja tietoa voi hakea esimerkiksi hakusanojen tai kyselykielen avulla.

Englanninkielisistä termeistä information retrieval ja data retrieval käytetään suomessa tavallisesti yhteistä vastinetta tiedonhaku. Englanninkielisillä termeillä on kuitenkin merkitysero. Information retrieval vastaa sitä merkitystä, jossa termiä tiedonhaku tässä suosituksessa käytetään. Data retrieval (johon voi tarvittaessa viitata suomeksi termillä datanhaku) viittaa kyselykielellä, esimerkiksi SQL-kielellä, tehtävään tiedonhakuun.Tiedonhausta käytetään englanniksi myös termejä information seeking ja information search silloin, kun halutaan painottaa tiedonhakijan kognitiivista prosessia.

hakusana
Hakusana (engl. earch term; search word keyword) on sana, jolla tietoa haetaan. Käyttäjä voi syöttää hakusanan hakupalveluun ja hakea sen avulla haluamaansa tietoa.

tiedonharavointi
Tiedonharavointi (engl. data scraping; data harvesting) on tietojen automaattista kokoamista ihmisen luettavassa muodossa olevasta aineistosta. Tiedonharavointia käytetään silloin, kun tiedot ovat saatavilla vain tekstimuodossa esimerkiksi siksi, että ne ovat ihmisten kirjoittamaa vapaata tekstiä tai sellaisen järjestelmän tulostamia, josta tietoa ei saa muussa muodossa.
Verkkosivujen haravointi (engl. web scraping, web harvesting, screen scraping) on tiedonharavointia, jossa tietoja kerätään verkkosivuilta.

tiedonkeruu
Tiedonkeruulla (engl. data collection) tarkoitetaan tietoaineiston kokoamista. Kerätyt tiedot voidaan saattaa sähköiseen muotoon ja tallentaa esimerkiksi tietokantaan.

tiedonlouhinta; tiedonrikastus
Tiedonlouhinta (engl. data mining; datamining) on laajojen rakenteisten tietoaineistojen automaattista tai puoliautomaattista läpikäyntiä merkittävän informaation löytämiseksi. Tiedonlouhintaa voidaan tehdä eri tavoin, esimerkiksi tilastollisin menetelmin.

tiedonpoiminta
Tiedonpoiminta (engl. information extraction; IE) on tiedon hankkimista luonnollisen kielen analysointityökaluja käyttämällä. Tiedonpoimintaa voi tehdä rakenteettomasta tai osittain rakenteellisesta aineistosta. Luonnollisen kielen analysointityökaluja ovat esimerkiksi jäsentimet ja morfologia-analysaattorit.

Tiedonpoiminnan tavoitteena voi olla keskeisten, ennalta määriteltyjen tietoyksiköiden, kuten nimien, tapahtumapaikkojen, ajankohtien tai erikoisalan termien, poimiminen tietolähteistä.

tietoaineisto
Tietoaineisto (engl. data set, dataset) on kokonaisuus, joka muodostuu tietovälineistä ja niihin tallennetuista tiedoista. Tietoaineisto voi olla sekä sähköisessä että paperimuodossa.

tietokanta
Tietokanta (engl. database) on digitaalisessa muodossa oleva rakenteinen tietojen kokoelma, jota yksi tai useampi tietojärjestelmä käyttää ja päivittää.

tietovarasto
Tietovarasto (engl. data warehouse) on tietokanta tai tietokantakokoelma, johon on kattavasti koottu tietoa organisaation eri toiminnoista.

hakuohjelma; hakukone
Hakuohjelma (engl. search engine) on ohjelma, joka etsii käyttäjän määrittelemää tietoa tietystä aineistosta. Se on keskeinen osa hakupalvelua.

hakupalvelu
Hakupalvelu (engl. search service) on hakuohjelman ja tietokannan muodostama kokonaisuus, jonka avulla käyttäjä voi hakea tietoa tietokannasta. Internetin hakupalveluja voidaan käyttää kunkin palvelun omasta www-osoitteesta löytyvällä hakulomakkeella, jonka kautta haku kohdistuu tiettyyn ennalta laadittuun verkkosivutietokantaan. Tietokannasta hakuohjelma etsii palvelun käyttäjälle osoitteita, joissa sijaitsevissa aineistoissa etsittävää sanaa käytetään, ja tarjoaa linkin kyseisiin aineistoihin. Hakupalvelun tietokanta voi olla hakuagentin ylläpitämä.

hakuagentti; hakurobotti
Hakuagentti (engl. search agent; search robot; Internet robot; Internet bot; web robot; web bot; WWW robot; bot; web spider) on hakuohjelma, joka pystyy ohjelmoinnin perusteella toimimaan itsenäisesti. Internetin hakupalveluissa hakuagentin toimintaa ohjaa palveluntarjoaja, joten palvelun käyttäjä pääsee suoraan hyödyntämään tietokantaa, jossa on hakuagentin verkkosivuista kokoamia tietoja.