Fyrsta útgáfa Risamálheildarinnar (RMH) kom út árið 2018 eftir að hafa verið í vinnslu í nær þrjú ár. Síðan þá hefur RMH verið gefin út árlega. „Risamálheildin er eins og nafnið gefur til kynna, risastór, og inniheldur nýjasta útgáfa hennar rúmlega 2,4 milljarða orða. Það jafngildir um 35.000 meðallöngum skáldsögum. Textarnir eru flestir frá því eftir aldamótin seinustu. Langstærsti hlutinn eru fréttatextar, textar af samfélagsmiðlum og opinberir textar. Einnig eru textar úr fræðilegum tímaritum, bókum og af íslensku Wikipediu,“ segir Starkaður Barkarson.

Þetta nýtist meðal annars við orðabókagerð og tungumálarannsóknir. Einnig má rýna í ræður þingmanna eftir flokki, kyni, aldri og öðrum þáttum sem haldið er utan um í RMH.

Nýir möguleikar

Þegar Starkaður kom að verkinu höfðu Eiríkur Rögnvaldsson, Sigrún Helgadóttir og Steinþór Steingrímsson lagt mikla vinnu í að útvega leyfi fyrir textum og hafið söfnun þeirra.

„Í malheildir.arnastofnun.is má leita að dæmum í Risamálheildinni um málnotkun. Þetta nýtist meðal annars við orðabókagerð og tungumálarannsóknir. Einnig má rýna í ræður þingmanna eftir flokki, kyni, aldri og öðrum þáttum sem haldið er utan um í RMH. Málheildin opnar svo nýja möguleika á sviði máltækni og greiðir leið íslenskunnar inn í heim tölva og tækni. Þetta kemur til að mynda að notum við gerð þýðingarvéla, talgreina og hugbúnaðar fyrir stafsetningar- og málfarsleiðréttingar,“ segir Starkaður.

Málvísindi og tölvur

Starkaður útskrifaðist með BA í íslensku 1998. Eftir stutta viðkomu í kennslu í framhaldsskólum hannaði hann og forritaði Stoðkennarann, gagnvirkan námsvef. Eftir að hafa búið erlendis um árabil hóf hann meistaranám í máltækni, sem er sambland málvísinda og tölvunarfræði, við HÍ og HR. Haustið 2016 hóf hann svo störf við Árnastofnun, einkum við gerð málheilda.

Fyrsta eiginlega risamálheildin var gerð fyrir ensku 2003 og innihélt um milljarð orða. Síðan þá hafa verið gefnar út sambærilegar málheildir fyrir stóru tungumálin eins og frönsku, kínversku og arabísku. „Danir gáfu nýlega út danska risamálheild með rúman milljarð orða. Það er um 40% af stærð RMH, og megum við því vel við una,“ segir Starkaður.

Nánari upplýsingar um RMH má finna á igc.arnastofnun.is.