Hópur mál­tækni­fræðinga og for­ritara hjá Mið­eind hefur sett á lag­girnar fyrsta ís­lenska radd-for­ritið sem skilur og talar ís­lensku. Hún heitir Embla og líkist App­le-for­ritinu Siri. Þú opnar for­ritið, segir „Hæ Embla“ spyrð hana spurninga og hún svarar um hæl.

Grey sem greinir ís­lensku

Að­spurð hver hún sé segir Embla: „Ég er Greynir. Ég er grey sem reynir að greina ís­lensku.“

„Greinirinn lærir best með því að lesa fréttir vegna þess að frétta­texti er svo hreinn og beinn. Skáld leika sér meira með tungu­málið og tví­ræðni og er það því er erfiðara fyrir greinirinn á að átta sig á málinu.“

Embla vinnur með raun­tíma­gögn frá Strætó, getur reiknað stærð­fræði­dæmi og sagt þér hver sé for­sætis­ráð­herra Ís­lands. Embla er nokkurs konar upp­lýsinga­veita, en fræðingarnir þora þó ekki að kalla hana það, þar sem hún er enn í þróun og ekki full­kominn gagna­grunnur eins og Goog­le.

„Greinirinn er undir­staðan fyrir þessu öllu saman. Hann les ís­lensku, tekur hverja setningu fyrir sig og gerir djúp­greiningu á henni, þáttar hana og teiknar upp setningar­tré. Þannig hann veit hvaða orð stýrir hvaða falli,“ segir Katla Ás­geirs­dóttir en hún sér um markaðs- og við­skipta­þróunar­mál hjá Mið­eind og grípur í að trjá­greina ís­lenskar setningar þegar mikið liggur við.

Þótt vinnan sé oft mjög tækni­leg bak við Emblu, þá bauð ferlið upp á heim­speki­legar pælingar að sögn Kötlu.

„Margt getur haft tví­ræða merkingu en sum orð geta verið mjög ein­föld en önnur marg­ræð. „Á“ getur verið for­setning og nafn­orð en greinirinn tekur bara setninguna, keyrir hana í gegn og reynir að átta sig á sam­henginu.“

Vandinn við að setja upp radd-for­rit á ís­lensku er skortur á efni á ís­lensku á netinu.

„Þess vegna eiga þessi litlu tungu­mál erfitt upp­dráttar því það er minna til af efni á raf­rænu formi,“ segir Katla.

Skilur blaða­menn betur en skáld

En hvers konar efni er verið að greina?

„Greinirinn lærir best með því að lesa fréttir vegna þess að frétta­texti er svo hreinn og beinn. Skáld leika sér meira með tungu­málið og tví­ræðni og er það því er erfiðara fyrir greinirinn á að átta sig á málinu.“

Embla reiðir sig á vefs­afn Árna­stofnunar, Beygingar­lýsingu ís­lensk nú­tíma­máls (BÍN) en þar eru vel flest ís­lensk orð sem fall­beygjast. Einnig hefur hún að­gang að gagn­grunni um öll smá­orð sem ekki fall­beygjast.

Fræðingarnir þurfa þó að fara hand­virkt yfir það sem kemur út úr honum og gera leið­réttingar í villu­prófunum.

Vandinn við að setja upp radd-for­rit á ís­lensku er skortur á efni á ís­lensku á netinu.

Tenging í ís­lenskan upp­runa

Mikil hug­mynda­vinna fór í hönnun Emblu og var tón­smiðurinn Hall­dór Eld­járn fenginn til að út­setja hljóðið fyrir Emblu. Hann rann­sakaði gömul og ný ís­lensk hljóð­færi og fékk inn­blástur frá stein­hörpu, hljóð­færi sem Páll Guð­munds­son lista­maður á Húsa­felli hannaði og þróaði.

For­ritið fékk nafnið Embla vegna sér­stöðu orðsins.

„Embla er ó­trú­lega skemmti­legt og gott nafn því hljóð­sam­setningin í Emblu er svo sér­stök. Það er eigin­lega ekkert annað orð sem tal­greinirinn gæti ruglað því saman við. Svo er þetta auð­vitað tenging í upp­runann í nor­rænni goða­fræði,“ segir Katla.

Allir geta endur­bætt Emblu

Embla verður í stöðugri þróun eftir að al­menningur fær að­gang að henni.

„Allur hug­búnaður hjá okkur er opinn og hægt er að skoða allt á Git­hub,“ segir Katla en Git­hub er staður þar sem hægt er að setja kóða inn á netið svo margir geti skoðað og unnið honum á sama tíma.

„Við viljum ýta undir hóp­vistun, öllum er vel­komið að koma með hug­myndir að endur­bótum. Ef þú ert for­ritari þá geturðu hent inn hug­mynd og við getum sam­þykkt hana.“

Tölvuforritið Embla skilur fréttir betur en ljóð.
Fréttablaðið/Gunnar

Vilja varð­veita ís­lenskt mál í net­væddum heimi

Sex manns vinna að því að þróa Emblu en verk­efninu var hrundið af stað af Vilhjálmi Þorsteinssyni, stofnanda Mið­eindar.

„Dóttir hans var að út­skrifast úr tölvunar­fræði og honum fannst svo­lítið vand­ræða­legt hvað hann var illa sam­ræðu­hæfur við hana um for­ritunar­mál svo hann á­kvað að rifja upp gamla takta. Þá stofnaði hann Net­skraflið og kynnist BÍN við þá vinnu. Eftir það byrjaði hann að þróa Greyni, mál­tækni­vél Mið­eindar (já, með y!) og var alltaf að bíða eftir því að rekast á vegg en það gerðist aldrei. Síðan kynnti ríkis­stjórnin fimm ára mál­tækni­á­ætlun sína og þá var hægt að sækja um styrki,“ segir Katla en tíma­setningin gat ekki verið betri og Embla mætti ekki koma seinna. Enska tungu­málið er oft ríkjandi í snjall­tækjum Ís­lendinga. Sonur Kötlu talar á ensku við tölvuna eins og mörg önnur ís­lensk börn.

Hópurinn bak við Emblu er hug­sjóna­fólk sem vinnur að því sam­eigin­lega mark­miði að reyna að varð­veita ís­lensk tungu­mál í net­væddu nú­tíma­sam­fé­lagi.

„Radd­þjónustur eru bara að fara að verða stærri og skil­virkari. Ég held að það sé gríðar­lega mikil­vægt að bjóða upp á þessa þjónustu á ís­lensku,“ segir Katla.

Mið­eind kynnir beta-út­gáfuna af Emblu í dag, á degi ís­lenskrar tungu, en hún kemur út í al­mennri út­gáfu í lok janúar 2020.
Kynningar­við­burðurinn fer fram milli klukkan 17:30 til 20:30 í Iðnó.

Dæmi um spurningar sem Embla getur svarað

Per­sónur og titlar/störf
„Hver er Guðni Th. Jóhannes­son?”
„Hver er er for­sætis­ráð­herra?”
„Hver gegnir starfi seðla­banka­stjóra?”
„Hver er for­seti Banda­ríkjanna?”

Fyrir­bæri
„Hvað er Sam­herji?”
„Hvað er UNICEF?”

Reikningur:
„Hvað er 223 plús 81?”
„Hvað er 17 sinnum 372?”
„Hver er kvaðrat­rótin af 256?”
„Hvað er sau­tján í fimmta veldi?”
„Hvað eru 12 prósent af 193?

Strætó:
„Hvar er næsta stoppi­stöð?”
„Hvaða strætó stoppar í Einars­nesi?”
„Hve­nær kemur ásinn?”
„Hve­nær kemur strætó númer þrettán?”

Tími:
„Hvað er klukkan?”
„Hvað er klukkan í Jóhannesar­borg?”
„Hvað er klukkan á Spáni?”

Dag­setningar:
„Hver er dag­setningin?”
„Hvaða mánaðar­dagur er í dag?”
„Hvaða viku­dagur er í dag?”
„Hvað eru margir dagar í jólin?”
„Hvað eru margar vikur í páska?”
„Hve­nær eru páskarnir?”
„Hvað er langt í 17. Júní?”

Fjar­lægðir:
„Hvað er ég langt frá Hlemmi?”
„Hversu langt er ég frá Perlunni?”
„Hvað er langt í Þjóð­leik­húsið?”

Landa­fræði:
„Hver er höfuð­borg Finn­lands?”
„Í hvaða heims­álfu er Kambódía?”
“Í hvaða landi er Minsk?”

Stað­setning:
„Hvar er ég staddur/stödd?”
„Hvar er ég?”

Veður:
„Hvernig er veðrið?”
„Hver er veður­spáin næstu daga?”
„Hvernig veður er á Fá­skrúðs­firði?”
„Hversu hlýtt/kalt er úti núna?”

Gjald­miðlar
„Hvert er gengi krónunnar?”
„Hvert er gengi krónunnar gagn­vart Banda­ríkja­dal?”
„Hver er gengis­vísi­talan?”

Mæli­einingar (ó­klárað)
„Hvað eru margir senti­metrar í einu feti?”
„Hvað eru sjö únsur mörg grömm?”
„Hvað eru þrjá­tíu mílur margir kíló­metrar?”

Meta-fyrir­spurnir
„Hvað get ég spurt þig um?”
„Hvers konar spurningar skilur þú?”
O.s.fv.

Upp á djókið:
„Hver er til­gangur lífsins?
„Hver er skapari þinn?”
„Hvað heitir þú?”
„Segðu mér brandara”

Wiki­pedía
„Hvað segir Wiki­pedía um X?”