Kynjahalli kemur fram í íslenskum þýðingum úr vélþýðingarkerfinu Google Translate samkvæmt nýrri máltæknirannsókn í Háskóla Íslands.

Hallinn kemur meðal annars fram í persónulýsandi lýsingarorðum þar sem jákvæð orð eins og strong, clever og faithful  birtast í karlkyni á íslensku og neikvæð orð eins og weak, stupid og unfaithful birtast í kvenkyni.

Fjallað er um þetta í greininni Vondar vélþýðingar í Ritinu, tímariti Hugvísindastofnunar, en höfundar hennar eru Agnes Sólmundsdóttir, BA-nemi í almennum málvísindum, Dagbjört Guðmundsdóttir og Lilja Björk Stefánsdóttir, doktorsnemar í íslenskri málfræði, og Anton Karl Ingason, dósent í íslenskri málfræði og máltækni. Þetta er fyrsta rannsóknin af þessu tagi á Íslandi en kynja- og tæknihalli hefur verið mikið til umræðu innan máltæknivísinda víða um allan heim.

„Þetta eru mjög sláandi rannsókn. Ég var jafn fúl og ég var ánægð þegar ég fékk þessar niðurstöður. Ánægð að gögnin studdu tilgátuna en fúl því þetta er svo ömurlegt,“ segir Agnes.

„Þetta er takmarkað sjónarhorn og í rauninni endurspegla þessar niðurstöður á Google ákveðnar samfélagslegar hugmyndir,“ segir Agnes.
Fréttablaðið/Getty images

Agnes endurtók og stækkaði rannsóknina fyrir BA-verkefni sitt sem leiddi í ljós að kynjahalli birtist einnig í íslensku leitarvélinni Vélþýðing.is en þó ekki á eins afgerandi hátt og hann kemur fram í Google Translate.

„Þegar vélar læra tungumál er óhjákvæmilegt að þær læri líka merkingarnar að baki textanna. Þess vegna skiptir máli hvaðan gögnin koma,“ segir Agnes í samtali við Fréttablaðið.

Þýðingarvélar nota meðal annars texta af netinu til að skapa málheild eins og til dæmis af fréttasíðum, úr greinasafninu Wikipedia, af spjallþráðum á Reddit og Twitter og meira að segja úr athugasemdakerfum þar sem hatursorðræða getur sprottið upp.

Ein mögulega ástæða fyrir kynjahallanum er sú að langstærstur hluti greinahöfunda eru ungir, hvítir, vestrænir karlmenn. Rétt rúmlega þrettán prósent höfunda Wikipedia eru kvenkyns og aðeins 1,7 prósent skilgreina sig sem kynsegin.

„Þetta er takmarkað sjónarhorn og í rauninni endurspegla þessar niðurstöður á Google ákveðnar samfélagslegar hugmyndir,“ útskýrir Agnes. Hún segir greinilegt að kynjahallinn í þýðingarvélum sé til staðar ómeðvitað.

„Engin hannar þýðingarvélar til að vera með innbyggðan kynjahalla. Þetta er ómeðvitað vegna þess að textinn sem vélarnar sækja í sýnir ríkjandi sjónarmið forréttindahópa en ekki samfélagið eins og það er. Það er í raun mun hættulegra; þetta er að gerast án þess að við tökum eftir því,“ segir Agnes.

Áhugaverðar máltæknirannsóknir eiga sér stað í Háskóla Íslands.
Fréttablaðið/Sigtryggur Ari

Feminískt vefrit kynnti ný orð

Tinna Þuríður Sigurðardóttir vann með svipaðar hugmyndir í sínu masters verkefni en þar leitaðist hún á við að meta íslenskar málheildir. Hún notaði texta frá feminíska ritinu Flóru, sem nú heitir Vía útgáfa, til að undirskrika hversu auðvelt það er að auka fjölbreytileika stærri málheilda.

Líkt og kemur fram í ritgerð Tinnu eru svokallaðar málheildir, eða málleg gagnasöfn, notuð til þess að þjálfa mállíkön sem hafa forspárgildi og geta upp að ákveðnu marki skilið mannamál. Risamálheild er fengin úr fréttatextum og alþingisræðum.

Veftímaritið Flóra, sem er með meirihluta kvenkyns og kynsegin höfunda, inniheldur fjöldamörg orð sem ekki koma fram í íslenskri Risamálheild. Rúmlega 92 prósent höfunda greina á Flóru eru kvenkyns eða kynsegin, sem er algjör andstæða við heildarsafn greina sem þýðingavélar nota. Sömuleiðis tilheyra margir höfundar Flóru minnihlutahópum og skrifa því um málefni sem finnast ekki í stærri greinasöfnum.

Dæmi um ný orð sem bættust inn í risamálheildina eftir Flóru:

  • Fatahrúga
  • Bólukreisting
  • Túrverkur
  • Háhælaður
  • Heterónormatívur
Myndin hér að ofan sýnir upphaflega stjórn Vía (áður Flóra útgáfa).
Mynd: via.is

Skiptir máli hverjir höfundarnir eru

Emily M. Bender, bandarískur rannsakandi, skrifaði áhugaverða grein um kynjahalla í vélþýðingum sem má lesa hér.

Í greininni er skoðað hvernig kynjahalli og félagslegar skekkjur geta komið fram í tölvugerðum textum. Að hennar mati eru mállíkön of stór og að ekki er nóg að mæla gæði mállíkana einungis út frá stærð þjálfunargagnanna heldu þurfi að hafa í huga hvaðan gögnin koma. Líkt og kom fram í fyrrnefndu mastersverkefni Tinnu Þuríðar er ekki sjálfgefið að mikið af gögnum, eins og frá alþingisræðum og fréttatextum, tryggi fjölbreytileika í tungumáli.

Bender telur mikilvægt að hafa í huga hvaðan gögnin komi og hverjir höfundar séu með tilliti til aldurs, stéttaskiptingar, kynþáttar og menningarlegs umhverfis. Agnes segir hana

Emily M. Bender skrifaði greinina On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?
Mynd: University of Washington

„Hún prófaði ýmsar aðgerðir til að koma í veg fyrir mismunun eins og að þurrka út málgögn ef þau innihéldu ákveðin tabú orð. Það getur hins vegar verið svolítið hættulegt. Þú gætir nýtt þessa tækni til að eyða hatursorðræðu en á sama tíma gætirðu útilokað jákvæðan texta sem fjallar um slík málefni. Til dæmis texta frá hinsegin samfélaginu,“ segir Agnes.

Aðspurð um framtíð máltækninnar segir Agnes mikilvægt að benda á þennan halla og efla umræðuna.

„Kynja- og tæknihalli getur komið fyrir í hverju sem er. Við notum tæknina í öllu og þessir sjálfvirku algóritmar læra af gögnum. Það er slæmt ef verkfæri sem við notum daglega byrja að hafa áhrif á okkur með því að viðhalda fordómum og staðalímyndum. Það er mikilvægt að það sé samtal um þær lausnir, þannig að það valdi ekki frekari útilokun.“

Agnes segir mikilvægt að benda á þennan halla og efla umræðuna.
Fréttablaðið/Sigtryggur Ari