Úthlutað úr Markáætlun í tungu og tækni

4.2.2021

Stjórn Markáætlunar í tungu og tækni ákvað á fundi sínum 2. febrúar sl. að styrkja fimm verkefni á sviði tungu og tækni um allt að 295 milljónir króna í fyrstu úthlutun áætlunarinnar 2020-2023. Alls barst 21 umsókn um styrk.

Hlutverk Markáætlunar í tungu og tækni er annars vegar að vernda og efla íslenska tungu og hins vegar að auðvelda nýtingu nýrrar samskiptatækni í íslensku samfélagi, til hagsbótar almenningi, stofnunum og fyrirtækjum.

Markáætlun í tungu og tækni er opinn samkeppnissjóður sem starfar samkvæmt lögum um opinberan stuðning við vísindarannsóknir (nr. 3/2003 með áorðnum breytingum).

Upplýsingar eru birtar með fyrirvara um innsláttarvillur.

Eftirtalin verkefni hljóta styrk:

Sjálfvirk einræðing íslenskra sérnafna. Verkefnisstjóri: Óli Páll Geirsson. Aðalumsækjandi: Snjallgögn ehf. · Meðumsækjendur: Háskóli Íslands og Háskóli Reykjavíkur.

Einræðing nefndra hluta (Named Entity Linking) er eiginleikinn í tungutækni til að tengja það þegar hlutur, eins og opinber persóna, staður eða stofnun, er nefndur í texta að tengja tilvíusun við réttan og raunverulegan hlut í þekkingargrafi. Í tungutækni er nú þegar til staðar tækni sem greinir sérnöfn í texta. (Named Entity Recognition). 

Nýlega varð íslenskur sérnafnaþekkjari tilbúinn fyrir hagnýtingu. Einræðinging bætir við eiginleikanum á því að vita, út frá samhengi, nákvæmlega hvað/hvern er verið að nefna, jafnvel þegar margir koma til greina (t.d. Jón Sigurðsson), þannig að önnur kerfi geti nálgast viðbótarupplýsingar um viðfangsefnið eða til að tryggja að upplýsingar, unnar sjálfvirkt úr texta séu hengdar á réttan hlut. Einræðing nefndra hluta er stórt, vel rannsakað og skjalað vandamál. Framfarir á svinðinu hafa haldist í hendur við framfarir í þróun tauganeta. Einræðing fyrir ensku þykir þegar þroskuð til hagnýtingar. Miðað við skort á útgefnu efni um einræðingu má halda því fram að litlar eða engar rannsóknir hafa átt sér stað hér á þessu sviði. Vöntun á grunnefni til rannsóknanna, eins og málheld með mörkun fyrir einræðingu, er mögulega ástæða þess. 

Í verkefninu munu Snjallgögn ehf., Háskólinn í Reykjavík og Háskóli Íslands sameina krafta sína til að búa til hraðvirkan og nákvæmana einræðara fyrir Íslensku. Að auki mun fyrsta ár verkefnisins nýtt til að útbúa grunngögn og kóða sem er nauðsynlegur til að efla rannsóknir og þróun á þessu sviði.

Þróunarumgjörð fyrir íslenskt samræðukerfi. Verkefnisstjóri: Hannes Högni Vilhjálmsson. Aðalumsækjandi: Háskólinn í Reykjavík. · Meðumsækjendur: Grammatek ehf., Tiro ehf.

Samræðukerfi gera notendum kleift að eiga í samskiptum við tölvur og tæki með tali. Markmið þessa verkefnis er að þróa og gefa út opna þróunarumgjörð fyrir íslenskt samræðukerfi. Einnig verða til frumgerðir hugbúnaðar til sjálfvirkrar símsvörunar hjá einkafyrirtæki og til upplýsingagjafar á opinberri heimasíðu,sem byggja á þróunarumgjörðinni. 

Helstu þættir samræðukerfis eru: 1) talgreining, sem umbreytir tali notanda í texta; 2) málskilningur, sem greinir spurningar notanda með það að markmiði að “skilja” markmið hans; 3) samræðustjórnun, sem stýrir viðbrögðum kerfisins, til dæmis hvaða svar á að gefa eða hvaða aðgerð á að framkvæma, og sem jafnframt tengist gagnagrunnum, þjónustum og/eða öðrum uppsprettum upplýsinga; 4) málmyndun, sem myndar svar til notanda á textaformi; og 5) talgerving, sem umbreytir texta í talskilaboð til notanda. 

Þessi undirkerfi verða þróuð eða aðlöguð fyrir íslensku innan verkefnisins. Mörg þeirra eru nú þegar í þróun innan Máltækniáætlunar fyrir íslensku og mun verkefnið því geta nýtt þær afurðir ásamt því að leggja til frekari þróun á ýmsum sviðum. 

Tvær frumgerðir hugbúnaðar fyrir endanotendur verða þróaðar og prófaðar í samvinnu við samstarfsaðila úr atvinnulífinu og opinbera geiranum. Verkefnið tengist því sterklega bæði rannsóknum og hagnýtingu máltækni fyrir íslensku.              

Tölvustudd framburðarþjálfun á íslensku. Verkefnisstjóri: Jón Guðnason. Aðalumsækjandi: Háskólinn í Reykjavík. · Meðumsækjendur: Háskóli Íslands, Stofnun Árna Magnússonar í íslenskum fræðum, Tiro ehf.

Máltækni má nota til að gera tungumálakennslu auðvaldari og skemmtilegri. Það er mjög mikilvægt að geta fjölgað málnotendum minni tungumála eins og íslensku og skilvirk tungumálakennsla er góð leið til að ná slíku markmiði. Tölvustudd framburðarþjálfun (e. CAPT) gerir kennslu margra nemanda auðvaldari og gerir tölvustudda tungumálakennslu skilvirkari og auðveldari. 

Þetta verkefni miðar að því að smíða kerfi fyrir tölvustudda framburðarkennslu fyrir íslensku. Framburðar- og ítónunareiningar gera kerfinu kleift að hlusta á og meta framburð nemenda og gefa þeim nothæfa endurgjöf við nám sitt. Verkefnið inniheldur einnig vinnu við þróun á framburðarmati með mörgum markmiðum og kvikri einkunnargjöf þar sem gæði kerfisins er hámarkað og virkni útvíkkað. Framburðarkerfið verður samþætt og prófað sem hluti af Icelandic Online kerfinu sem er þegar í notkun við tungumálakennslu á íslensku sem annað mál.    

Mat á vitrænni hnignun með sjálfvirkri málgreiningu. Verkefnisstjóri:  Anton Karl Ingason. Aðalumsækjandi: Háskóli Íslands. · Meðumsækjendur: Landspítali, Stofnun Árna Magnússonar í íslenskum fræðum.

Þetta verkefni situr á mótum NLP, vélarnáms og taugavísinda. Markmið okkar er að þróa fyrstu frumgerð fyrir talgreiningarvettvang til að aðstoða íslenskt heilbrigðisstarfsfólk við að greina og fylgjast með vitrænni hnignun í tengslum við heilabilun og forklínísk stig. Með því að nota nýtískulegar reiknirit NLP og vélanám munum við sjálfkrafa umrita, flokka og vinna úr málsýnum frá sjúklingum með taugahrörnunartruflanir. Með því að tengja málfræðilega eiginleika beint við EEG-upptökur munum við ákvarða nákvæmlega hversu nákvæm tungumál geta verið sem spegill í taugasjúkdómum manns.

Notkun vélnámslíkana fyrir klínískar greiningar. Verkefnisstjóri: Emil Lárus Sigurðsson. Aðalumsækjandi: Háskólinn í Reykjavík. · Meðumsækjandi: Heilsugæsla höfuðborgarsvæðisins.

Markmiðið með þessu verkefni er að skoða hagkvæmni þess að nota vélnámslíkön fyrir klínískar greiningar Verkefnið samanstendur af tveimur undirmarkmiðum. Í fyrsta lagi að nota djúptauganet til að þróa útdráttarlíkan sem dregur út einkenni úr íslenskum sjúkraskýrslum. Í öðru lagi að nota einkennin til að þjálfa greiningarlikan sem spáir fyrir um klínískar greiningar.

Gagnasafnið okkar samanstendur af nótum úr sjúkraskrám sjúklinga frá Heilsugæslu höfuðborgarsvæðisins. Hluti gagnasafnsins verður handmerktur þannig að sérhvert klínískt einkenni í nótu er merkt, ásamt því textabili í nótunni sem vísar í viðkomandi einkenni.

Djúptauganetin (bæði biLSTM og BERT-líkön) verða þjálfuð með því að nota handmerktu nóturnar og spurningu sem inntak, með það að markmiði að besta fyrir því textabili sem inniheldur svarið við spurningunni. Þannig lærir útdráttarlíkanið að draga út klínísk einkenni sem tengjast þeirri spurningu sem sett er fram í samhengi við viðkomandi nótu. 

Fyrir þróun á greiningarlíkaninu, sem tekur einkenni frá útdráttarlíkaninu sem inntak og skilar klínískri greiningu sem úttaki, munum við gera tilraunir með ýmiss konar flokkunaraðferðir, eins og ""Logistic Regression"", ""Decision Trees"" og ""Random Forest"". Greiningarfærni líkansins verður að lokum borin saman við greiningarfærni lækna á heilsugæslu." 









Þetta vefsvæði byggir á Eplica