Kopš 2018. gada septembra Latvijas Universitātes Matemātikas un informātikas institūta Mākslīgā intelekta laboratorijā (LU MII AiLab) tiek veidots Latviešu valodas apguvēju korpuss (LaVA; http://lava.korpuss.lv/). Tā būs jauna bāze latviešu valodas apguves īpatnību izpētei, kvantitatīvai un kvalitatīvai valodas apguvēju pieļauto kļūdu analīzei. Tāpat arī, ņemot vērā apguvēju kļūdas un dzimtās valodas ietekmi, tiks izstrādāti metodiskie materiāli valodas apguvei.
LaVA tiek iekļauti to Latvijas augstākajās mācību iestādes studējošo ārvalstnieku darbi, kas latviešu valodu apgūst kā svešvalodu pirmo vai otro semestri. Teksti ir tapuši mācību procesā, un tie iegūti no Rīgas Stradiņa universitātes, Latvijas Universitātes, Liepājas Universitātes, Rēzeknes Tehnoloģiju akadēmijas un Latvijas Kultūras akadēmijas. Paredzams, ka korpusu veidos aptuveni 1000 studentu darbi un tā apjoms būs 100 000 vārdlietojumu.
Projekta vadītāja, vadošā pētniece Ilze Auziņa: “Pēdējos 15–20 gados valodas apuvēju korpusi ir kļuvuši ļoti populāri – pētnieki tos izmanto, lai pētītu dzimtās valodas ietekmi svešvalodas apguvē, kā arī valodas apguves procesu kopumā, savukārt pedagogiem tie noder mācību materiālu un rīku izstrādē, kā arī palīdz plānot mācību procesu. Pašlaik valodas apguvēju korpusu jomā dominē angļu valodas apguvēju korpusi, tomēr arvien vairāk tiek veidoti arī citu valodu apguvēju korpusi, piemēram, vācu, portugāļu, krievu valodas apguvēju korpusi. Tagad top arī LaVA, kura dati tiks izmantoti tiešsaistes uzdevumu un pašpārbaudes testu izstrādē.”
Valodas korpuss ir strukturēts tekstu vai atšifrētu runas ierakstu kopums, kas paredzēts lingvistiskai analīzei un valodas tehnoloģiju izstrādei. Tajā tiek iekļauts autentisks valodas materiāls, kas atspoguļo valodas reālo lietojumu. Valodas apguvēju korpusā ir sistemātiski apkopoti valodas apguvēju dati – teksti un/vai atšifrēti audiofaili, kuros parasti ir arī marķētas valodas apguvēju pieļautās kļūdas.
Latviešu valodas apguvēju korpuss tiek veidots Fundamentālo un lietišķo pētījumu projektā “Latviešu valodas apguvēju korpusa izveide: metodes, rīki un izmantojums”.
LU MII AiLab ir viena no nozīmīgākajām organizācijām Latvijā, kas nodarbojas ar pētījumiem datorlingvistikā un valodu tehnoloģijās jau 28 gadus. Laboratorijā tiek veikti pētījumi dažādās dabiskās valodas automatizētas apstrādes un mašīnmācīšanās jomās, tiek izstrādātas mašīnlasāmas vārdnīcas (populārākā no tām ir http://tezaurs.lv) un mašīnlasāmi runas un tekstu korpusi (http://www.korpuss.lv/).
Informāciju sagatavoja Kristīne Pokratniece, AiLab