Latviešu valodas apguvēju korpusa izveide: metodes, rīki un izmantojums

Sākums  08/2018 Noslēgums 07/2021

Projekta numurs

lzp-2018/1-0527

Finansējums

291480 EUR

Projekta vadītāja

Ilze Auziņa

ilze.auzina@lumii.lv

www.lumii.lv

Projektu realizējošā institūcija:

Latvijas Universitātes Matemātikas un informātikas institūts

Zinātnes nozare

Humanitāro un mākslas zinātņu nozare

Kā ikdienā sabiedrība varēs izmantot projekta secinājumus vai rezultātus? 
– Projekta laikā tiek veidots Latviešu valodas apguvēju korpuss (LaVA), kurā tiks marķētas valodas apguvēju pieļautās kļūdas. Korpuss ir elektronisks tekstu kopums, un LaVA tiek apkopoti teksti, kurus, mācoties latviešu valodu, ir rakstījuši studenti no dažādām valstīm. Korpuss būs pieejams tiešsaistē, un ikviens interesents – gan latviešu valodas apguvējs, gan valodu skolotājs – varēs meklēt konkrētus piemērus vai aplūkot tipiskās kļūdas. Pēc korpusā iekļauto tekstu analīzes tiks izveidota korpusā balstītu mācību materiālu un pašnovērtējuma uzdevumu tīmekļa platforma, kur varēs pārbaudīt savas latviešu valodas zināšanas.

Kopsavilkums

Nepieciešamība un vēlme apgūt latviešu valodu pieaug. Latviešu valoda kā svešvaloda tiek mācīta gan Latvijas, gan vairāk nekā 20 ārzemju augstskolās. Lai pētītu ārvalstnieku latviešu valodas apguves īpatnības un nodrošinātu uz datiem balstītu latviešu valodas mācību un metodisko materiālu izstrādi, ir nepieciešams latviešu valodas apguvēju korpuss. Šādos korpusos balstīti pētījumi, kas saistīti ar valodas apguvēju valodas analīzi, ir ļoti populāri visā pasaulē. Pēc atbilstošiem kritērijiem veidots valodas apguvēju korpuss, kurā ir anotētas arī valodas apguvēju pieļautās kļūdas, ļauj pētniekiem izveidot efektīvākus mācību materiālus un metodiku. Valodas apguvēju korpusi ir nozīmīgi arī pareizrakstības pārbaudītāju (piem., Grammarly, Reverso) izveidē. Projekta vispārīgais mērķis ir sagatavot pētniecisku bāzi latviešu valodas apguves īpatnību izpētei, balstoties uz jaunizveidotā Latviešu valodas apguvēju korpusa (tālāk – Korpuss) datiem un tādējādi stiprinot latviešu valodas tehnoloģisko atbalstu Eiropas daudzvalodu digitālajā vienotajā tirgū.

Projekta specifiskie mērķi:

  1. izstrādāt Korpusa kļūdu anotēšanas metodoloģiju;
  2. izveidot Korpusu un tā infrastruktūru;
  3. izmantojot Korpusu, kvantitatīvi un kvalitatīvi analizēt valodas apguvēju pieļautās kļūdas;
  4. izstrādāt korpusā balstītus mācību materiālus un pašnovērtējuma tīmekļa platformu. Izveidotais korpuss būs pirmais publiski pieejamais Korpuss, kurā anotētas kļūdas un iekļauti latviešu valodas apguvēju dati ar dažādām dzimtajām valodām. Šis starpnozaru projekts ir saistīts ar vairākām zinātņu nozarēm: valodniecību, pedagoģiju un datorzinātni. Projekts atbilst trīs MK 2017. gada 13. decembra rīkojumā Nr. 746 noteiktajiem prioritārajiem virzieniem.

Tas atbilst virzienam “Latvijas valstiskums, valoda un vērtības, kultūra un māksla”, jo tiks izveidots jauns valodas resurss un tiks pētītas latviešu valodas kā svešvalodas apguves īpatnības. Projekts atbilst prioritātei “Tehnoloģijas, materiāli un inženiersistēmas produktu un procesu pievienotās vērtības palielināšanai un kiberdrošībai”, jo tiks izstrādāta pilnīgota metodoloģija un rīki pusautomātiskai kļūdu anotēšanai un korpusa izveidei, jauns resurss dabiskās valodas apstrādes rīku izstrādei (piem., pareizrakstības pārbaudītāja izstrādei). Projekts atbilst prioritātei “Zināšanu kultūra un inovācijas ekonomiskajai ilgtspējai”, jo korpusa datu analīze veicinās pētniecībā balstītu izglītības metožu izmantošanu.

Projektu konkurss

Fundamentālo un lietišķo pētījumi projektu 2018. gada 1. konkurss

X