Biežākās kļūdas latviešu valodā: korpusā balstīta kļūdu analīze un teksta labošana
Sākums: 01/2024 Noslēgums: 12/2026
Projekta numurs
lzp-2023/1-0481
Finansējums
299973 EUR
Projekta vadītājs
Baiba Valkovska
Projektu īsteno
Latvijas Universitātes Matemātikas un informātikas institūts
Zinātnes nozare
Humanitārās zinātnes
Kopsavilkums
Latviešu valodas kvalitāte ikdienas saziņā dažādu iemeslu dēļ pasliktinās. Ir pieejami daudzi resursi (vārdnīcas, korpusi, gramatikas, rokasgrāmatas, konsultāciju iespējas un automātiskie gramatikas pārbaudītāji), bet tie galvenokārt norāda uz pareizrakstības kļūdām un nepalīdz izvairīties no sarežģītām teikumu konstrukcijām un stila kļūdām. Lai dokumentētu, labotu un skaidrotu biežāk sastopamās latviešu valodas kļūdas, tiks izveidots daļēji automātiski marķēts latviešu valodas kā dzimtās valodas runātāju kļūdu korpuss. Korpusa izveides metodika un dati ļaus analizēt, kā šādas kļūdas ietekmē latviešu valodas gramatisko sistēmu, un, apkopojot un sistematizējot biežāk sastopamās kļūdas, izstrādāt mūsdienīgus, korpusā balstītus ieteikumus rakstu valodas kvalitātes uzlabošanai. Kļūdu korpuss ir nepieciešams arī tādēļ, lai izstrādātu pilnīgāku gramatikas pārbaudītāju, kas norādītu ne tikai uz tehniskām neprecizitātēm un vienkāršākām pareizrakstības vai interpunkcijas kļūdām, bet arī uz teikuma konstrukciju izveides kļūdām, kā, piemēram, Grammarly, Reverso un Scribens citām valodām. Projekta rezultāts būs noderīgs arī uzņēmumiem, kas izstrādā gramatikas pārbaudītājus, jo lielākā daļa mūsdienu programmatūras ir valodneatkarīga un to varētu pielāgot latviešu valodai arī bez jebkādām latviešu valodas zināšanām, ja ir pieejamas atbilstošas datu kopas.
Projektu konkurss:
Fundamentālo un lietišķo pētījumu projektu 2023. gada atklātais konkurss