Vispārīgā informācija

Sākums 20.12.2021. Noslēgums  19.12.2024.

  • Projekta numurs

    • VPP-LETONIKA-2021/1-0006

  • Finansējums

    • 1 068 000 EUR

  • Projekta vadītājs

  • Projektu realizējošā institūcija:

    • Latvijas Universitātes Matemātikas un informātikas institūts

    • Latvijas Universitāte

    • Latvijas Universitātes Literatūras, folkloras un mākslas institūts

    • Liepājas universitāte

Zinātnes nozare

  • Valodniecība un literatūrzinātne

  • Datorzinātne un informātika

Kopsavilkums

Projekta “Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība” (LATE) mērķis ir, izmantojot datos balstītas metodes, veikt mūsdienu latviešu valodas gramatiskās, leksiski semantiskās, fonētiski fonoloģiskās sistēmas un latviešu zīmju valodas izpēti, kā arī pilnīgot esošos un radīt jaunus, ilgtspējīgus latviešu valodas resursus un rīkus. Lai sasniegtu izvirzīto mērķi, tiks izveidots “Latviešu valodas runas korpuss”, “Latviešu zīmju valodas paraugkorpuss”, kā arī tiks papildināta vārdnīca Tēzaurs.lv un “Mūsdienu latviešu valodas vārdnīca”. Balstoties uz latviešu valodas gramatikas pētījumiem, tiks pilnveidots “Sintaktiski marķētais latviešu valodas korpuss”. Šie resursi tiks integrēti vienotā latviešu valodas pētniecības infrastruktūrā, kā arī CLARIN-LV repozitorijā. Projekta laikā taps LATE platforma runas transkribēšanai un subtitrēšanai. Projektu īstenos Latvijas Universitātes Matemātikas un informātikas institūta, LU Latviešu valodas institūta, LU Humanitāro zinātņu fakultātes, LU Literatūras, folkloras un mākslas institūta un Liepājas Universitātes zinātnieki, kuru intereses un kompetence saistīta ar latviešu valodniecību, datorlingvistiku un digitālajām humanitārajām zinātnēm.

Projekta mērķis

Izmantojot datos balstītas metodes, attīstīt mūsdienu latviešu valodas gramatiskās, leksiski semantiskās un fonētiskās sistēmas izpēti, kā arī pilnveidot esošos un radīt jaunus, ilgtspējīgus latviešu valodas resursus un rīkus.

Projektu konkurss

Valsts pētījumu programma “Letonika latviskas un eiropeiskas sabiedrības attīstībai”

Rezultāti

Informācija par pētniecības projektu

Pētniecības projekta numurs

VPP-LETONIKA-2021/1-0006

Pētniecības projekta nosaukums

Mūsdienu latviešu valodas izpēte un valodas tehnoloģiju attīstība

Zinātnes nozare (pamata)

Valodniecība un literatūrzinātne

Rezultāta veids

 

Rezultāta izpilde

Oriģināli zinātniskie raksti, kas publicēti vai pieņemti publicēšanai Web of Science vai SCOPUS datubāzēs iekļautajos žurnālos vai konferenču rakstu krājumos

 

  1. Saulīte B.; Auziņa I.; Darģis R. Nacionālā korpusu kolekcija korpuss.lv. - Linguistica Lettica, 2023, 31, LU Latviešu valodas institūta žurnāls, https://doi.org/10.22364/lingualet
  2. Mežale E. Somu sarunvalodas gramatiskās pazīmes reālajā lietojumā un mācību materiālos.. - Valoda: nozīme un forma / Language: Meaning and Form 13, 2022, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.13.12  
  3. Saulīte B.; Darģis R.; Grūzītis N.; Auziņa I. Levāne-Petrova K.; Pretkalniņa L.; Rituma L.; Paikens P.; Znotiņš A.; Strankale L.; Pokratniece K.; Poikāns I.; Bārzdiņš G.; Skadiņa I.; Baklāne A. Saulespurēns V.;  Ziediņš J. Latvian National Corpora Collection – Korpuss.lv.. - Proceedings of the Language Resources and Evaluation Conference, 2022, European Language Resources Association, Marseille, France, 5123–5129.
  4. Paikens P.; Grasmanis M.; Klints A.; Lokmane I.; Pretkalniņa L.; Rituma L.; Stāde M.; Sreankale L. Towards Latvian WordNet. - Proceedings of the Language Resources and Evaluation Conference, 2022, European Language Resources Association, Marseille, France, 5123–5129. 
  5. Darģis R.; Auziņa I. Kaija I. Levāne-Petrova K. Pokratniece K. LaVA – Latvian Language Learner corpus. - Proceedings of the Language Resources and Evaluation Conference, 2022, European Language Resources Association, Marseille, France, 5123–5129.
  6. Rikters M.; Reinsone S. How Masterly Are People at Playing with Their Vocabulary? - Baltic J. Modern Computing, 2022, Vol. 10, No. 3, 382–391., https://doi.org/10.22364/bjmc.2022.10.3.11 
  7. Lauze L.; Auziņa I. Korpusu un individuālā vākuma salīdzinājums: ģenitīva un nominatīva konkurence saistījumā ar adverbu. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.08
  8. Lokmane I. Sintaktisko sakaru robežgadījumi: sekundāri predikatīvs sakars un pakārtojums. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.09  
  9. Mežale E. Norādāmo vietniekvārdu sarunvalodas varianti latviešu valodas tīmekļa tekstos. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.10
  10. Daina A. Darbības vārda varēt lietojums vēlējuma izteiksmē Saeimas sēžu stenogrammu korpusā. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.02
  11. Rituma L.; Nešpore-Bērzkalne G.; Saulīte B.; Pretkalniņa L. Vārdkopas analogi "Latviešu valodas sintaktiski marķētajā korpusā". - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.11  
  12. Kalnača A.; Pakalne T. Latviešu valodas lietvārdu darināšanas piedēkļu daudznozīmība teorētiskā skatījumā. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.05
  13. Deksne D. Neoklasiskās vārddaļas ultra-, mega-, hiper- un super- un adjektīvu darināšanas modeļi latviešu valodā. - Valoda: nozīme un forma / Language: Meaning and Form 14, 2023, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf.14.03
  14. Darģis R.; Znotiņš A.; Auziņa I.; Saulīte B.; Reinsone S.; Dejus R.; Kļavinska A.; Grūzītis R. BalsuTalka.lv – Boosting the Common Voice Corpus for Low-Resource Languages. - Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 2024, Calzolari, N., Kan, M.,  Hoste, V., Lenci, A., Sakti, S., and Xue, N.Torino, Italia. ELRA and ICCL, 2080–2085, BalsuTalka.lv - Boosting the Common Voice Corpus for Low-Resource Languages
  15. Auziņa I.; Grūzītis N.; Darģis R.; Rābante-Buša G.; Goško D.; Suvorovs O.; Znotiņš A. Recent Latvian Speech Corpora for Linguistic Research and Technology Development. - Baltic J. Modern Computing, 2024, Vol. 12, https://www.bjmc.lu.lv/fileadmin/user_upload/lu_portal/projekti/bjmc/Contents/12_4_24_Auzina.pdf
  16. Klints A.; Grasmanis M.; Nešpore-Bērkalne G.; Pretkalniņa L.; Stāde M.; Grūzītis N.; Lokmane I.; Paikens P.; Rituma L.; Spektors A. Tēzaurs as a Digital Multifunctional Lexical Resource. - Baltic J. Modern Computing, 2024, Vol. 12, https://www.bjmc.lu.lv/fileadmin/user_upload/lu_portal/projekti/bjmc/Contents/12_4_13_Klints.pdf 
  17. Grasmanis M.; Paikens P.; Pretkalniņa L.; Rituma L.; Strankale L.; Znotiņš A.; Grūzītis N. Tēzaurs.lv – the experience of building a multifunctional lexical resource.. - Electronic lexicography in the 21st century (eLex 2023): Invisible Lexicography. Proceedings of the eLex 2023 conference., 2023, Medveď, Miloš, Měchura, Michal, Tiberius, Carole, Iztok, Kosem, Kallas, Jelena, Jakubíček, Miloš (eds.) Brno: Lexical Computing CZ s.r.o., https://elex.link/elex2023/wp-content/uploads/89.pdf 
  18. Rituma L.; Nešpore-Bērzkalne G.; Klints A.; Lokmane I.; Stāde M.; Paikens P. Classifying Multi-Word Expressions in the Latvian Monolingual Electronic Dictionary Tēzaurs.lv. - 6th International Conference Computational Linguistics in Bulgaria (CLIB). 113–118., 2024, , https://dcl.bas.bg/clib/wp-content/uploads/2024/09/CLIB2024_PROCEEDINGS_v1.0.pdf
  19. Kalnača A.; Lokmane I. Evidentiality and the Latvian Oblique forms. - Evidentiality and Epistemic Modality: Conceptual and Descriptive Issues, 2023, Arrese, Juana Marín, Domínguez, Elena, Martín, Victoria & Carretero, Marta (eds.), Berlin: Peter Lang, 279–312. , https://doi.org/10.3726/b20323

ERIH PLUS raksti

 

  1. Deksne D. Verba priedēkļi latviešu literārajā un latgaliešu rakstu valodā. - Valoda: nozīme un forma / Language: Meaning and Form 13, 2022, Latvijas Universitātes Humanitāro zinātņu fakultātes Latvistikas un baltistikas nodaļas rakstu krājums. Krāj. sast. un red. Andra Kalnača. Rīga: Latvijas Universitātes Akadēmiskais apgāds, https://doi.org/10.22364/vnf
  2. Deksne D. Priedēkļi lietvārdu vārddarināšanas modeļos. - Valoda: nozīme un forma / Language: Meaning and Form 15, 2024, Rīga: LU Akadēmiskais apgāds.  https://journal.lu.lv/vnf/article/view/2448/2372
  3. Auziņa I.; Rābante-Buša, G. Sarunvalodai tipiskie fonētiskie līdzekļi: runas korpusa datu analīze. - Valoda: nozīme un forma / Language: Meaning and Form 15, 2024, Rīga: LU Akadēmiskais apgāds https://journal.lu.lv/vnf/article/view/2446/2370 
  4. Daina A. Modālais darbības vārds drīkstēt īstenības izteiksmē un valodas ietekmējošā funkcija Saeimas sēžu stenogrammu korpusā. - Valoda: nozīme un forma / Language: Meaning and Form 15, 2024, Rīga: LU Akadēmiskais apgāds https://journal.lu.lv/vnf/article/view/2447/2371
  5. Straupeniece D.; Bether , D.; Ozola E. Sign Language of the Deaf People: a Study on Public Understanding.. - Education. Innovation. Diversity., 2023,2(7) https://doi.org/10.17770/eid2023.2.7356

 

 

Zinātniskās datu bāzes un datu kopas

  1. Rituma L.; Pretkalniņa L.; Saulīte B.; Nešpore-Bērzkalne G.; Grūzītis N.; Znotiņš A. Sintaktiski marķēts latviešu valodas korpuss (LVTB v.2.12, UDLV-LVTB, v.2.12). - CLARIN-LV digital library at IMCS, University of Latvia, 2024, http://hdl.handle.net/20.500.12574/112 
  2. Zeman D.; et al. Latviešu valodas universālo atkarību korpuss / Latvian UD Treebank (UDLV-LVTB). - LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), 2024, http://hdl.handle.net/11234/1-5787
  3. Spektors A.; Pretkalniņa L.; Grūzītis N.; Paikens P.; Rituma L.; Saulīte B.; Nešpore-Bērzkalne G.; Lokmane I.; Klints A.; Stāde M.; Grasmanis M.; Auziņa I.; Znotiņš A.; Darģis R.; Bārzdiņš G. Tēzaurs.lv datu kopa (Ziema 2025) / Tēzaurs.lv 2025 (Winter Edition). - CLARIN-LV digital library at IMCS, University of Latvia, 2024, http://hdl.handle.net/20.500.12574/119 
  4. Zuicena I.; Auziņa I.; Briede S.; Jansone I. I.; Kuplā I.; Lejniece G.; Migla I.; Oldere L.; Ozola Ā.; Požarnova V.; Rapa S.; Roze A.; Šmidebergs I.; Šnē D.; Šnē M.; Timuška A.; Grasmanis M.; Pretkalniņa L.; Znotiņš A. Mūsdienu latviešu valodas vārdnīca (MLVV) / Dictionary of Contemporary Latvian Language (MLVV) (2024-12-21). - CLARIN-LV digital library at IMCS, University of Latvia, 2024 http://hdl.handle.net/20.500.12574/120 
  5. Darģis R.; Auziņa I. Ilvars – Latvian Male VITS Text-to-Speech Model (vers. 2023). - CLARIN-LV digital library at IMCS, University of Latvia, 2023 http://hdl.handle.net/20.500.12574/89 
  6. Darģis R.; Auziņa I.; Rābante-Buša G. LATE audiogrāmatu korpuss runas sintēzei // LATE Corpus of Audiobooks for TTS. 2023
  7. Auziņa I.; Darģis R.; Rābante-Buša G.; Timinska-Ļaksa I.; Gailīte E.; Auziņa A. LATE sarunu korpuss // LATE Conversational Speech Corpus V1 (LATE-sarunas). - CLARIN-LV digital library at IMCS, University of Latvia, 2024 http://hdl.handle.net/20.500.12574/113
  8. Auziņa I.; Darģis R.; Levāne-Petrova K.; Auziņa A.; Saulīte B.; Ļaksa-Timinska I.; Gailīte E.; Nešpore-Bērzkalne G.; Rābante-Buša G.; Pokratniece K.; Klints A.  LATE plašsaziņas līdzekļu korpuss // LATE Media Speech Corpus V1 (LATE-mediji). - CLARIN-LV digital library at IMCS, University of Latvia, 2024 http://hdl.handle.net/20.500.12574/114 
  9. Auziņa I.; Rābante-Buša G.; Darģis R. LATE fonētiski marķēts runas korpuss // LATE Phonetically Annotated Speech Corpus V1 (fonLATE). - CLARIN-LV digital library at IMCS, University of Latvia, 2024 http://hdl.handle.net/20.500.12574/115
  10. Trumpa E.; Ozola A.; Jansone L. P. Datukopa latviešu valodas fonētiskai analīzei / Dataset for Latvian Phonetic Analysis. - CLARIN-LV digital library at IMCS, University of Latvia, 2024 http://hdl.handle.net/20.500.12574/122
  11. Bethere D.; Barone L.; Immure I.; Intsone A.; Liniņa I.; Ozola E.; Romanovska A.; Straupeniece D.; Darģis R. Latviešu zīmju valodas korpuss / Latvian Sign Language Corpus. - CLARIN-LV digital library at IMCS, University of Latvia, 2025 http://hdl.handle.net/20.500.12574/121 
  12. Darģis R.; Znotiņš A.; Auziņa I.; Rābante-Buša G. LATE Dev&Test Set V1 for Latvian ASR. - CLARIN-LV digital library at IMCS, University of Latvia, 2024, http://hdl.handle.net/20.500.12574/99
  13. Znotiņš A.; Darģis R.; Grūzītis N.; Goško D.; Bārzdinš G. General-purpose Latvian ASR model. 2024, https://huggingface.co/AiLab-IMCS-UL/whisper-large-v3-lv-late-cv19

 

Jauna produkta vai jaunas tehnoloģijas, tai skaitā metodes, prototips

  1. Znotiņš A.; Darģis R.; Grūzītis N.; Goško D.; Bārzdiņš G. LATE Open Source Platform for Speech Transcription. 2024 https://late.ailab.lv/

Sekmīgi aizstāvēts promocijas darbs projekta tematikā

  1. Santa Briede Īpašvārdi latviešu un lietuviešu leksikogrāfijā. - Latvijas Universitāte, 2023
  2. Kristīne Levāne-Petrova Ciešamās kārtas funkcionālā sistēma latviešu valodā. - Latvijas Universitāte, 2023
  3. Lauma Pretkalniņa Formāls latviešu valodas gramatikas modelis un tā realizācija mašīnlasāmā sintakses korpusā. - Latvijas Universitāte, 2023

Rīcībpolitikas nodevums

-