Corpora and corpus-based studies of the languages of the Russian Federation
Table of contents
Share
QR
Metrics
Corpora and corpus-based studies of the languages of the Russian Federation
Annotation
PII
S0869587324090039-1
Publication type
Review
Status
Published
Authors
T. I. Davidyuk 
Affiliation:
Institute of Linguistics of the Russian Academy of Sciences
Lomonosov Moscow State University
Andrej Kibrik
Affiliation:
Institute of Linguistics of the Russian Academy of Sciences
Lomonosov Moscow State University
D. D. Mordashova
Affiliation: Institute of Linguistics of the Russian Academy of Sciences
Pages
804-813
Abstract
The article describes corpus resources for the languages of Russia and their use in linguistic research. The linguistic diversity of the country is quite substantial: currently 155 languages are identified as languages of Russia. Many of them are under threat of extinction, which makes the task of creating corpora particularly relevant as a tool for language preservation. In this study we conducted a survey among the staff of the Institute of Linguistics of the Russian Academy of Sciences and other colleagues, which helped us collect the data about 73 corpus resources representing various languages and dialects of Russia. The sample covers both major languages and languages with relatively few speakers, including unwritten languages. The article examines various parameters by which corpora may differ, and offers examples of research based on materials from the corpora. The final part of the article discusses the organizational aspects of creating and maintaining corpus resources. The results of the study suggest that corpus resources not only play an important role in preserving the linguistic diversity of Russia but also represent a valuable tool for various research tasks, as well as for creating other language resources.
Keywords
лингвистические корпуса языковые ресурсы языки России сохранение языков
Received
02.11.2024
Number of purchasers
0
Views
28
Readers community rating
0.0 (0 votes)
Cite   Download pdf

References

1. Коряков Ю.Б., Давидюк Т.И., Харитонов В.С., Евстигнеева А.П., Сюрюн А.А. Список языков России и статусы их витальности. Монография-препринт. М.: Институт языкознания РАН, 2023. http://jazykirf.iling-ran.ru/ (2023)_Spisok_jazykov_Rossii_Monograph.pdf (дата обращения 25.05.2024).

2. The Routledge handbook of corpus linguistics / Еd. by A. O’Keeffe, M.J. McCarthy. Abingdon, New York: Routledge, 2021.

3. Kibrik A.A. A program for the preservation and revitalization of the languages of Russia // Russian Journal of Linguistics. 2021, vol. 25, no. 2, pp. 507–527.

4. Языковое многообразие России и возможности его сохранения / Ред. Е.Ю. Груздева, А.А. Сюрюн. Препринт. М.: Институт языкознания РАН, 2023. https://iling-ran.ru/library/revitalization/gruzdeva_et_al_language_diversity_2023.pdf (дата обращения 25.05.2024).

5. Gatbonton E., Pelczer I., Cook C., Venkatesh V., Nochasak C., Andersen H. A pedagogical corpus to support a language teaching curriculum to revitalize an endangered language: the case of Labrador Inuttitut // International Journal of Computer-Assisted Language Learning and Teaching. 2015, no. 5(4), pp. 16–36.

6. Сичинава Д.В. Параллельные тексты в составе Национального корпуса русского языка: новые языки и новые задачи // Труды Института русского языка им. В.В. Виноградова. 2019. № 21. С. 41–60.

7. Архангельский Т.А. Корпусная платформа Tsakorpus и языки России // Электронная письменность народов Российской Федерации – 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 23–24.

8. Bright W. Contextualizing a grammar // Perspectives on grammar writing / Ed. by Th. Payne, D. Weber. Amsterdam: John Bejamins, 2007. P. 11–17.

9. Mosel U. Corpus linguistic and documentary approaches in writing a grammar of a previously undescribed language // The Art and Practice of Grammar Writing (LD&C Special Publication 8) / Ed. by T. Nakayama, K. Rice. 2014. P. 135–157.

10. Бачаева С.Е. Лексическая сочетаемость имён прилагательных, обозначающих малый размер (на материале Национального корпуса калмыцкого языка) // Известия ДГПУ. 2016. Т. 10. № 4. С. 42–47.

11. Ханина О.В. Возможности цифровых технологий: описание аллофонов передних гласных, гортанного смычного и объектного согласования глагола в энецком языке // Урало-алтайские исследования. 2017. № 3(26). С. 186–207.

12. Serdobolskaya N. A corpus analysis of differential object marking in Beserman Udmurt // Linguistica Uralica. 2020, vol. 56, no. 4, pp. 275–308.

13. Русских А.А., Оскольская С.А. Аддитивная частица в тюркских языках Поволжья // Oriental Studies. 2021. Т. 14. № 6. С. 1324–1352.

14. Ганенков Д.С. Корпусное исследование инфинитивных конструкций в лезгинском языке // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2016. Т. 12. Ч. 1. С. 310–322.

15. Плунгян В.А. Параллельный корпус как грамматическая база данных и Новый Завет как параллельный корпус (предисловие) // Acta Linguistica Petropolitana. Труды Института лингвистических исследований. 2023. Т. 19. Ч. 3. С. 15–38.

16. Буркова С.И., Филимонова Е.В. Редупликация в русском жестовом языке // Русский язык в научном освещении. 2014. № 2(28). С. 202–258.

17. Буркова С.И. Способы выражения именной множественности в русском жестовом языке // Сибирский филологический журнал. 2015. № 2. С. 174–184.

18. Дыбо А.В., Крылов Ф.С., Мальцева В.С., Шеймович А.В. Сегментные правила в автоматическом парсере Корпуса хакасского языка // Урало-алтайские исследования. 2019. № 1(32). С. 48–69.

19. Дыбо А.В., Мальцева В.С., Султрекова Э.В., Шеймович А.В., Крылов Ф.С. Структура хакасской словоформы и ограничения на сочетаемость аффиксов в автоматическом парсере хакасского языка // Урало-алтайские исследования. 2023. № 2(49). С. 42–75.

20. Хусаинов А.Ф., Сулейманов Д.Ш. Обзор созданных речевых корпусов и программных средств для синтеза татарской речи // Речевые технологии. 2020. № 1. С. 63–72.

21. Сабанцев Г.Л., Чемышев А.В. Яндекс.Переводчик и языки России // Электронная письменность народов Российской Федерации - 2021 и IWCLUL 2021. Материалы Международной научно-практической конференции, Сыктывкар, 23–24 сентября 2021 года. Сыктывкар: Коми республиканская академия государственной службы и управления, 2022. С. 178–181.

22. Форкер Д., Гаджимурадов Г.А. Санжинские сказки и рассказы. C приложением санжинско-русского и русско-санжинского словарей. Махачкала: Типография А4, 2017.

23. Тулумбаев В.З. Технологии корпусной лингвистики в обучении башкирскому языку // Современные проблемы и перспективы развития естествознания. Материалы национальной научно-практической конференции. Уфа, 8–9 июня 2020 года. Уфа: Башкирский государственный педагогический университет им. М. Акмуллы, 2020. С. 309–312.

24. Кибрик А.А., Майсак Т.А. Правила дискурсивной транскрипции для описательных и документационных исследований // Рема. 2021. № 2. С. 23–45.

25. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие. М.: Эдиториал УРСС, 2001.

Comments

No posts found

Write a review
Translate