Preview

Дискурс профессиональной коммуникации

Расширенный поиск

Принципы разработки китайско-русского словаря многозначной лексики в качестве обучающего корпуса для нейросетевого машинного перевода

https://doi.org/10.24833/2687-0126-2025-7-1-89-107

Аннотация

Статья посвящена выявлению качественных характеристик детализации словаря многозначной лексики с целью повышения интерпретативности нейросетевых машинных переводчиков. Исследование выполнено в рамках частной теории перевода, а именно на материале китайско-русской языковой пары как одной из наиболее актуальных в современном переводческом контексте и одновременно проблематичных ввиду значительной межъязыковой и межкультурной асимметрии. Новизна исследования заключается в отсутствии методик и алгоритмов по разработке конечных словарей, позволяющих осуществлять нейросетевой машинный перевод наиболее адекватно современным условиям. Определяя многозначность как одну из причин некачественного автоматического генерирования текста, автор предлагает теоретическое обоснование принципов составления двуязычных словарей на основе ручной обработки параллельных текстов с целью заполнения определенных параметров лингвопереводческих схем для детализации употребления лексических единиц, сложно интерпретируемых нейросетевыми переводчиками. Проблема решается с помощью метода экокогнитивного моделирования профессиональной коммуникации переводчиков, позволяющего провести комплексное исследование человеко-машинной коммуникации, на основе которой выделяются многозначные единицы перевода, требующие ручной предобработки. Автор определяет два сценария снятия многозначности у сложно интерпретируемых лексических единиц. По разработанному авторскому алгоритму в статье показаны детали анализа ручной обработки параллельных текстов и заполнение схем оформления словарных статей под нейросетевой переводчик. Обсуждается исследовательская логика по принятию тех или иных решений относительно категоризации и/или параметризации рассматриваемых лексических единиц и их контекстуальных особенностей. В анализе объясняются причины включения рассматриваемых единиц в корпусные данные для обучения нейросетей, иллюстрируется их лексико-грамматическая детализация и сочетаемость, а также приводится переводческий анализ для снятия контекстуальной вариативности за счет категоризации понятий и/или дискурсивной принадлежности. В результате исследования качественными характеристиками детализации параллельного обучающего китайско-русского корпуса выступают: лингвистические и дефиниционные параметры, словарная представленность, переводческая вариативность в зависимости от лексико-грамматической сочетаемости, дискурсивно-жанровой принадлежности и концептуально-категориальной таксономии.

Об авторе

Е. В. Чистова
Университет мировых цивилизаций им. В.В. Жириновского
Россия

Елена Викторовна Чистова – доктор филологических наук, доцент, профессор кафедры теории, практики и дидактики перевода

Москва



Список литературы

1. Велла Т.М. Переводческие константы интерпретативной теории перевода // Известия Воронежского государственного педагогического университета. 2013. № 2 (261). С. 204-206. 2. Гражданский кодекс Российской Федерации. Статья 153 [Электронный ресурс] // Гардиум. URL: https://base.garant.ru/10164072/172a6d689833ce3e42dc0a8a7b3cddf9/ (дата обращения: 13.12.2024).

2. Дашевская Г.Я., Кондрашевский А.Ф. Китайский язык для делового общения. 3-е изд., испр. М.: Муравей, 2003.

3. Ершова Ю.Н., Санникова Ю.А. Нейросетевые архитектуры для решения задач лексикографии // Наукосфера. 2024. № 10-2. С. 236-242. doi:10.5281/zenodo.13969346

4. Как работает нейросеть Google Translate [Электронный ресурс] // Cossa. 28 февраля 2018. URL: https://www.cossa.ru/trends/196086/ (дата обращения: 12.05.2024).

5. Китайско-русский словарь Мультитран [Электронный ресурс]. URL: https://www.multitran.com/m.exe?l1=17&l2=2 (дата обращения: 17.12.2024).

6. Ко Ч. Машинный перевод текстов в области традиционной китайской медицины // От машинного перевода к машинному обучению: Cборник научных статей (27–28 октября 2023 г.). Выпуск 3 / под ред. Е.С. Кокановой. Архангельск, 2024. С. 70-73.

7. Коканова Е.С., Пак Н.С. «Рабочие» приемы предредактирования текста английской медицинской инструкции для машинного перевода на русский и белорусский языки // Англистика в третьем тысячелетии: новые подходы и пути развития: Тезисы докладов Международной научной конференции. Минск, 2024. С. 69-70.

8. Компания Яндекс – Технологии – Машинный перевод [Электронный ресурс] // Компания Яндекс. URL: https://yandex.ru/company/technologies/translation (дата обращения: 19.03.2024).

9. Машинный перевод. Инновации и влияние на переводческие услуги [Электронный ресурс] // Apriori. Лингвистические услуги. URL: https://apriori-ltd.ru/apriori-news-blogs-andarticles/tpost/2d59h4s0i1-mashinnii-perevod-innovatsii-i-vliyanie (дата обращения: 20.06.2024).

10. Мифтахова Р.Г. Методы пополнения корпусных данных в статистическом машинном переводе // Доклады Башкирского университета. 2017. Т. 2. № 1. С. 97-103.

11. Моренцова А.В. Устранение лексической многозначности при машинном переводе: от терминологических словарей к онтологии предметной области // Актуальные научные исследования в современном мире. 2019. № 3-5 (47). С. 69-73.

12. Мукабенов К.И., Ахмадуллина Е.Н. Основные проблемы машинного перевода и пути их решения // Проблемы языка и перевода в трудах молодых ученых. 2023. № 22. С. 176-181.

13. Руднева Р. Транзакция – это [Электронный ресурс] // Банки.ру. 3 июня 2023. URL: https://www.banki.ru/wikibank/tranzaktsiya/ (дата обращения: 13.03.2024).

14. Солдаткин Д. Транзакция [Электронный ресурс] // Бизнес-секреты. 19 июля 2023. URL: https://secrets.tinkoff.ru/glossarij/tranzaktsiya/?internal_source=copypaste (дата обращения: 13.03.2024).

15. Толковый словарь Ожегова онлайн [Электронный ресурс]. URL: https://slovarozhegova.ru/word.php?wordid=772 (дата обращения: 13.03.2024).

16. Транзакция [Электронный ресурс] // MyFin. Словарь банковских терминов. 22 января 2020. URL: https://myfin.by/wiki/term/tranzakciya (дата обращения: 13.03.2024).

17. Убоженко И.В. О когнитивном моделировании интуиции и творчества в переводе: интерпретативно-семиотический подход // Вестник Санкт-Петербургского университета. Серия 9. Филология. Востоковедение. Журналистика. 2016. № 4. С. 122-141. doi:10.21638/11701/spbu09.2016.410

18. Финансовый словарь [Электронный ресурс]. URL: https://dic.academic.ru/dic.nsf/fin_enc/30557 (дата обращения: 13.03.2024).

19. Чистова Е.В. Экокогнитивная модель профессиональной мультимодальной коммуникации (на примере кейса синхронных переводчиков) (Дис…. д-ра н.). Красноярск, 2022.

20. Casas N., Costa-juss`a M.R., Fonolossa J.A.R., Alonso J.A., Fanlo R. Linguistic knowledge-based vocabularies for Neural Machine Translation // Natural Language Engineering. 2018. № 27(4). P. 1-22. doi:10.1017/S1351324920000364

21. Faheem M.A., Wassif K.T., Bayomi H., Abdou Sh.M. Improving neural machine translation for low resource languages through non parallel corpora: a case study of Egyptian dialect to modern standard Arabic translation // Scientifc Reports. 2024. № 14(1). P. 2265. https://doi.org/10.1038/s41598-023-51090-4

22. Kokanova E.S., Berendyaev M.V., Kulikov N.Yu. Pre-editing English news texts for machine translation into Russian // Language Studies and Modern Humanities. 2022. № 4(1). P. 25- 30. https://www.doi.org/10.33910/2686-830X-2022-4-1-25-30

23. Kurakin G. How AI originates from biology – and how it returns to it // The Biochemist. 2024. № 46(2). P. 3–6. https://doi.org/10.1042/bio_2024_120.

24. Resiandi K., Murakami Y., Nasution A.H. (2023). Neural Network-Based Bilingual Lexicon Induction for Indonesian Ethnic Languages // Applied Sciences. 2023. № 13(15). P. 8666. https://doi.org/10.3390/app13158666

25. Technologies [Электронный ресурс] // Promt. Глоссарий. URL: https://www.promt.ru/company/technology/glossary (дата обращения: 13.03.2024).

26. Wang J. Research on Cultural Translation Based on Neural Network [Электронный ресурс] // Mathematical Problems in Engineering. URL: https://onlinelibrary.wiley.com/doi/10.1155/2022/6330814 (дата обращения: 19.10.2024). https://doi.org/10.1155/2022/6330814

27. Zacharias T., Taklikar A., Giryes R. Extending the Vocabulary of Fictional Languages using Neural Networks [Электронный ресурс] // Workshop Machine Learning for Creativity and Design. URL: https://www.researchgate.net/publication/357953278 (дата обращения: 16.12.2024). doi:10.48550/arXiv.2201.07288

28. Zhonga. Китайский словарь и переводчик онлайн – Чжунга [Электронный ресурс]. URL: https://www.zhonga.ru/ (дата обращения: 13.03.2024).


Рецензия

Для цитирования:


Чистова Е.В. Принципы разработки китайско-русского словаря многозначной лексики в качестве обучающего корпуса для нейросетевого машинного перевода. Дискурс профессиональной коммуникации. 2025;7(1):89-107. https://doi.org/10.24833/2687-0126-2025-7-1-89-107

For citation:


Chistova E.V. Principles of Developing a Chinese-Russian Polysemantic Dictionary as a Means of Improving Interpretability of Neural Machine Translators. Professional Discourse & Communication. 2025;7(1):89-107. (In Russ.) https://doi.org/10.24833/2687-0126-2025-7-1-89-107



Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 2687-0126 (Online)