Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования.
Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.
Что сейчас есть на платформе
-
66 524 словарных статьи с переводами, грамматическими пометами, формами, примерами и озвучками
-
Параллельный корпус — предложения из реальных текстов, выровненные с русским переводом: исторический роман «Магас Благословенный» Иссы Кодзоева (34 156 предложений), ингушский фольклор (9 477 предложений), классика мировой литературы в переводе на ингушский — Пушкин, Тургенев, Свифт, Киплинг
-
2 156 пословиц с переводом, разбитых по 16 тематическим разделам: труд, семья, честь, эздел, мудрость, старшие, дружба и другие
-
171 притча с параллельным переводом, составитель — И. А. Дахкильгов
-
Разговорник — сотни готовых фраз, сгруппированных по ситуациям
-
Раздел «Вопросы» (Хаттараш) — сообщество отвечает на вопросы по грамматике, переводу и произношению; ответы носителей языка помечаются отдельно
-
ИИ-помощник — к каждому вопросу автоматически формируется предварительный ответ на основе словаря и грамматики
-
Telegram-бот и два Android-приложения, одно из которых работает полностью офлайн
Всё бесплатно и открыто для использования.
Откуда берутся данные
Основа словаря — проект «Словарный свод ингушского языка» (ghalghay.github.io). Поверх него PaydaDosh интегрировал и продолжает пополнять данные из широкого круга лексикографических источников — от классических словарей начала XX века до узкоспециализированных тематических изданий:
-
Ужахов М. Г. Ингушско-русский словарь, 1927
-
Мальсагов З. К. Ингушский терминологический сборник, 1933
-
Картоев М. У. Краткий словарь ингушской общественно-политической лексики, 1995
-
Ингушско-русский словарь неизвестного составителя
-
Johanna Nichols. Ingush-English and English-Ingush Dictionary, Routledge Curzon, 2004 — с переводом на русский, выполненным Ахмедом Бековым
-
Куркиев А. С. Ингушско-русский словарь: 11 142 слова, 2005
-
Хайров Б. А. Наименование древнего и средневекового оружия на ингушском языке, 2012
-
Дударов А.-М. М. Земледелие ингушей, 2015
-
Барахоева Н. М., Кодзоев Н. Д., Хайров Б. А. Ингушско-русский и русско-ингушский словарь терминов, 2016
-
Кодзоев Н. Д. Словарь компьютерных терминов (английско-ингушско-русский), 2016
-
Тариева Л. У. Русско-ингушский словарь антонимов, 2017
-
Кодзоев И. Толковый словарь архаизмов и малоупотребительных слов ингушского языка, 2018
-
Кодзоев Н. Д. Медицина. Русско-ингушский словарь, 2019
-
Кодзоев Н. Д. Русско-ингушский словарь (около 22 500 слов), 2021
-
Гандаур-Эги М. Х., Хайров Б. А. Устаревшая лексика ингушского языка (УЛИЯ), Ингушский НИИ гуманитарных наук им. Ч. Э. Ахриева
-
Детский журнал «СелаӀад» («Радуга») — словари из 294 номеров
-
Названия месяцев, астрономические термины, словарь к тафсиру Корана и другие тематические источники
Каждая статья привязана к источнику с сокращённым кодом — это важно для исследователей, которые хотят проверить первоисточник.
Как это работает технически
Нечёткий поиск с учётом морфологии. Ингушский — язык с эргативным строем, развитой падежной системой и глагольными классами. Поиск умеет находить слово по словоформе, а точные совпадения приоритизируются над производными формами. Для языка, где одно слово может давать десятки форм, это принципиально.
Связка корпуса и словаря. Каждое предложение в корпусе привязано к конкретным словарным статьям. Кликнув на слово в тексте, попадаешь в его карточку. И наоборот: в карточке слова видны живые примеры употребления из корпуса с переводом. Поиск работает как по ингушскому тексту, так и по русскому переводу.
ИИ в разделе вопросов. К каждому новому вопросу по грамматике или переводу система автоматически формирует предварительный ответ — это снижает порог входа и помогает в момент, когда живые носители ещё не успели ответить. Правильные ответы голосованием поднимаются выше, лучший ответ отмечает автор вопроса.
Синхронизация сайта и Telegram. История поиска, избранное и связанные функции работают согласованно между сайтом и ботом для авторизованных пользователей. Новые фразы из разговорника появляются и на сайте, и в боте одновременно.
Пользовательский вклад с модерацией. Любой зарегистрированный пользователь может предложить новое слово, пример употребления или озвучку. Редактор проверяет качество перевода и корректность привязки, после одобрения материал попадает в общую базу — и на сайт, и в офлайн-приложение при следующем обновлении.
Почему параллельный корпус — это не просто красиво
Параллельный перевод «Слова о полку Игореве» на ингушский — это 218 выровненных предложений, по которым можно изучать синтаксис ингушского в сравнении с хорошо изученным русским текстом. «Капитанская дочка» — ещё 2 918 предложений с переводом. Для малых языков Кавказа подобных выровненных корпусов практически не существует, и каждый такой текст — реальный ресурс для вычислительной лингвистики и обучения языковых моделей.
Что дальше
-
Расширение корпуса: больше оригинальных ингушских текстов
-
Развитие ИИ-ответов с учётом специфики ингушской грамматики
-
Инструменты для изучающих язык: флешкарты и квизы уже есть в мобильном приложении, хотим перенести их на сайт
Если вы занимаетесь вычислительной лингвистикой, документацией языков или просто интересуетесь малыми языками — всё открыто на paydadosh.ru.
Будем рады вопросам в комментариях — особенно от тех, кто работал с эргативными языками, строил корпуса для языков с нестандартной графикой или подключал ИИ к лингвистическим платформам.
ссылка на оригинал статьи https://habr.com/ru/articles/1024816/