Как мы собираем ингушский язык: словарь, корпус и ИИ в одном проекте

от автора


Ингушский язык — один из нахских языков кавказской семьи, родной для примерно 400–500 тысяч человек. На нём говорят в Ингушетии, частично в Чечне и диаспоре по всей России. Язык живой и имеет государственный статус, но его цифровое присутствие долго оставалось минимальным: разрозненные PDF-словари, несколько сообществ в соцсетях, почти ничего пригодного для повседневного использования.

Так появился PaydaDosh — открытая лингвистическая платформа, которая сегодня является крупнейшим онлайн-словарём ингушского языка.


Что сейчас есть на платформе

  • 66 524 словарных статьи с переводами, грамматическими пометами, формами, примерами и озвучками

  • Параллельный корпус — предложения из реальных текстов, выровненные с русским переводом: исторический роман «Магас Благословенный» Иссы Кодзоева (34 156 предложений), ингушский фольклор (9 477 предложений), классика мировой литературы в переводе на ингушский — Пушкин, Тургенев, Свифт, Киплинг

  • 2 156 пословиц с переводом, разбитых по 16 тематическим разделам: труд, семья, честь, эздел, мудрость, старшие, дружба и другие

  • 171 притча с параллельным переводом, составитель — И. А. Дахкильгов

  • Разговорник — сотни готовых фраз, сгруппированных по ситуациям

  • Раздел «Вопросы» (Хаттараш) — сообщество отвечает на вопросы по грамматике, переводу и произношению; ответы носителей языка помечаются отдельно

  • ИИ-помощник — к каждому вопросу автоматически формируется предварительный ответ на основе словаря и грамматики

  • Telegram-бот и два Android-приложения, одно из которых работает полностью офлайн

Всё бесплатно и открыто для использования.


Откуда берутся данные

Основа словаря — проект «Словарный свод ингушского языка» (ghalghay.github.io). Поверх него PaydaDosh интегрировал и продолжает пополнять данные из широкого круга лексикографических источников — от классических словарей начала XX века до узкоспециализированных тематических изданий:

  • Ужахов М. Г. Ингушско-русский словарь, 1927

  • Мальсагов З. К. Ингушский терминологический сборник, 1933

  • Картоев М. У. Краткий словарь ингушской общественно-политической лексики, 1995

  • Ингушско-русский словарь неизвестного составителя

  • Johanna Nichols. Ingush-English and English-Ingush Dictionary, Routledge Curzon, 2004 — с переводом на русский, выполненным Ахмедом Бековым

  • Куркиев А. С. Ингушско-русский словарь: 11 142 слова, 2005

  • Хайров Б. А. Наименование древнего и средневекового оружия на ингушском языке, 2012

  • Дударов А.-М. М. Земледелие ингушей, 2015

  • Барахоева Н. М., Кодзоев Н. Д., Хайров Б. А. Ингушско-русский и русско-ингушский словарь терминов, 2016

  • Кодзоев Н. Д. Словарь компьютерных терминов (английско-ингушско-русский), 2016

  • Тариева Л. У. Русско-ингушский словарь антонимов, 2017

  • Кодзоев И. Толковый словарь архаизмов и малоупотребительных слов ингушского языка, 2018

  • Кодзоев Н. Д. Медицина. Русско-ингушский словарь, 2019

  • Кодзоев Н. Д. Русско-ингушский словарь (около 22 500 слов), 2021

  • Гандаур-Эги М. Х., Хайров Б. А. Устаревшая лексика ингушского языка (УЛИЯ), Ингушский НИИ гуманитарных наук им. Ч. Э. Ахриева

  • Детский журнал «СелаӀад» («Радуга») — словари из 294 номеров

  • Названия месяцев, астрономические термины, словарь к тафсиру Корана и другие тематические источники

Каждая статья привязана к источнику с сокращённым кодом — это важно для исследователей, которые хотят проверить первоисточник.


Как это работает технически

Нечёткий поиск с учётом морфологии. Ингушский — язык с эргативным строем, развитой падежной системой и глагольными классами. Поиск умеет находить слово по словоформе, а точные совпадения приоритизируются над производными формами. Для языка, где одно слово может давать десятки форм, это принципиально.

Связка корпуса и словаря. Каждое предложение в корпусе привязано к конкретным словарным статьям. Кликнув на слово в тексте, попадаешь в его карточку. И наоборот: в карточке слова видны живые примеры употребления из корпуса с переводом. Поиск работает как по ингушскому тексту, так и по русскому переводу.

ИИ в разделе вопросов. К каждому новому вопросу по грамматике или переводу система автоматически формирует предварительный ответ — это снижает порог входа и помогает в момент, когда живые носители ещё не успели ответить. Правильные ответы голосованием поднимаются выше, лучший ответ отмечает автор вопроса.

Синхронизация сайта и Telegram. История поиска, избранное и связанные функции работают согласованно между сайтом и ботом для авторизованных пользователей. Новые фразы из разговорника появляются и на сайте, и в боте одновременно.

Пользовательский вклад с модерацией. Любой зарегистрированный пользователь может предложить новое слово, пример употребления или озвучку. Редактор проверяет качество перевода и корректность привязки, после одобрения материал попадает в общую базу — и на сайт, и в офлайн-приложение при следующем обновлении.


Почему параллельный корпус — это не просто красиво

Параллельный перевод «Слова о полку Игореве» на ингушский — это 218 выровненных предложений, по которым можно изучать синтаксис ингушского в сравнении с хорошо изученным русским текстом. «Капитанская дочка» — ещё 2 918 предложений с переводом. Для малых языков Кавказа подобных выровненных корпусов практически не существует, и каждый такой текст — реальный ресурс для вычислительной лингвистики и обучения языковых моделей.


Что дальше

  • Расширение корпуса: больше оригинальных ингушских текстов

  • Развитие ИИ-ответов с учётом специфики ингушской грамматики

  • Инструменты для изучающих язык: флешкарты и квизы уже есть в мобильном приложении, хотим перенести их на сайт


Если вы занимаетесь вычислительной лингвистикой, документацией языков или просто интересуетесь малыми языками — всё открыто на paydadosh.ru.

Будем рады вопросам в комментариях — особенно от тех, кто работал с эргативными языками, строил корпуса для языков с нестандартной графикой или подключал ИИ к лингвистическим платформам.

ссылка на оригинал статьи https://habr.com/ru/articles/1024816/