Яндекс.Переводчик освоил чувашский язык

12.02.2020 в 08:33, просмотров: 2194

Яндекс.Переводчик освоил чувашский язык

В Яндекс.Переводчике появился чувашский язык. Теперь все желающие могут переводить слова и фразы с чувашского на 97 языков и обратно. Сервис доступен на сайте и в мобильном приложении.

По данным последней переписи населения, чувашский язык считают родным более миллиона человек. На нём общаются в Чувашии, Татарстане, Башкортостане и других регионах страны. Теперь люди, которые говорят и думают на чувашском, могут использовать Переводчик для чтения текстов на иностранном языке.

Кроме того, машинный перевод способствует распространению языка — в частности, помогает публиковать в Википедии переводные тексты на чувашском.Чтобы научить машину переводить, нужны параллельные тексты — одни и те же, но на разных языках. А для чувашского языка таких текстов в интернете очень мало.

На помощь команде Яндекса пришли энтузиасты, которые собрали 250 тысяч одинаковых фраз на русском и чувашском. Этого достаточно, чтобы начать обучать модель, но слишком мало для получения качественного перевода. Для сравнения, при разработке русско-английского переводчика используется на несколько порядков больше примеров.Перевод для чувашского создавали в несколько этапов. Сначала обучили нейросеть на тех примерах, которые удалось собрать.

Затем обогатили полученную модель данными из родственных языков. Для этого применили созданную ранее пантюркскую модель, которая учитывает морфологию, лексику и синтаксис сразу нескольких тюркских языков, к которым относится и чувашский. А чтобы нейросеть научилась составлять грамотные предложения на русском языке, использовали большие корпуса русских текстов и методику обратного перевода.