Башкиркий язык — первый, на котором все правила сопоставления осуществлены прямо в коде МедиаВики

фото Visem, CC BY-SA 4.0.

Не очень многие люди за пределами России знакомы с Башкортостаном. В самой России Башкортостан известен традиционным производством мёда и кумыса, и излюбленными туристами реками, лесами и горами.

Башкиры — коренной народ Башкортостана, говорят на башкирском языке, относящемся к тюркской семье. 12 лет назад на этом языке была написана первая статья Википедии. Сегодня раздел на башкирском языке является одной из самых быстроразвивающихся среди трёх десятков разделов на языках народов России.

Недавно сообщество  башкирских википедистов попросило у разработчиков МедиаВики — программного обеспечения Википедии — исправить важную для них техническую неполадку: сопоставление башкирского алфавита. «Сопоставление» (по-английски: collation) — набор правил, в соответствии с которыми должны сортироваться слова по алфавиту. Эти правила не так просты, как может показаться, и они разные в каждом языке.

Алфавит башкирского языка основан на кириллице, но в него добавлены буквы, выражающие его особые звуки: ҙ, ҡ, ә и некоторые другие. У каждой из этих дополнительных букв есть своё место в алфавите, но МедиаВики показывала их не там, где они должны были быть. Например, башкирское название столицы Башкортостана Уфы пишется как «Өфө», и в категории «Столицы республик России» (Рәсәй субъекттары баш ҡалалары) оно должно было быть записано между буквами О и П, но из-за этой неполадки, Уфа оказалась в самом конце списка.

фото Amir Aharoni, Общественное достояние.

Программное обеспечение MediaWiki использует пакет ICU для правильного сопоставления алфавитов. В нём есть такие правила для многих языков, но правил для башкирского в нём не было.

Я послал запрос на добавку этих правил в ICU, однако процесс в ICU может занять много месяцев. Мы могли просто ждать, пока это будет сделано, но наш канадский коллега Брайан Вулфф написал блестящий код, который решает эту неисправность прямо в МедиаВики, и теперь у нас нет необходимости долго ждать обновления правил в ICU.

Когда исправление было готово, я установил и протестировал его в Башкирской Википедии. И когда всё заработало, башкирские википедисты были очень довольны, крупнейшая башкирская газета Башкортостан заинтересовалась этим. В статье упомянут и сам Брайан.

Башкиркий язык — первый, на котором все правила сопоставления осуществлены прямо в коде МедиаВики. Уже начинают поступать запросы на такие же исправления для других языков. Если статьи Википедии на вашем языке показываются в неправильном порядке, то вполне можно это исправить также, как было сделано для башкирского языка.

Тот факт, что башкирский язык стал первым, в котором это было сделано, показывает, как сообщество активных авторов, неравнодушных к своему языку, может менять к лучшему инфраструктуру для себя, и для других языков.

Amir Aharoni, Wikimedian

Archive notice: This is an archived post from blog.wikimedia.org, which operated under different editorial and content guidelines than Diff.