Из Корпуса белорусского языка убрали публикации независимых медиа
Спустя полгода бездействия частично возобновил работу Беларускі N-корпус. Официальной причиной прекращения работы назывались технические проблемы, но похоже, что проект стал жертвой политической цензуры. Из корпуса исчезло почти 90% текстов, включая публикации независимых белорусских СМИ, пишет «Наша Ніва».
Беларускі N‑корпус неожиданно прекратил свою работу в июле 2023 года. На соответствующей странице было размещено сообщение о том, что у разработчиков «возникли проблемы с корпусом»:
«К сожалению, получилось так, что мы не можем его поддерживать дальше по разным причинам. Двигатель корпуса остается под свободной лицензией. Остальные проекты будут продолжаться как и раньше».
Более точных объяснений не было ни на самом сайте, ни в соцсетях, хранили публичное молчание и языковеды-создатели Корпуса.
Как стало впоследствии известно, официальной причиной была названа «недостаточная мощность серверов». Но, по-видимому, одной этой причиной прекращение работы не ограничивается.
Корпус состоял из нескольких подкорпусов: основного, неразобранных текстов, газет и сайтов, белорусских Википедий обоих правописаний. Таким образом Корпус включал огромное количество современных текстов на белорусском языке, в том числе публикации белорусскоязычных СМИ, продукция большинства из которых была признана режимом Лукашенко «экстремистскими» материалами. Именно подкорпус газет и сайтов первым исчез из выдачи еще до полного отключения Корпуса.
Неустанное расширение «запрещенной» продукции продолжало значительно сокращать круг современных текстов на белорусском языке, которые можно использовать в Корпусе, а конвейерность признания всего «экстремистским», делала невозможным постоянное отслеживание и внесение соответствующих изменений в огромную базу.
Крамольную для режима по смыслу и подаче информацию могли содержать и тексты без «экстремистского» статуса. Цензурирование содержания текстов не является задачей Корпуса и противоречит его сущности, физически и технически невозможно выявить опасные фрагменты в миллиарде словоупотреблений.
В таком случае прекращение работы Корпуса из соображений собственной безопасности выглядит вполне логичным.
Работа Корпуса была возобновлена 19 января, но в сильно сокращенном виде. Если в начале 2023 года в общей сложности Корпус насчитывал около 1 млрд слов, то сегодня осталось лишь 124 млн, или 12%.
С одной стороны это хорошо ложится в официальную версию о мощности серверов. Но в восстановленном Корпусе не просто сократились, а полностью исчезли целые подкорпусы: Корпус необработанных текстов (907 млн слов), включавший тексты с сайтов kamunikat.org (465 млн слов) и knihi.com (432 млн слов), конкорданс белорусского языка XIX в., включавший практически все сохранившиеся произведения художественной литературы, написанные в указанный период на белорусском языке (287 тыс. слов), и Корпус обеих белорусских Википедий (124 млн слов).
Эти изменения легко объяснить: Википедия остается свободным и неподцензурным ресурсом, конкорданс XIX в. содержит антироссийские произведения Дунина-Марцинкевича, Богушевича, Каратынского и других деятелей, которые либо признаны экстремистскими, либо являются объектом нападок пророссийских блогеров, а сайт kamunikat.org заблокирован по решению Министерства информации.
Возрожденный корпус веб-ресурсов сегодня включает лишь сайты государственных «БелТА», газеты «Звязда», Белтелерадиокомпании и официальный сайт Лукашенко, полностью игнорируя огромный и разнообразный массив текстов, который десятилетиями создавался независимыми медиа. Всего получилось 106 млн слов — капля на месте бывшего моря.
Возможно, корпус еще будет дополнен другими материалами, но многие туда уже не вернутся из-за идеологии сегодняшнего белорусского режима.
Читайте еще:
Искусственный интеллект пока не заменит журналистов, но может им помочь. Предлагаем лайфхаки
Среди 20 белорусских экспертов, в отношении которых открыто «спецпроизводство», — трое представителей медиасферы
В Беларуси решили бороться с VPN, чтобы ограничить доступ к независимым источникам информации