Алгоритмы против лингвистической неуверенности

Или против “непрестижного” языка?

Photo by Wayhomestudio Photos on Freepik
Photo by Wayhomestudio Photos on Freepik

Лингвистическая неуверенность — это проблема, с которой в первую очередь сталкиваются представители диалектных меньшинств. Их речи часто бывают характерны своеобразные элементы, отличающиеся или вовсе отсутствующие в литературном языке. Так, южно-русский и украинский выговор буквы Г отнюдь не всегда встречается с одобрением, и если человек собирается работать на радио или телевидении, то скорее всего ему придётся специально озадачиться исправлением своего произношения.

Если мы говорим об английском, то огромный пласт подобных вопросов затронет в частности афроамериканский английский (он же African-American Vernacular English, Black English или мой любимый вариант — Ebonics) — разновидность английского объединяющая в себе признаки диалекта и социолекта (речевых особенностей, характерных для определенной социальной группы, например, в профессии, субкультуре и проч.). Именно эта вариация, в которой английская лексика переплетается с элементами нигеро-конголезских языков, сталкивается с наибольшим общественным непониманием. В школах дети из афроамериканских семей могут восприниматься как “отстающие в развитии”, потому что грамматика афроамериканского английского имеет некоторый объём отличий от стандартного английского, которые легко принять за неграмотные ошибки. Другой пример - афроамериканцы, обращающиеся за психологической помощью, возможно постесняются говорить на “неправильном” английском, а специалист расценит такое поведение как замкнутость. Список можно продолжать, но мы завершим красноречивой сценой из фильма Sorry to Bother You, отдельно посвященного пользе “белого” произношения.

Причем здесь, собственно, алгоритмы, упомянутые в заголовке? В нынешний век опасений по фейк-ньюс и оскорблениям в Интернете, модерация превращается в отдельный вид ремесла. И, как вы вероятно, уже догадались… не все диалектные различия её проходят. Возвращаемся к афроамериканскому английскому: некоторое время назад Центр Гражданских Медиа американского университета MIT запустил агрегатор социальных медиа под названием Gobo. Gobo должен был фильтровать посты из соцсетей по ряду категорий и исключать те, что содержат, например, оскорбления в адрес определенных групп населения планеты или мракобесные заявления, вроде пропаганды гомеопатии. Пользователь настраивал фильтры под собственные предпочтения и при желании мог всё же ознакомиться с постами, исключенными из ленты и получить объяснения, почему фильтр не пропустил их.

Как и многие другие большие продукты в начале творческого пути, Gobo сразу продемонстрировал ряд несовершенств, таких как неразличение навязчивых брендов и новостей НКО. Что же касается, афроамериканского английского, то разоблачение его фильтрации опубликовано на странице самого Центра Гражданских Медиа в сопровождении ряда скриншотов (бедняга-алгоритм просто не понял, что слово f*** богато не только сомнительными коннотациями, но и вполне выражает избыток восхищения ближним). Крохотный оффтоп в русский язык — у нас примерно так же. Печальнее, на мой субъективный взгляд, получилась картина с расследованием токсичности сервиса анти-токсичности Perspective API, проведенным пользовательницей Твиттера @Jessamyn. Сервис расценивал упоминания о женщинах (особенно минорных) как более токсичные, равно как и упоминания о скрытых ОВЗ (таких, как глухота). Говорит ли это о глобальном лингвистическом заговоре против тех, кто отличается и в меньшинстве (хотя, женский пол не то, чтобы прям меньшинство)? Надеюсь, что нет.