Для обнаружения нецензурной лексики в сети не обязательно писать специальные программы.

Российская власть в лице Роскомнадзора объявила усиление борьбы с матерными выражениями в СМИ. Руководство ведомства заявило, что главы его территориальных органов будут отвечать за это персонально.

Позднее стало известно, что Роскомнадзор намерен заказать специальное программное обеспечение (ПО) ценой до 25 миллионов рублей для автоматизированного выявления нецензурщины в интернете. По некоторым сведениям, ряд компаний готовы поставить такое ПО и за меньшие деньги — от 100 тысяч до 300 тысяч рублей.

Не обсуждая вероятную стоимость специализированного «антиматерного» ПО, «Лента.ру» изучила вопрос, можно ли для поиска нецензурной лексики использовать уже существующие сервисы и программы.

А если найду?

Как известно, в «матерный список» Роскомнадзора вошли, как сказано в материалах ведомства, «четыре всем известных слова» и производные от них.

Самый простой способ найти в интернете ресурсы, где присутствуют такие слова, — сделать запрос одного из них в поисковом сервисе, например, «Яндекс» или Google. При отключенной функции фильтрации, поисковики бодро выдают ссылки на страницы с нецензурной лексикой. Как вы сами и попросили.

Чтобы обнаружить обсценную, она же неприличная, лексику на отдельных категориях сайтов, например, определенной тематики, можно использовать запросы, позволяющие ограничивать область поиска бранных слов. Можно также использовать для этого функцию расширенного поиска.

Для поиска бранных слов только на определенном сайте достаточно к запросу того или иного слова добавить «site: имя сайта».

Правда, не все слова, обнаруженные поисковиком, будут реально присутствовать на сайте на момент проверки. Индексация сайта происходит через определенное время, и пока поисковый робот вернется на сайт, проворные модераторы могут уже убрать нецензурный контент, если он не по душе управляющему ресурса.

Чтобы автоматизировать добычу нецензурных слов в интернете, можно использовать и сервис Google Alerts. Оформляете постоянный запрос на искомое слово — и раз в день или немедленно по обнаружении на почту приходят ссылки на сайты, где нужное слово есть.

В Google Alerts можно настроить тип ресурсов, которые будет проверять сервис: например, новостные сайты, блогосфера или весь интернет.

Родительский контроль мата

Кроме поисковиков, для обнаружения мата можно применять мониторинговые программы и сервисы.

Большинство из свободно доступных сервисов рассчитаны на отслеживание упоминаний и их тональность (негативную-позитивную) в социальных сетях.

Например, сервис Socialbakers ищет, если нужно, упоминание искомых неприличных слов в Twitter, Facebook, YouTube, LinkedIn и Google+. Можно также вывести статистику упоминания этих слов по различным срезам (страна, тематика и т.п.) в графическом виде. Это делается бесплатно. Платная опция сервиса позволяет получить подробную статистику по странице конкретной компании (организации) в соцсети.

Аналогичный российский сервис Wobot предназначен для поиска упоминаний бренда или персоны в соцсетях Facebook, «ВКонтакте» и Twitter. Однако и мат он тоже найдет в этих сетях, если вам нужно. Более того, одна из функций Wobot — составление рейтинга самых активных пользователей по исследуемой тематике, то есть, по употреблению мата в том числе, и анализ этих пользователей. Правда, сами вы запрос к этому сервису составить не сможете — исследование нужно заказывать на его сайте. Цена одного исследования — от 15 тысяч рублей.

Для мониторинга нецензурных выражений на сайтах вполне подходят и программы родительского контроля.

Например, программы Kindergate и NetPolice проверяют каждый раз сайт, на который заходит подконтрольный ребенок. Выступая в роли чада и введя а фильтр программы оно из «всем известных» четырех слов, мы можем узнать, на какие сайты нам, то есть чаду, вход закрыт. Следовательно, на этих сайтах есть искомая нецензурная лексика.

Интересно, что такой же функцией обладает и антивирусная программа Kaspersky Internet Security. В ней содержится модуль родительского контроля, который также проверяет содержимое сайта перед предоставлением доступа к нему.

Эти программы не покупаются раз и навсегда, придется оплачивать ежегодно их обновление. Его стоимость составит около 1000 рублей на одно рабочее место.

Мат-хитрости

Если владелец сайта не хочет, чтобы поисковики находили мат на его страницах, он может просто закрыть их от индексации. Для этого нужно правильно оформить файл robot.txt. Правда, заодно из индексации в поисковой системе пропадет не только мат на этом ресурсе, но и все его содержание вообще.

Чтобы застраховаться от нежелательной матерщины, хозяин сайта можно разделить основной контент и комментарии к статьям: статьи индексировать в поисковиках, а комментарии закрыть от индексации. Тогда в комментариях можно давать волю словоупотреблению, правда, до первого визита на сайт инспектора Роскомнадзора.

Даже при тотальном контроле за матом, желающие выразить свое отношение смогут обойти любые поисковые системы и сервисы мониторинга. Самый красивый вариант — развивать изящную словесность, красиво посылая оппонента в турпоход или придумывая свои выражения.

Еще вариант — замена слов «большой четверки» на другие, как это происходит в разговорном языке. Конечно, контролеры могут внести «блины» и «хрены» в список запретных выражений в своих поисковых программах, но тогда придется попрощаться с кулинарными сайтами. Так что это вряд ли произойдет.

Если совсем не утруждаться, то спастись от любых проверок можно намеренными ошибками и добавлением лишних букв. Одинарные и двойные ошибки поисковые сервисы уверенно распознают и предлагают варианты замены. А значит системы контроля мата на их основе смогут поймать сайты с такой бранью. Но если добавить приставки или суффиксы из трех-четырех букв, то антиматерные системы окажутся либо бессильны, либо начнут цензурировать массу обычных слов. Вот только и брань тогда приобретет такую затейливую форму, что фактически вынудит любителей использовать вышеописанный вариант — изобрести новый язык.