Как заблокировать языковой спам в Google Analytics и WordPress

Никто не любит спам, и он сильно раздражает владельцев сайтов WordPress, поскольку на борьбу с ним уходит много времени и сил. Многие уже привыкли к спаму в HTTP referer. Однако в последнее время спам усовершенствовался — появился языковой спам (language spam). Владельцы сайтов стали все чаще замечать такой спам после выборов в США в 2016 году. Ниже мы покажем, как заблокировать его и как защитить от него аналитику. Очень важно справиться с ним еще на ранних этапах.

Содержание

Что такое языковой спам?
Почему мы должны блокировать языковой спам?
Блокировка языкового спама в Google Analytics
Вариант 1. Блокируем языковой спам с помощью фильтра.
Вариант 2. Блокировка языкового спама с помощью расширенной сегментации
Вариант 3. Блокируйте языковой спам с помощью сторонних списков

Что такое языковой спам?

Если спам в referrer обычно направлен на поисковые системы, то языковой спам используется спамерами для некоторых заявлений или рекламы своих сайтов/продуктов. Спамеры манипулируют атрибутом language, используемым реальными сайтами, такими как motherboard.vice.com, thenextweb.com, lifehacker.com, reddit.com и т.д. Языковой спам обычно связан с просмотрами главной страницы вашего WP-сайта.

Языковой спам можно увидеть в Google Analytics на главной странице или в разделе «Audience > Geo > Language». Вот лишь некоторые примеры недавних спам-атак с использованием языка:

Google работает над решением данной проблемы, однако спам только прибывает. Как только заканчивается первая волна атак, начинается вторая, и т.д.

Скриншот сделан на чистом WordPress-сайте. Как вы можете видеть, в период с 1 ноября по 17 декабря 929 сессий из 1377 отводились под языковой спам. Все это сильно искажает реальные данные.

Проблема с языковым спамом была изучена на Search Engine Roundtable 9 ноября. Если мы посмотрим на Google Trends, то мы увидим, что начиная с ноября 2016 активность, связанная с «google analytics spam», взмыла до небес.

Почему мы должны блокировать языковой спам?

Первая причина блокировки языкового спама – он сильно искажает данные аналитики. Если вы хотите использовать языковые данные ваших посетителей – к примеру, в мультиязыковой установке WordPress – то в таком случае вам необходимо, чтобы эти данные были точными.

Другая важная причина, почему нужно блокировать языковой спам – фильтры Google Analytics не являются ретроактивными. Это означает, что фильтр будет применяться только к тем данным, которые были получены на день создания фильтра. По этой причине надо сразу решать проблему с таким спамом. Исторические данные нельзя исправить при помощи фильтров. Если вы примените фильтр неправильно, вы можете потерять ценные данные навсегда. Есть, правда, способ безопасного получения исторических данных с помощью расширенной сегментации. Мы коснемся этого метода далее.

Блокировка языкового спама в Google Analytics

Есть несколько способов, как можно решить проблему с языковым спамом в Google Analytics. Для этого нам не понадобятся WordPress-плагины, поскольку все необходимые инструменты уже имеются в Google Analytics.

Вариант 1. Блокируем языковой спам с помощью фильтра.

Первый и, пожалуй, самый простой способ блокировки языкового спама в Google Analytics – это применение фильтров. Фильтры позволяют изменять и ограничивать данные. К примеру, вы можете исключить определенные поддиректории, внести в белый список трафик только с определенного IP или диапазона IP-адресов и т.д. Мы рекомендуем создавать новое представление (View) всякий раз, когда вы создаете фильтр, поскольку если что-то пойдет не так, вы всегда будете иметь доступ к исходным данным.

Шаг 1

На первом шаге нам нужно будет скопировать текущее представление, чтобы мы могли отфильтровать данные отдельно от исходной статистики. Делается это с целью безопасности. Если у вас уже есть отдельное представление, вы можете переходить ко второму шагу. В противном случае перейдите к разделу Admin, выберите пункт View Settings для вашего текущего представления и щелкните по кнопке Copy View.

Придумайте название для вашего нового представления. В нашем примере это будет «filtered domain.com». Щелкните по «Copy view».

Шаг 2

Щелкните по вашему новому представлению (или по исходному, если вы решили менять прямо в нем), после чего нажмите на Filters и выберите «+ Add Filter». Вам понадобятся права доступа «Edit» на уровне «Account» в Google Analytics, чтобы создавать новые фильтры. Иначе вы не сможете выполнить следующие пункты.

Шаг 3

Придумайте название для вашего фильтра (пример: Filter Language Spam). Далее в Filter Type выберите Custom. Вам нужно будет выбрать фильтр Language Settings и ввести в поле Filter Pattern следующее:

 .{15,}|\s[^\s]*\s|\.|,|\!|\/

Далее нужно будет щелкнуть по кнопке Verify, чтобы увидеть пример того, что фильтр нашел за последние 7 дней. Для применения фильтра нажмите «Save».

Готово. Теперь вы увидите только реальные/валидные языки в Google Analytics.

Вариант 2. Блокировка языкового спама с помощью расширенной сегментации

Второй способ борьбы с языковым спамом в Google Analytics – использование расширенных сегментов. Они работают с историческими данными и, как правило, являются более безопасным вариантом корректировки данных, поскольку они в действительности ничего не меняют. Вы можете деактивировать их в любой момент времени, чтобы вернуться к прошлой версии данных.

Шаг 1

Для создания сегмента перейдите в раздел Admin и выберите Segments, после чего щелкните по «+ New Segment».

Как и в случае с фильтрами, вам нужно будет иметь доступ Edit на уровне Account в Google Analytics, чтобы задать новые сегменты.

Шаг 2

Дайте название вашему сегменту (к примеру, Segment Language Spam), в поле Language задайте пункт does not match regex из выпадающего списка и введите следующее:

 .{15,}|\s[^\s]*\s|\.|,|\!|\/

Щелкните по Save.

Готово. Вы можете теперь выбрать языковой сегмент в консоли Analytics. Помните, что сегменты изменяют данные в реальном времени. Совет: вы можете создать произвольный шорткат для вашего сегмента, чтобы быстро просматривать этот сегмент.

Вариант 3. Блокируйте языковой спам с помощью сторонних списков

Неприятная особенность спама – он отнимает много времени, ведь нужно постоянно обновлять сегменты и фильтры. Однако есть также ресурсы и сторонние инструменты для ускорения процесса блокировки спама. Ниже представлены некоторые варианты, которыми вы можете воспользоваться:

Analytics-Toolkit: компания предлагает фильтр Auto Spam, который постоянно обновляется.
Analytics Edge имеют предустановленные сегменты, которые вы можете использовать с помощью одного щелчка мыши. Они также постоянно обновляются.

Источник: kinsta.com

Комментарии: 3

Андрей 20.12.2016 в 05:57
Спамеры подобного рода действительно сильно искажают аналитические данные, и данная статья без сомнения пригодится многим пользователям, активно пользующихся инструментами гугл аналитики. Спасибо за очень полезный материал, уже начал пользоваться рекомендациями!
Ответить
Андрей 23.12.2016 в 13:16
К реферальному спаму привык, точнее — фильтры отбивают. Теперь языковой… Спасибо за решение фильтрами, сделал, проверил — на одном ресурсе есть незначительное количество спама. А я и не знал…
Страница в закладки.
p.s. гуглу наверно все равно на эту проблему? Который год…
Ответить
Константин 16.01.2017 в 19:16
Спам никто не любит. Спасибо за инструкцию. Чем меньше ненужной информации в аналитике тем лучше.
Ответить

Добавить комментарий для Андрей Отменить ответ