Никто не любит спам, и он сильно раздражает владельцев сайтов WordPress, поскольку на борьбу с ним уходит много времени и сил. Многие уже привыкли к спаму в HTTP referer. Однако в последнее время спам усовершенствовался — появился языковой спам (language spam). Владельцы сайтов стали все чаще замечать такой спам после выборов в США в 2016 году. Ниже мы покажем, как заблокировать его и как защитить от него аналитику. Очень важно справиться с ним еще на ранних этапах.
Что такое языковой спам?
Если спам в referrer обычно направлен на поисковые системы, то языковой спам используется спамерами для некоторых заявлений или рекламы своих сайтов/продуктов. Спамеры манипулируют атрибутом language, используемым реальными сайтами, такими как motherboard.vice.com, thenextweb.com, lifehacker.com, reddit.com и т.д. Языковой спам обычно связан с просмотрами главной страницы вашего WP-сайта.
Языковой спам можно увидеть в Google Analytics на главной странице или в разделе «Audience > Geo > Language». Вот лишь некоторые примеры недавних спам-атак с использованием языка:
Google работает над решением данной проблемы, однако спам только прибывает. Как только заканчивается первая волна атак, начинается вторая, и т.д.
Скриншот сделан на чистом WordPress-сайте. Как вы можете видеть, в период с 1 ноября по 17 декабря 929 сессий из 1377 отводились под языковой спам. Все это сильно искажает реальные данные.
Проблема с языковым спамом была изучена на Search Engine Roundtable 9 ноября. Если мы посмотрим на Google Trends, то мы увидим, что начиная с ноября 2016 активность, связанная с «google analytics spam», взмыла до небес.
Почему мы должны блокировать языковой спам?
Первая причина блокировки языкового спама – он сильно искажает данные аналитики. Если вы хотите использовать языковые данные ваших посетителей – к примеру, в мультиязыковой установке WordPress – то в таком случае вам необходимо, чтобы эти данные были точными.
Другая важная причина, почему нужно блокировать языковой спам – фильтры Google Analytics не являются ретроактивными. Это означает, что фильтр будет применяться только к тем данным, которые были получены на день создания фильтра. По этой причине надо сразу решать проблему с таким спамом. Исторические данные нельзя исправить при помощи фильтров. Если вы примените фильтр неправильно, вы можете потерять ценные данные навсегда. Есть, правда, способ безопасного получения исторических данных с помощью расширенной сегментации. Мы коснемся этого метода далее.
Блокировка языкового спама в Google Analytics
Есть несколько способов, как можно решить проблему с языковым спамом в Google Analytics. Для этого нам не понадобятся WordPress-плагины, поскольку все необходимые инструменты уже имеются в Google Analytics.
Вариант 1. Блокируем языковой спам с помощью фильтра.
Первый и, пожалуй, самый простой способ блокировки языкового спама в Google Analytics – это применение фильтров. Фильтры позволяют изменять и ограничивать данные. К примеру, вы можете исключить определенные поддиректории, внести в белый список трафик только с определенного IP или диапазона IP-адресов и т.д. Мы рекомендуем создавать новое представление (View) всякий раз, когда вы создаете фильтр, поскольку если что-то пойдет не так, вы всегда будете иметь доступ к исходным данным.
Шаг 1
На первом шаге нам нужно будет скопировать текущее представление, чтобы мы могли отфильтровать данные отдельно от исходной статистики. Делается это с целью безопасности. Если у вас уже есть отдельное представление, вы можете переходить ко второму шагу. В противном случае перейдите к разделу Admin, выберите пункт View Settings для вашего текущего представления и щелкните по кнопке Copy View.
Придумайте название для вашего нового представления. В нашем примере это будет «filtered domain.com». Щелкните по «Copy view».
Шаг 2
Щелкните по вашему новому представлению (или по исходному, если вы решили менять прямо в нем), после чего нажмите на Filters и выберите «+ Add Filter». Вам понадобятся права доступа «Edit» на уровне «Account» в Google Analytics, чтобы создавать новые фильтры. Иначе вы не сможете выполнить следующие пункты.
Шаг 3
Придумайте название для вашего фильтра (пример: Filter Language Spam). Далее в Filter Type выберите Custom. Вам нужно будет выбрать фильтр Language Settings и ввести в поле Filter Pattern следующее:
.{15,}|\s[^\s]*\s|\.|,|\!|\/
Далее нужно будет щелкнуть по кнопке Verify, чтобы увидеть пример того, что фильтр нашел за последние 7 дней. Для применения фильтра нажмите «Save».
Готово. Теперь вы увидите только реальные/валидные языки в Google Analytics.
Вариант 2. Блокировка языкового спама с помощью расширенной сегментации
Второй способ борьбы с языковым спамом в Google Analytics – использование расширенных сегментов. Они работают с историческими данными и, как правило, являются более безопасным вариантом корректировки данных, поскольку они в действительности ничего не меняют. Вы можете деактивировать их в любой момент времени, чтобы вернуться к прошлой версии данных.
Шаг 1
Для создания сегмента перейдите в раздел Admin и выберите Segments, после чего щелкните по «+ New Segment».
Как и в случае с фильтрами, вам нужно будет иметь доступ Edit на уровне Account в Google Analytics, чтобы задать новые сегменты.
Шаг 2
Дайте название вашему сегменту (к примеру, Segment Language Spam), в поле Language задайте пункт does not match regex из выпадающего списка и введите следующее:
.{15,}|\s[^\s]*\s|\.|,|\!|\/
Щелкните по Save.
Готово. Вы можете теперь выбрать языковой сегмент в консоли Analytics. Помните, что сегменты изменяют данные в реальном времени. Совет: вы можете создать произвольный шорткат для вашего сегмента, чтобы быстро просматривать этот сегмент.
Вариант 3. Блокируйте языковой спам с помощью сторонних списков
Неприятная особенность спама – он отнимает много времени, ведь нужно постоянно обновлять сегменты и фильтры. Однако есть также ресурсы и сторонние инструменты для ускорения процесса блокировки спама. Ниже представлены некоторые варианты, которыми вы можете воспользоваться:
- Analytics-Toolkit: компания предлагает фильтр Auto Spam, который постоянно обновляется.
- Analytics Edge имеют предустановленные сегменты, которые вы можете использовать с помощью одного щелчка мыши. Они также постоянно обновляются.
Источник: kinsta.com
Спамеры подобного рода действительно сильно искажают аналитические данные, и данная статья без сомнения пригодится многим пользователям, активно пользующихся инструментами гугл аналитики. Спасибо за очень полезный материал, уже начал пользоваться рекомендациями!
К реферальному спаму привык, точнее — фильтры отбивают. Теперь языковой… Спасибо за решение фильтрами, сделал, проверил — на одном ресурсе есть незначительное количество спама. А я и не знал…
Страница в закладки.
p.s. гуглу наверно все равно на эту проблему? Который год…
Спам никто не любит. Спасибо за инструкцию. Чем меньше ненужной информации в аналитике тем лучше.