Это не спам: ham и ложные срабатывания

Дата публикации:Октябрь 14, 2011

Всем нравятся обстоятельные комментарии. Читатели могут ознакомиться с дополнительной информацией, поучаствовать в интересных дискуссиях, а авторы — помочь пользователям найти верные ответы на поставленные вопросы. Однако вы не должны пропускать спам. Akismet и другие антиспам-плагины превосходно справляются с этой задачей, но как и любые другие автоматические решения, они не совершенны: иногда можно столкнуться с тем, что легитимный комментарий помечается как спам, и наоборот. Спасение «живых» комментариев из кучи спама позволяет поддержать активные обсуждения, а также поднять качество и репутацию вашего сайта. В этой статье мы посмотрим, каким образом связка WordPress & Akismet определяет, что считать за спам, обсудим популярные антиспам-стратегии и посмотрим на некоторые приемы, позволяющие бороться со спамом.

В WordPress существует три типа ответов: комментарии, уведомления и обратные ссылки. Также у каждого ответа есть свой статус:

  • approved – одобрен
  • spammed – помечен как спам
  • moderated – ожидает проверки
  • in the trash – отправлен в корзину

Вы никогда не пропустите одобренные комментарии и комментарии, ожидающие модерации — в корзину они просто так не попадут. А вот с комментариями, помеченными как спам, все гораздо сложнее. Такие комментарии вполне себе могут оказаться легитимными (в терминах Akismet они называются ham). Это сложно выяснить, поскольку в последнее время количество спама неуклонно растет.

WordPress не считает ответы за спам, если они не содержат фраз, добавленных во встроенный черный список. Соответственно, любые комментарии, содержащие запрещенное слово или фразу, будут незамедлительно помечены как спам. Чтобы оградить себя от ненужного спама, необходимо задавать такие ключи для черного списка, которые никак не пересекаются с вашим сайтом: например, «baby uggs».

Справиться со спамом можно и самостоятельно, однако Akismet и другие плагины позволяют сделать это в автоматическом режиме, причем с более высокой точностью. Правда, статистика защиты от спама иной раз выдает какие-то запредельные значения. Ниже приведена статистика для ложных срабатываний по месяцам:

Число ложных срабатываний зависит от нас, пользователей. Нужно регулярно проверять спам на наличие легитимных комментариев, иначе можно лишиться какого-то процента ответов. Конечно, сделать это подчас затруднительно, поскольку спам валит со всех сторон:

Теперь давайте посмотрим на то, как выяснить, является ли комментарий спамом или нет.

  • Текст комментария — легитимные комментарии обычно резко выделяются на фоне остального барахла.
  • Граватары — обычно являются сигналом качества, однако в последнее время спамеры тоже стали использовать их.
  • Текст ссылки — в спамерских комментариях текст ссылки обычно содержит в себе ключевые слова: например, «Baby Ugg Boots»
  • URL сайта — что-то большее, чем домен или подкаталог первого уровня, обычно является спамом.
  • Насыщенность ссылками — легитимные комментарии редко содержат в себе более одной-двух ссылок.

На скриншоте проиллюстрированы основные аспекты спама:

Комментарии с граватарами, действительно, выделяются в общем списке, однако не являются ham’ом.

http://digwp.com/2011/10/ham-hunter/

Поделиться

7 комментариев

  1. Екатерина says:

    в настройках akismet стоит галочка на пункте "Автоматически удалять спам-комментарии к записям старше месяца" — чистятся только так, открою 170 спам-комментариев, через полдня уже 190. Нормально это. Галку пробовала убирать — ужас (ну Вы знаете…). Комент-форма с капчей такой же как здесь. В параметрах обсуждения модерирование на 1 ссылку. Может больше поставить. Неужели везде так спамят…???

  2. Екатерина says:

    Кстати я на спам проверяю с помощью поисковика, если фразу поиск выдает много раз (слово в слово) — считаю за спам

  3. Architect Of Ruin says:

    Кстати я на спам проверяю с помощью поисковика, если фразу поиск выдает много раз (слово в слово) – считаю за спам

    Спам обычно генерируют программно, поэтому там постоянный только анкор ссылки, а все остальное формируется случайным образом.

    У меня спам приходит периодически. Я проверяю сайт каждый день по несколько раз, поэтому сразу же удаляю такие комментарии. Спамеры тоже не дурачки, если они видят, что пользы такой спам не приносит, то перестают спамить ресурс. Вот у меня так и бывает — затишье на несколько месяцев, потом поток спама, потом снова затишье.

  4. Architect Of Ruin says:

    У меня самый пик был в мае 2011, там было около 2500 спамерских комментариев, а потом по убывающей пошло. за последний месяц 250 всего. А всякие "круть молодец" можно вручную порезать. :)

  5. Екатерина says:

    я имею ввиду, что akismet не видит в комментариях без ссылок спама, хотя комментарий совсем не по теме или что-то типа "круть молодец", такие вручную убираются. А затишья у меня что-то еще не наблюдалось, сегодня 205 спам-комментариев, никак не угомонятся паршивцы

  6. Спасибо, наконец-то разобралась, что такое ham.

    А вы не знаете, отчего Akismet может черезчур "свирепствовать"? У меня новый блог, всего 4 комментария, все они — на 100% нормальные, но все были классифицированы как спам.

  7. Architect Of Ruin says:

    Akismet'у нужно время, чтобы обучиться, что есть спам, а что не спам. Скорее всего поэтому…

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Получать новые комментарии по электронной почте. Вы можете подписаться без комментирования.