Посетитель – кто это в эпоху ИИ

Повествование ведется от лица Йоста де Валка.

До того, как я начал писать этот пост, Plausible сообщил мне, что за 24 часа мой сайт joost.blog просмотрели 254 посетителя.

Мои же серверные логи ботов показали другое. Они насчитали 1777 визитов ботов за тот же период времени. 536 из них принадлежали к конкретной категории, о которой я хочу поговорить: ИИ-боты по запросу, такие как ChatGPT-User (487) и Claude-User (49).

Так какие цифры верны? 254 посетителя или ближе к 800? Или где-то посередине? Или ни то, ни другое? Честно говоря, я не знаю. И я думаю, что причина моего незнания — это более интересная история.

Что представляют собой боты -User

Существует примерно три категории трафика ИИ-ботов. Объединять их всех неправильно, поскольку тогда мы упускаем одну важную деталь.

Обучающие краулеры

GPTBot, ClaudeBot, Google-Extended. Они работают в фоновом режиме, по расписанию оператора бота, для создания или обновления обучающего корпуса модели. Вопрос, нужны ли они на вашем сайте, действительно актуален, но он немного иной.

Поисковые ИИ-краулеры

OAI-SearchBot, Claude-SearchBot, индексные боты Perplexity. Они создают поисковые индексы, на которые впоследствии может ссылаться ИИ-ассистент. Процесс по-прежнему планируется и управляется оператором, но результатом является справочная таблица, к которой обращается ИИ-ассистент.

ИИ-боты по запросу пользователей

ChatGPT-User, Claude-User, PerplexityBot в режиме, управляемом пользователем, и постоянно растущий список других. Эти боты запускаются только потому, что конкретный человек прямо сейчас задал ИИ-ассистенту вопрос, на который ассистент решил ответить, прочитав определенный URL-адрес.

ChatGPT-User в документации OpenAI описывается как бот, «используемый, когда юзеры просят ChatGPT или Custom GPT перейти по URL-адресу». Это явно не обучение, явно не запланированный краулинг. Anthropic описывает Claude-User аналогично: запрос, выполняемый для ответа на вопрос текущего пользователя, при этом данные не сохраняются для обучения.

Именно в этой третьей категории определение «посетителя» начинает трещать по швам.

Что видит Plausible и чего он не видит

Я использую Plausible для анализа посещений этого блога. Он безопасен в плане конфиденциальности, не требует баннера cookie и поставляется в виде небольшого сниппета JavaScript, который отлавливает просмотр страницы при ее загрузке в браузере.

Plausible получил 254 запроса в рамках моего окна. Plausible делает именно то, для чего он предназначен.

Однако он не предназначен для отслеживания ботов, поскольку боты обычно не выполняют JavaScript. ChatGPT-User и Claude-User не запускают мой скрипт Plausible, поэтому их нет в этом числе. Как и других ботов. С точки зрения Plausible, 1777 визитов ботов просто не произошло.

Это не ошибка, а особенность. Весь смысл Plausible заключается в том, чтобы сообщать о загрузке страниц людьми в браузерах. Если бы он учитывал GPTBot, панель управления была бы бесполезна для той цели, для которой её использует большинство юзеров.

Но я также создал отдельную панель мониторинга ботов для этого блога именно потому, что важен и другой аспект. Cloudflare регистрирует каждый запрос. Функция-посредник вносит любой проверенный бот или совпадающую строку пользовательского агента в Analytics Engine, и я могу анализировать данные по боту, пути, часу и стране. Обе панели мониторинга точны. Они просто отражают разные миры.

Вопрос в том, какой мир следует считать «посетителями».

Математика здесь гораздо сложнее, чем кажется на первый взгляд

Если я воспользуюсь наивным упрощением и сложу два числа, я получу 254 плюс 536, то есть 790. Это верхний предел. Более чем в три раза превышает число в панели управления.

Наивное упрощение неверно в обоих направлениях.

Оно неверно в верхнем пределе, потому что один человек, задающий вопрос ИИ, может вызвать множество -User запросов. Когда вы спрашиваете ChatGPT: «Что думает Йост о X?», модель часто одновременно вытаскивает несколько моих постов для сравнения. Пять запросов, один вопрос, один человек. Таким образом, эти 536 запросов могут соответствовать 200 различным запросам от людей, или 100, или 300. Я не могу определить это по своим логам, потому что запросы не содержат идентификатора сессии, по которому я мог бы их сгруппировать, а провайдеры ИИ не публикуют это сопоставление.

В нижнем пределе данные тоже неверны, поскольку Plausible сам по себе не является точным инструментом подсчета посетителей. Он не учитывает людей с отключенным JavaScript, пользователей, применяющих строгие инструменты конфиденциальности, а также тех, кто читает мои посты в формате Markdown напрямую. Некоторые из «моих 254 посетителей» — это несколько сессий от одного и того же человека. Некоторые человеческие визиты вообще не отображаются в этом списке.

Таким образом, честная формулировка такова: за этими 536 запросами стоит неизвестное количество людей. За 254 посещениями стоит неизвестное количество людей. Эти два набора данных пересекаются неизвестным образом. Истинное количество людей находится в широком диапазоне, и этот диапазон расширяется с каждым месяцем, поскольку все больше чтения совершается ИИ-ассистентами.

«Они действительно это читали?» — это уже другой вопрос

В определении есть ещё одна трещина.

Даже если бы я знал, что эти 536 запросов поступили от 250 разных людей, я всё равно не смог бы понять, как эти люди восприняли мой контент. Если ChatGPT-User получает один из моих постов и модель резюмирует его для пользователя, «посетил» ли пользователь мой сайт? Он получил информацию, которая оттуда поступила. Он может никогда не увидеть моё имя, мой дизайн, предложение подписаться на рассылку или ссылки на другие мои посты. Он может никогда не узнать о существовании joost.blog.

Это действительно существенный сдвиг. В эпоху веб-браузеров «посетитель» подразумевал «того, кто увидел страницу так, как я её спроектировал, в контексте, который я создал». В веб-среде, управляемой ИИ, «посетитель» также может означать «того, кто ознакомился с фрагментом, который ИИ посчитал релевантным, в любой интерпретации, выбранной искусственным интеллектом».

То, что было not provided в 2011, расширилось и стало структурным явлением. Google скрывал ключевое слово, которое приводило к клику, но вы все равно видели сам клик. ИИ-ассистенты идут еще дальше: во многих случаях клика нет, и вы видите только сам запрос.

Для аналитических панелей это важно. Для SEO и контент-стратегии это еще важнее. Традиционный подход к чтению статьи в блоге выглядит так: люди перешли по ссылке из Google, прокрутили страницу, перешли на другую статью, подписались на рассылку. ИИ-подход к той же статье: модель нашла статью, убедилась в ее авторитетности, процитировала ее, и пользователь предпринял какие-либо действия на основе прочитанного.

Это не один и тот же цикл. Вы можете выиграть во втором и проиграть в первом. Или наоборот. Большинство аналитических систем по-прежнему измеряют это.

Почему это важно

Большинство решений о контенте принимаются на основе аналитической информации. Стоило ли писать, удалось ли добиться успеха, нужно ли писать что-то подобное, интересна ли тема? Если значительная часть внимания людей к материалу теперь опосредована ИИ и невидима для этих панелей, значит, панель систематически лжет. Не случайно, не время от времени. Она упускает именно те просмотры, которые росли быстрее всего за последние 18 месяцев.

Не нужно «переключаться на серверную аналитику и считать, что запросы -User — это посетители». Это еще один неправильный ответ. Запрос — это другая единица измерения, отличная от просмотра страницы; не нужно притворяться, что это одно и то же, иначе мы попадаем в очередной цикл самообмана.

Решение, если оно существует, вероятно, выглядит примерно так:

  • Отдельные панели мониторинга для разных миров. Браузерные пользователи-люди, ИИ-ассистенты, обучающие краулеры, поисковые краулеры. Не пытайтесь их суммировать; так вы потеряете информацию.
  • Новые метрики для чтения контента со стороны ИИ. «Различные пользовательские сессии, в которых модель получила этот пост и выдала ответ на его основе» — вот метрика, которая мне действительно нужна. Я не знаю, кто сегодня предоставляет эту информацию, и для ее получения, вероятно, провайдерам ИИ придется публиковать данные, которые они сейчас хранят у себя.
  • Долгосрочный сдвиг в том, что мы оптимизируем. Я писал об этом в статье: «Что означает agent-ready применительно к статическому блогу». Стратегический шаг заключается в создании контента, который ИИ может легко читать, правильно указывать авторство и уверенно цитировать. Метрика, соответствующая этой стратегии, — это не просмотры страниц.

Что могло бы помочь?

Если бы я мог получить что-то одно от OpenAI, Anthropic, Google или Perplexity, я предпочел бы отчёт по издателям. Сколько уникальных пользовательских сессий в определённый день привели к загрузке моего домена, и сколько из этих сессий привели к ответу, цитирующему или резюмирующему мой контент. Агрегированные, анонимизированные данные, без идентифицирующей информации о пользователях. Просто число, которое позволило бы мне оценить реальный охват.

Это число — не «посетители». Ему нужно будет дать другое название. Но оно, по крайней мере, лучше отразит происходящее; издателям не придется гадать, что происходит, глядя на серверные логи.

А пока я продолжу следить за обеими панелями мониторинга. И я продолжу говорить «не знаю», когда кто-то спросит, насколько популярен этот блог, потому что я действительно не знаю этого. Притворяться не буду.

Источник: https://joost.blog

Дмитрий/ автор статьи
CCO, Senior SEM/PPC Specialist, WordPress-энтузиаст, переводчик с английского и немецкого. Серый кардинал русскоязычного WP-комьюнити.
Блог про WordPress
Добавить комментарий

Получать новые комментарии по электронной почте.