Проблема мертвых ссылок и потерянной информации

Дата публикации:Февраль 25, 2015

Мертвые ссылки – серьезная проблема интернета. Со временем ссылки пропадают, в итоге мы теряем информацию, если она нигде не дублируется. Та информация, которую мы публикуем сегодня, может показаться нам не такой важной для ее сохранения. Но в будущем ее ценность может возрасти.

Веб-сайты приходят и уходят. С ними обычно уходит и их информация. Все это приводит к появлению мертвых ссылок, если рассматриваемый контент был также получен из других внешних источников. Обычно я не волнуюсь по этому поводу, поскольку я не вкладывал своих сил в данный контент. Однако бывают ситуации, когда контент актуален в контексте новостей; также он может представлять собой важный временной отрезок.

Иной раз веб-сайт, на котором публиковались мои статьи, перестает работать или отмирает – в той или иной степени – и мне становится очень грустно оттого, что мой контент тоже становится недоступным.

Три сайта, на которых я писал свой ранний WP-контент, удалили эту информацию или перенесли ее. Все это опечалило меня.

Некоторые из моих первых статей по WordPress были опубликованы на форумах WP Tavern, Theme Hybrid (приватный форум) и WPCandy. В каждой ситуации произошло что-то свое. Форумы WP Tavern просто исчезли, хотя мне подсказали, что у них есть оффлайн бэкап, т.е. эти форумы можно восстановить в случае необходимости. Theme Hybrid перенесли все данные в архивы. WPCandy, хотя и существует до сих пор, кажется, дышит на ладан – в их блоге моему авторству принадлежат примерно 130-140 записей. Мне было бы невероятно грустно столкнуться с исчезновением их навсегда.

Все приведенные здесь истории не уникальны. Все мы, активно пишущие статьи и комментирующие в разных сообществах, можем привести навскидку несколько таких историй. Казалось бы, потеря данных – это обычная вещь для нашего времени. Я знаю, что моя подруга, Шивон Макйон, часто сталкивалась с проблемой поиска старого контента для книги «История WordPress», которую она заканчивает писать.

Борьба с мертвыми ссылками

Почему это так важно, и что мы можем с этим сделать? Есть много ресурсов, которые могут быть полезны для нас.

Первый и самый очевидный способ борьбы с мертвыми ссылками – это archive.org, проект, который ставит своей целью максимальную архивацию сети, чтобы сохранить ее для будущих поколений. Archive.org – выдающийся, крупномасштабный проект. Команда прикладывает массу усилий, чтобы задокументировать важные веб-сайты, а также автоматически сохранить все остальные.

Проблема в том, что в случае со многими небольшими веб-сайтами такой подход может оказаться не слишком эффективным. К тому же, скриншоты веб-сайтов могут оказаться устаревшими или не включать в себя все компоненты. Кроме того, если веб-сайт не был структурирован определенным образом или был защищен паролем, то в таком случае архиватор вряд ли сможет что-то сделать.

Потому не стоит полагаться на archive.org – вместо этого лучше все сделать самостоятельно, благо для этого есть два проверенных метода.

Ручные бэкапы

В отдельных сообществах мы можем вручную забэкапить сайты, которые, как нам кажется, могут находиться под угрозой закрытия. Мы можем также связаться с владельцами этих сайтов и запросить бэкапы, даже если это будет выглядеть как наглость.

Когда Шивон писала книгу «История WordPress», она очень волновалась, поскольку WPCandy в любой момент мог перестать работать – поскольку его состояние «становилось все хуже и хуже» — поэтому Шивон решила самостоятельно сделать бэкап с помощью инструмента под названием SiteSucker.

SiteSucker находит URL-адреса, записывает их в журнал, после чего бэкапит исходный HTML. Такая работа может быть выполнена с помощью wget, если вы знаете, как использовать его. Думаю, что многие люди делали это с разными WordPress-сайтами.

Я знаю, что форумы WP Tavern до сих пор существуют оффлайн, и Шивон рассказала мне, что у нее даже есть копия старых b2 форумов (b2 – это программа, из которой вышел WordPress). Я также думаю, что у Джастина Тэдлока остался бэкап его форумов. Мне хотелось бы, чтобы для таких вот «потерянных» сайтов появилось отдельное место, где располагались бы их архивы.

Саморазмещенные бэкапы

Еще один метод борьбы с мертвыми ссылками – это бэкап привязанных источников в виде создания нового контента. Berkman Center в данный момент тестирует коммерческий инструмент Amber, предназначенный для борьбы с мертвыми ссылками. В новостной индустрии, в частности, адреса источников для контента могут включать в себя определенный контекст; даже если ссылка умрет впоследствии, дополнительный контекст все равно будет доступен читателям.

amber-link

Amber сохраняет HTML-код источника, что напоминает механизм работы Archive.org, wget или SiteSucker, однако он хранит его на серверах самого сайта. То есть, если бы я в данный момент использовал бы этот инструмент, то каждая ссылка в этой записи превратилась бы в связанный HTML-документ, который располагался бы на моем сервере – в нем хранилась бы ссылка и контент. Инструмент также детектирует 404-страницы, которые появились уже в будущем (если ссылка в итоге умерла), и предлагает кэшированную версию, взятую с вашего сервера.

Очевидно, что такой инструмент, как Amber, требует немалых инвестиций. Новостным сервисам придется выделять больше ресурсов сервера, однако такие инвестиции оправдывают себя, поскольку они помогают защитить целостность исходного контента.

Сайт Amber приводит статистику, согласно которой 49% ссылок в решениях Верховного Суда США являются мертвыми, и что более чем 135 000 исходных ссылок в Wikipedia мертвы. Одни только эти числа дают хороший обзор ситуации. Представьте себе, какой процент мертвых ссылок содержат древние новостные сайты, такие как New York Times и т.д.

Amber будет доступен в версиях для WordPress и Drupal, а также для большинства платформ, поддерживающих Apache или Nginx. Меня действительно поразил этот инструмент. Я знаю, что он потребует денег (в плане ресурсов сервера, поскольку я не знаю, будет ли это коммерческий продукт или нет), однако если достаточное количество людей примут его, то в таком случае он поможет сохранить информацию в будущем. Мне особенно интересен этот инструмент, поскольку здесь, на сайте Post Status, я часто описываю разные компании и блоги, которые пропадают, если их запуск оказывается провальным.

Почему важно бороться с мертвыми ссылками

Мы не знаем, какие пункты, опубликованные сегодня, будут важны завтра. То, что мы действительно знаем – будущие политики, мировые лидеры, а также многие значимые личности и организации публикуют сегодня материалы онлайн. И когда эти люди и организации займут важное место, мы захотим ознакомиться с их прошлым и их ранними мнениями.

Возможно, что еще более важно, культуры, субкультуры и события, задокументированные онлайн, могут просто не иметь оффлайн-версии. Сеть обладает прекрасным преимуществом перед многими остальными СМИ, как телевидение или новостные газеты, которое заключается в том, что хранение исторических данных происходит гораздо проще, и их проще найти потом. Сеть позволяет нам полностью задокументировать нашу жизнь, что было недоступно прежним поколениям.

Наша обязанность в качестве издателей – защитить не только свой контент, но и контент других. Насколько это просто сегодня осуществить в сети, и насколько сложно это сделать для других средств информации. Я когда-то читал историю про Мэрион Стоукс, которая 35 лет записывала телевизионные новости самостоятельно – новости, которые были бы потеряны, если бы не ее монументальные усилия.

Мы, являясь владельцами сайтов, должны стараться сохранять свой контент. В наших различных специализированных сообществах мы должны прикладывать усилия, чтобы задокументировать и сохранить прошлое.

Есть многочисленные важные истории, публикуемые сегодня, которые могут показаться значимыми для будущих издателей, документалистов, заинтересованных личностей. Вы не знаете, когда именно ваш контент может вновь понадобиться, однако это вполне может произойти, и потому мы должны предпринимать все шаги для того, чтобы сохранить его.

Источник: https://poststatus.com

Поделиться

6 комментариев

  1. Bizz says:

    Да, мертвые ссылки — это проблема любого продвинутого сайта, так как они ведут посетителя с него в никуда, а соответственно и мнение о сайте портится в зависимости от количества таких ссылок :(

    • Дмитрий Алёшин says:

      В данном случае аспект делается на другой стороне вопроса: на потере информации из-за мертвых ссылок. Представьте, что в статье даются ссылки на разные сайты, где содержится часть данных, без которой статья сильно проигрывает в информативности. Читать такую статью просто бесполезно, поскольку некоторые факты в ней остаются неясными.

      Понятное дело, что в плане SEO мертвые ссылки — это балласт, от которого нужно избавляться, и поисковые системы настроены далеко не радушно по отношению к таким ссылкам. Поэтому и придуманы были разные инструменты, как, скажем, Broken Link Checker.

  2. Видела много мёртвых ссылок. Часто бывает, читаешь чью-то статью, хочешь перейти по ссылками, а половина из них нерабочие. Было у меня и так, что когда-то потеряла важный для меня контакт, когда исчез целый портал, где у меня была электронная почта. Скопировать для себя адрес я почему-то не додумалась. Часто мы считаем, что то, что находится в сети Интернет, все важные для нас сайты, форумы и блоги — это нечто незыблемое, постоянное, словно каменные старинные здания.
    Но при этом любой сайт или форум, или блог в любой момент может быть закрыт или сломан, или уничтожен. Автор может потерять интерес. Фанатские порталы тоже время от времени закрываются, когда группа авторов, работающих на энтузиазме, ради идеи, теряют интерес к этой теме. Но часто на груде камней, оставшейся от развалившихся старых зданий, может вырасти что-то новое.

    • Дмитрий says:

      Все верно, Кристина.
      Сам потерял так много полезных материалов, в том числе из своего творчества. Увы, но это уже не восстановить.

  3. VRV says:

    Да по прошествии времени обязательно надо пользоваться сервисами проверок, и обновлять статьи актуальными ссылками. Особенно в тех местах, где пользователи наиболее активны. Чем быстрее вы замените мертвую ссылку, тем более качественной будет считаться статья и пользователи ответят взаимностью переходя на ваш сайт все чаще и чаще. Вообще проблема закрытия сайтов и потеря информации достаточно острая. Хорошо что есть такие сервисы как веб архив и можно вернуться к старому сайту, не забывайте добавлять хорошие ресурсы в данный сервис.

  4. Juli says:

    Мне кажется очень сложно уследить за жизнедеятельностью ссылки. Особенно если это какой-то новостной портал, и какие-то статьи ссылаются на первоисточник итд.
    Как часто лучше проверять актуальность ссылок? Лучше сражу удалять мертвые ссылки или пытаться все же восстановить информацию?
    А вообще конечно жалко терять информацию, Как и Кристина бывала в таких ситуациях. Вот думаешь классная статья, заходишь через какое-то время а ссылка битая или мертвая. И все начинаешь искать материал заново :(

Оставить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Получать новые комментарии по электронной почте. Вы можете подписаться без комментирования.