Старые версии сайтов вебархив - TurboComputer.ru
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд (пока оценок нет)
Загрузка...

Старые версии сайтов вебархив

Archive.org – веб архив сайтов интернета (webarchive machine) и поиск отдельных страниц сайта в сохраненной копии

Приветствую, дорогие читатели блога. Хотите узнать, как получать информацию о том, что было на любом сайте год назад или месяц назад, а сегодня уже удалено? Тогда читаем статью и применяем знания на практике. Покажу как увидеть старые записи сайта которые булм скрыты владельцем.

Наверняка есть немало людей, кто задумывался над тем, как посмотреть архив сайта в Интернете. Эта возможность пригодится каждому, кто ведет свой ресурс уже долгие годы, у кого сайтов несколько, кто хочет восстановить старый сайт. Как ни странно, такая возможность существует, и уже давно.

Archive.org – архив всех веб-сайтов Интернета, действующая как онлайн-библиотека. Начало деятельности проекта датируется 1996 годом, а место еговозникновения – Сан-Франциско. В то время сервис был не просто уникальным, но и практически бесполезным для многих, ведь Интернет был очень слабо распространен, а сайтов существовало всего ничего.

С распространением Всемирной Сети Архив приобрел большую популярность и стал своеобразной машиной времени, поскольку позволял просматривать даже уже не существующие веб сайты.

Сейчас библиотека Archive.org располагает огромным пространством для хранения данных и предлагает свободный доступ к файлам для всех желающих. К 2017 году в библиотеке содержится уже почти 90 миллиардов веб-страниц, но несмотря на это узнать данные о любом сайте можно практически мгновенно, введя его адрес в строку поиску.

Когда и почему сайт попадает в архив сайтов Интернета

После создания сайта он может попасть в Archive.org либо сразу, либо через некоторое время, а бывает, что даже действующего сайта там нет. Условия попадания вашего Интернет-ресурса в Архив следующие:

  • отсутствие в файле robots.txt команды на запрет его индексации
  • наличие на ресурсе ссылок на поисковые системы или популярные сервисы;
  • переход на сайт с помощью поисковиков других пользователей.
Как можно использовать архиватором

В Archive.org сохраняются:

  • текстовые материалы;
  • аудиофайлы;
  • видеофайлы;
  • фото и картинки;
  • ссылки.
  • Изучить всю историю своего сайта. Если информация на нем периодически обновляется и сайт содержит десятки страниц, порой бывает сложно найти какую-либо информацию. Здесь как раз архив сайтов Интернета придет на помощь.
  • Восстановить сам сайт или некоторые его страницы, если вы не делали резервные копии.
  • Найти уникальный контент для своего сайта. Правда, этот самый контент можно брать только с уже не существующих ресурсов, поскольку то, что представлено на действующих, как известно, не будет уникальным. К тому же, нужно знать адрес сайта, чтобы найти его и взять какую-либо информацию в архиве.

Инструкция по работе с Archive.org

Принцип работы сервиса Archive.org очень прост. Чтобы найти данные о каком-либо сайте, нужно лишь указать его адрес в строке WaybackMachine (Webarchive Machine).

Рассмотрим архив сайта на примере моего блога. Для этого заходим в саму библиотеку и вводим адрес – firelinks.ru. Жмем Enter.

Примечание. Если мы не сразу вставляем адрес, а печатаем, под строкой поиска появляются другие сайты с похожими названиями. Эта функция полезна, например, если вы забыли название разыскиваемого ресурса.

Открывается страница с данными. Под названием сайта видим информацию о том, сколько раз был заархивирован сайт и когда. Как видно, первая архивация произошла 18 июня 2014 года, а последняя – 2 октября 2016. Эти даты никак не связаны с изменениями, происходящим на самом сайте, ибо, когда будет производиться архивация, определяет сам WebArchive.

Чтобы более подробно рассмотреть все изменения или увидеть первоначальный вид сайта, просто выбираем год, а затем нажимаем в календаре число и месяц.

Нажмем на самую старую дату. Система переведет нас в сам блог, где будет виден его первоначальный интерфейс и содержимое. Дизайн я тоже некоторых элементов менял, а вот самые первые статьи сейчас уже затерялись и найти их сразу будет не так-то просто.

Таким образом можно посмотреть все изменения, когда-либо произошедшие в блоге, либо найти нужную информацию.

Как найти уникальный контент с помощью Webarchive Machine

Возможность просмотра архива старых сайтов дает возможность любому человеку использовать данные, которые на нем были, не опасаясь за неуникальность. Дело в том, что после «смерти» сайта его контент уже не проверяется поисковыми системами, а значит, он снова уникален, и остается проблема лишь поиска этих самых сайтов.

Если вы хотите взять контент с вашего старого ресурса или сайта, которым вы пользовались, но который уже не существует, проблем не возникнет, ведь вы наверняка помните адрес. Ну, а если намереваетесь искать среди всех «умерших» сайтов, можно воспользоваться специальными сервисами, где приводятся списки с освободившимися доменами, то есть с адресами сайтов, которых уже нет.

Я открыл один из таких сервисов, скопировал первый домен и вбил в строке WaybackMachine в Archive.org, но никакого результата это не дало. Такая же история повторилась и с четырьмя последующими доменами. Наконец, поиск по шестому адресу открыл информацию о сайте.

То, что Arcgive.org открывает не все «мертвые» сайты, может быть связано с несколькими причинами. Так, возможно, домен был приобретен, но сам сайт так никогда и не был наполнен каким-либо контентом. Именно так дело обстоит с большинством доменных имен, представленных в списках освобождающихся. Еще одна причина – создатель сайта удалил свой ресурс с самого Архива. Такое тоже может быть.И наконец, возможно, сайта вообще не было в Веб Архиве.

Итак, нам удалось все-таки найти «мертвый» сайт, информацию с которого можно считать. Как видим, сайт существует с 1999 года, и за все время по нему сделано 269 архивов.

Мы можем открыть ресурс и взять оттуда информацию. Для этого, как и в случае с действующими сайтами, просто выбираем любую дату. Данное действие откроет главную страницу в том виде, в котором она была к той дате, которую мы выбрали. Если здесь ничего полезного нет, следует проверить и другие даты.

После того, как полезный контент найден, обязательно следует предварительно проверить его на уникальность, поскольку, во-первых, кто-то до вас уже мог его использовать, а во-вторых, возможно, он все еще отслеживается поисковиками.

Как восстановить сайт с помощью Archive.org

Те, кто давно ведут сайты, знают о том, что нужно периодически делать его резервное копирование. А вот те, кто об этом не подумал, могут столкнуться с проблемой утери веб-страниц или потери функциональности целого сайта. В этом случае Архив снова придет на помощь, но, если у вас ресурс с большим количеством страниц, восстановление займет очень много времени. Еще одна проблема, которая может возникнуть, связана с возможностью утери некоторой доли информации или искажением дизайна.

Если вы все же решили восстановить свой сайт с помощью Archive.org, нужно будет проводить операции с каждой страницей, отсюда и трата времени.

Итак, для восстановления сайта нам нужно заменить внутреннюю ссылку страницы на оригинальную. Если мы посмотрим в адресной строке,ссылка будет иметь вид: http://web.archive.org/web/20161002194015/http://firelinks.ru/, то есть информацию с такой страницы нельзя будет просто скопировать.

Чтобы такая возможность появилась, можно просто вручную убирать начало ссылок, но, когда страниц сотни, это становится довольно кропотливым занятием. Поэтому мы будем использовать возможность самого Архива заменять ссылки. Для этого в адресной строке после набора цифр вставляем «id_» и жмем Enter. То есть вместо первоначальной ссылки в строке должно быть: http://web.archive.org/web/20161002194015id_/http://firelinks.ru/.

Теперь ссылка оригинальная и можно просто копировать тексты, картинки и прочие файлы из исходного кода Архива. Такую же операцию проводим и с другими страницами сайта. Конечно, даже такой вариант займет много времени, но, если нет резервных копий, по-другому восстановить сайт вряд ли получится.

Как удалить сайт с Archive.org

Большинство создателей сайтов хотят, чтобы их ресурс попал в Архив, но бывают и случаи, когда, напротив, нужно сделать так, чтобы он либо не попал туда, либо удалился. Сам InternetArchive предлагает для этого очень простой метод. Нужно лишь задать команду для робота сервиса о том, что сайт не нужно включать в Архив, то есть написать в robots.txt следующее:

Таким образом, создание архива всех сайтов – это помощь для многих пользователей Интернета в поиске информации и восстановлении старых ресурсов. Именно с целью сохранения информации и был создан Archive.org, и именно поэтому он сохраняет архивы сайтов, которые существуют в настоящий момент, и предоставляет возможность использовать данных с «мертвых» или заброшенных ресурсов.

Надеюсь, материл, был полезен и вы не забудете сделать репост статьи и подписаться на рассылку блога. Всех благ -))).

Как посмотреть на сайт в прошлом: инструмент + способ восстановления

Сервис, который может показать, как выглядели сайты в прошлом, напоминает своеобразную машину времени в интернете. С его помощью можно перенестись на год, два или двадцать лет назад и увидеть, какими ресурсы были тогда. Зачем может понадобиться эта информация и как воспользоваться данным сервисом?

Для чего нужно искать старые версии сайтов

Причины, по которым может быть необходимо посмотреть сайт в прошлом времени, могут быть абсолютно разными. Часто это желание погрузиться в приятную ностальгию. Например, посмотреть, как раньше выглядели популярные площадки и соцсети. Или же посмотреть, как выглядел собственный сайт несколько лет назад. К счастью, существует инструмент, который позволяет это сделать, даже если сам ресурс уже давно не доступен.

Читайте также:  Как сделать скрин сайта на компьютере

Как это возможно? Если сайт существует в интернете хотя бы пару дней, он попадает в веб-архив. Инструмент сохраняет его код, благодаря чему, можно увидеть, как он выглядел даже много лет назад.

Причины, по которым возникает необходимость посмотреть порталы в прошлом времени:

  1. Отслеживание истории изменений. Такая потребность может возникать у копирайтеров или журналистов для подготовки нового контента. Также это может быть нужно для анализа конкурентов: можно проследить путь их развития и увидеть допущенные ошибки.
  2. Восстановление ресурса. Если пользователь забыл продлить домен или не сделал бэкап, веб-архив будет отличным вариантом восстановления.
  3. Поиск уникального контента. Если площадка больше не доступна, её контент становится уникальным. Можно использовать его полностью или частично, предварительно проверив уникальность.
  4. Увидеть необходимый контент, если страница уже недоступна. Например, пользователь добавил площадку в закладки, а через время оказалось, что её больше нет. Тогда посмотреть её содержимое можно только с помощью веб-архива.

Как узнать прошлое веб-ресурса с помощью archive.org

Чтобы узнать, как выглядел конкретный веб-ресурс ранее, можно воспользоваться сайтом для просмотра страниц в прошлом – a rchive.org. Для этого нужно выполнить следующее:

  1. Пройти по ссылке https://archive.org/.
  2. Ввести URL-адрес и нажать кнопку «Go».

  1. Выбрать интересующий период времени. Затем с помощью календаря найти нужную дату, навести на нее курсор мыши и выбрать время сохранения копии (в списке может быть как одна, так и несколько ссылок).

После этого откроется главная страница в том виде, какой она была в выбранный период.

Учитывайте, что кликабельными в календаре являются только дни, помеченные синим или зеленым цветом. Посмотреть, как выглядел сайт в даты без подсветки, не получится.

Если это страница Вконтакте

Аналогичным образом можно узнать содержимое страницы ВКонтакте. Достаточно указать на нее ссылку в соответствующем поле.

По сравнению с новостными или другими веб-ресурсами здесь будет меньше подсвеченных дат с сохранённым содержимым. Количество дат зависит от популярности страницы: у обычных пользователей их будет немного, в то время как у известных медиа-личностей – на порядок больше.

Дальнейшие действия такие же: надо выбрать любую из подсвеченных дат и перейти по кликабельной ссылке. В этой же вкладке откроется страница в ВКонтакте с актуальным на тот момент содержимым.

Как выглядели культовые сайты раньше

Для примера посмотрим, как выглядели популярные ресурсы раньше, а именно Яндекс, Google, YouTube, Википедия и VK. Все из них с течением времени претерпели кардинальные изменения в дизайне.

Поисковик Яндекс

Поисковую систему Яндекс официально анонсировали 23 сентября 1997 года. С тех прошло более 20 лет, и сегодня это одна из самых популярных поисковых систем в мире.

В веб-архиве первая сохраненная копия датируется 6 декабря 1998 года.

На тот момент выглядел Яндекс вот так:

Поисковик Google

Поисковая система Google была основа чуть позже – в 1998 году. Сейчас это самая популярная поисковая система в мире.

Первые сохраненные копии появились в веб-архиве в конце 1998 года. Например, 2 декабря Гугл выглядел вот так:

YouTube

Youtube начал свою работу в феврале 2005 года. Первые сохраненные в веб-архиве копии появились в конце апреля 2005 года. На то время сервис имел минималистичный дизайн, и видно, что он являлся не более, чем видеохостингом:

Википедия

Википедия появилась 15 января 2001 года. Сегодня она является наиболее крупным и популярным справочником в интернете и содержит более 40 миллионов статей, которые доступны на 301 языке.

В веб-архиве первая сохраненная копия Википедии датируется 27 июля 2001 года:

ВКонтакте

Популярная в России и других странах социальная сеть ВКонтакте была создана 10 октября 2006 года.

В веб-архиве первая сохраненная копия сайта датируется 8 ноября 2006 года. На нём видно, что сайт изначально был ориентирован на студентов и выпускников.

Можно ли восстановить сайт из вебархива?

При потере данных, восстановить свой сайт можно с помощью сайта https://webarchiveorg.ru/. Для этого нужно:

  • ввести URL-адрес;
  • выбрать нужный год, месяц и число;
  • нажать кнопку «Восстановить сайт».

Услуга является платной, поэтому перед восстановлением рекомендуется ознакомиться с тарифами. Точная стоимость зависит от количества сайтов и его страниц.

Выводы

С помощью веб-архива можно посмотреть, какой дизайн и контент были у сайтов раньше, что может быть необходимо для восстановления данных, анализа конкурентов, поиска интересного контента с исчезнувших ресурсов или просто ради интереса.

Что такое веб-архив

21 октября 2017 года. Опубликовано в разделах: Азбука терминов. 30214

Больше видео на нашем канале – изучайте интернет-маркетинг с SEMANTICA

Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

История создания Internet Archive

В 1996 году Брюстер Кайл, американский программист, создал Архив Интернета, где он начал собирать копии веб-сайтов, со всей находящейся в них информацией. Это были полностью сохраненные в реальном виде страницы, как если бы вы открыли необходимый сайт в браузере.

Данными веб-архива может воспользоваться каждый желающий совершенно бесплатно. Создавая его, у Брюстера Кайла была основная цель – сохранить культурно-исторические ценности интернет-пространства и создать обширную электронную библиотеку.

В 2001 году был создан основной сервис Internet Archive Wayback Machine, который и сегодня можно найти по адресу https://archive.org . Именно здесь находятся копии всех веб-сервисов в свободном доступе для просмотра.

Чтобы не ограничиваться коллекцией сайтов, в 1999 году начали архивировать тексты, изображения, звукозаписи, видео и программные обеспечения.

В марте 2010 года, на ежегодной премии Free Software Awards, Архив Интернета был удостоен звания победителя в номинации Project of Social Benefit.

С каждым годом библиотека разрастается, и уже в августе 2016 года объем Webarchive составил 502 миллиарда копий веб-страниц. Все они хранятся на очень больших серверах в Сан-Франциско, Новой Александрии и Амстердаме.

Все про archive.org: как пользоваться сервисом и как достать сайт из веб-архива

Брюстер Кайл создал сервис Internet Archive Wayback Machine, без которого невозможно представить работу современного интернет-маркетинга. Посмотреть историю любого портала, увидеть, как выглядели определенные страницы раньше, восстановить свой старый веб-ресурс или найти нужный и интересный контент — все это можно сделать с помощью Webarchive.

Как на archive.org посмотреть историю сайта

Благодаря веб-сканеру, в библиотеке веб-архива, хранится большая часть интернет-площадок со всеми их страницами. Также, он сохраняет все его изменения. Таким образом, можно просмотреть историю любого веб-ресурса, даже если его уже давно не существует.

Для этого, необходимо зайти на https://web.archive.org/ и в поисковой строке ввести адрес веб-ресурса.

После, некоторого времени, веб-архив выдаст календарь с датами изменений данной страницы и информацию о его создании и количестве изменений за весь период.

Согласно полученной информации, можно узнать, что главная страница нашего сайта была впервые найдена сервисом 24 мая 2014 года. И, с этого времени, по сегодняшний день, ее копия сохранялась 38 раз. Даты изменений на странице отмечены на календаре голубым цветом. Для того, чтобы посмотреть историю изменений и увидеть как выглядел определенный участок веб-ресурса в интересующий вас день, следует выбрать нужный период в ленте с предыдущими годами, и дату в календаре из тех, что предлагает сервис.

Через мгновение, веб-архив откроет запрашиваемую версию на своей платформе, где можно увидеть как выглядел наш сайт в самом первоначальном виде.

Далее, с помощью календаря со стрелками, в самом верху экрана, можно перелистывать страницы, по хронологии их изменений, чтобы отследить, как изменялся внешний вид и их содержание.

Таким образом, можно нырнуть в прошлое и увидеть все его перемены, которые с ним происходили за все время его существования.

Почему вы можете не узнать на Webarchive, как выглядел сайт раньше
Случается такое, что веб-площадка не может быть найден с помощью сервиса Internet Archive Wayback Machine. И происходит это по нескольким причинам:

  • правообладатель решил удалить все копии;
  • веб-ресурс закрыли, согласно закону о защите интеллектуальной собственности;
  • в корневую директорию интернет-площадки, внесен запрет через файл robots.txt

Для того, чтобы сайт в любой момент был в веб-архиве, рекомендуется принимать меры предосторожности и самостоятельно сохранять его в библиотеке Webarchive. Для этого в разделе Save Page Now введите адрес веб-ресурса, который нужно заархивировать, нажмите кнопку Save Page.

Таким образом, для безопасности и сохранности всей информации, необходимо такую процедуру повторять с каждым изменением. Это даст 100% гарантию сохранения ваших страниц на долгое время.

Как недействующий сайт восстановить из веб-архива

Бывают разные ситуации, когда браузер выдает, что такого-то веб-сервиса больше нет. Но данные нужно извлечь. Поможет Webarchive.

Читайте также:  Не заходит на некоторые сайты windows 7

И для этого существует два варианта. Первый подходит для старых площадок небольшого размера и хорошо проиндексированных. Просто извлеките данные нужной версии. Далее просматривается код страницы и дошлифовываются вручную ссылки. Процесс несколько трудозатратный по времени и действиям. Поэтому существует другой, более оптимальный способ.

Второй вариант идеален для тех, кто хочет сэкономить время и решить вопрос скачивания, максимально быстро и легко. Для этого нужно открыть сервис восстановления сайта из Webarchive – RoboTools. Ввести доменное имя интересующего портала и указать дату сохраненной его версии. Через некоторое время, задача будет выполнена в полном объеме, с наполнением всех страниц.

Как найти контент из веб-архива

Webarchive является замечательным источником для наполнения полноценными текстами веб-ресурсов. Есть множество площадок, которые по ряду причин прекратили свое существование, но содержат в себе полезную и нужную информацию. Которая не попадает в индексы поисковых систем, и по сути есть неповторяющейся.

Так, существует свободные домены, которые хранят много интересного материала. Все что нужно, это найти подходящее содержание, и проверить его уникальность. Это очень выгодно, как финансово – ведь не нужно будет оплачивать работу авторов, так и по времени – ведь весь контент уже написан.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива

Случаются такие ситуации, когда владелец интернет-площадки дорожит информацией, размещенной на его портале, и он не хочет, чтобы она стала доступной широкому кругу. В таких ситуациях есть один простой выход – в файле robots.txt, прописать запретную директиву для Webarchive. После этого изменения в настройках, веб-машина больше не будет создавать копии такого веб-ресурса.

– Только качественный трафик из Яндекса и Google
– Понятная отчетность о работе и о планах работ
– Полная прозрачность работ

Webarchive — веб-архив всего интернета и сайтов или машина времени на archive.org

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Не так давно я писал про то, что такое народная энциклопедия Википедия, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.

Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов, видео, аудио и печатной продукции.

Я говорю, конечно же, про web.archive.org — глобальный проект с казалось бы невыполнимой миссией — создание архива всех сайтов, когда либо размещенных в интернете. Причем, сайты сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS). Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

Как можно использовать архив сайтов интернета

Чем же может быть полезен данный webarchive?

  1. Ну, во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (например, я брал скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса, имеют тоже самое происхождение).
  2. Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).
  3. Так же, если вы по каким-либо форс-мажорным обстоятельствам не делали бэкап (резервное копирование) вашего сайта, то данный web archive будет единственной возможностью восстановить свой сайт. Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).

Ну, и последнее, что приходит в голову — поиск уникального контента. Если вы не способны сами создавать уникальный контента для сайта (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.

Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность. Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт), но искать в вебархиве многим может показаться очень уж трудоемкой задачей.

Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что сайтов на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков сайтов.

Сам себя этот веб архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:

Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).

На главной странице доступен не только архив страниц интернета Wayback Machine, но и архивы различных кинохроник, телепередач, аудио записей и отсканированных в различных библиотеках книг:

Но нас интересует именно область WEB с логотипом Wayback Machine. В расположенную там форму можно ввести URL или доменное имя интересующего вас сайта (читайте про то, что такое домен и чем он отличается от URL), чтобы попасть на страницу с календарем:

Из приведенного примера видно, что мой блог был впервые архивирован 27 августа 2009 года (через пять дней после регистрации (покупки) домена ktonanovenkogo.ru). За прошедший интервал времени было создано 125 архивных копий сайта, каждую из которым можно будет посмотреть и потрогать руками (осуществляя переходы по внутренним ссылкам).

Открытие мертвых ссылок и условия попадания сайта в archive.org

В календаре голубыми кружочками отмечены даты, в которые был создан слепок (вебархив) данного сайта. Естественно, что моменты снятия слепка никак не будет коррелироваться с производимыми на вашем ресурсе изменениями, и их время Webarchive определяет строго исходя из своих внутренних алгоритмов и таймеров.

Поэтому использовать архив интернета, как инструмент для открытия временно недоступных сайтов, наверное, не всегда будет резонным. Для этого у Яндекса имеется возможность просмотра архивной копии документа:

Да, и в Google можно всегда посмотреть сохраненную копию веб-страницы:

Данный же онлайн сервис понадобится в особо тяжелых случаях, когда искомая страница уже не существует и вряд ли уже будет существовать в реальном интернете, но зато она по прежнему будет доступна в машине времени.

Правда, тут должно быть соблюдено несколько условий того, чтобы сайт попал в archive.org:

Он не должен содержать в своем файле robots.txt запрет для его индексации роботом с web.archive.org. Такой запрет, обычно выглядит так:

Когда я писал статью про электронную почту mail.ru, то не смог найти в Архиве Интернета сохраненных копий сайта mail.ru, т.к. его файл robots.txt содержал в себе похожий запрет:

  • Некоторые сайты Вебархив по каким-либо причинам банально не нашел. Вероятность попадания ресурса в базу повышается, если он будет добавлен в каталог Dmoz или же если на него будут проставлены ссылки с других популярных ресурсов, которые в Webarchive уже находятся. В общем то, даже простой запрос через форму на главной странице этого сервиса может послужить толчком к привлечению внимания этого архиватора к вашему ресурсу.
  • Как найти нужный веб-архив и восстановить сайт без бекапа

    По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.

    Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.

    Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.

    Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:

    Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе на сайт взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит Webarchive (в противном случае вас перебросило бы на современную версию ресурса).

    Выглядят эти ссылки примерно так:

    Понятно, что можно будет вручную отсечь вступительную часть ссылок ( http://web.archive.org/web/20111013120145/ ), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad, но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные.

    Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера — начинается с http://web.archive.org/ ). Он будет иметь примерно такой вид:

    И вставляете в него конструкцию «id_» в конце даты ( 20111013120145 ), чтобы получилось так:

    Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.

    Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.

    Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:

    Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:

    Например, я захотел увидеть лишь текстовые файлы своего блога, которые заглотил Web Archive. Зачем — не знаю, но захотел.

    Как вытянуть из Webarchive уникальный контент для сайта

    Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе, где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки сайтов.

    Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.

    Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.

    Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли. Автор метода предлагает скачать с сайта регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов.

    Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов).

    Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке. Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента.

    Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

    Старые версии сайтов вебархив

    Donor challenge: For only 2 more days, your donation will be matched 2-to-1. Triple your impact!

    To All Wayback Machine Users,

    Time is running out: please help the Internet Archive today. The average donation is $45. If everyone chips in $5, we can keep our website independent, strong and ad-free. Right now, a generous supporter will match your donation 2-to-1, so your $5 gift turns into $15 for us. That’s right, all we need is the price of a paperback book to sustain a non-profit library the whole world depends on. We have only 150 staff but run one of the world’s top websites. We’re dedicated to reader privacy so we never track you. We never accept ads. But we still need to pay for servers and staff. If the Wayback Machine disappeared tomorrow, where would you go to find the websites of the past? We stand with Wikipedians, librarians and creators to make sure there is enduring access to the world’s most trustworthy knowledge. I know we could charge money, but then we couldn’t achieve our mission: building a special place where you can access the world’s best information forever. The Internet Archive is a bargain, but we need your help. If you have ever used the Wayback Machine, we ask you humbly, please chip in. Help us reach our goal today! Thank you.
    Brewster Kahle, Founder, Internet Archive

    Donor challenge: For only 2 more days, your donation will be matched 2-to-1. Triple your impact!

    To All Wayback Machine Users,

    Time is running out: please help the Internet Archive today. The average donation is $45. If everyone chips in $5, we can keep our website independent, strong and ad-free. Right now, your donation will be matched 2-to-1, so your $5 gift becomes $15 for us! That’s right, all we need is the price of a paperback book to sustain a non-profit library the whole world depends on. We have only 150 staff but run one of the world’s top websites. We’re dedicated to reader privacy so we never track you. We never accept ads. But we still need to pay for servers and staff. If the Wayback Machine disappeared tomorrow, where would you go to find the websites of the past? I know we could charge money, but then we couldn’t achieve our mission: building a special place where you can access the world’s most trustworthy knowledge forever. If you have ever used the Wayback Machine, we ask you humbly, please chip in. Help us reach our goal today! Thank you.
    Brewster Kahle, Founder, Internet Archive

    Donor challenge: For only 2 more days, your donation will be matched 2-to-1. Triple your impact!

    To All Wayback Machine Users,

    Time is running out: please help the Internet Archive today. The average donation is $45. If everyone chips in $5, we can keep our website independent, strong and ad-free. Right now, your donation will be matched 2-to-1, so your $5 gift becomes $15 for us! That’s right, all we need is the price of a paperback book to sustain a non-profit library the whole world depends on. We have only 150 staff but run one of the world’s top websites. We’re dedicated to reader privacy so we never track you. We never accept ads. But we still need to pay for servers and staff. If the Wayback Machine disappeared tomorrow, where would you go to find the websites of the past? I know we could charge money, but then we couldn’t achieve our mission: building a special place where you can access the world’s most trustworthy knowledge forever. If you have ever used the Wayback Machine, we ask you humbly, please chip in. Help us reach our goal today! Thank you.
    Brewster Kahle, Founder, Internet Archive

    Donor challenge: For only 2 more days, your donation will be matched 2-to-1. Triple your impact!

    To All Wayback Machine Supporters,

    Time is running out: please help the Internet Archive today. The average donation is $45. If everyone chips in $5, we can keep our website independent, strong and ad-free. Right now, your donation will be matched 2-to-1, so your $5 gift turns into $15 for us! That’s right, all we need is the price of a paperback book to sustain a non-profit library the whole world depends on. We’re dedicated to reader privacy so we never track you. We never accept ads. But we still need to pay for servers and staff. If the Wayback Machine disappeared tomorrow, where would you go to find the websites of the past? I know we could charge money, but then we couldn’t achieve our mission: building a special place where you can access the world’s most trustworthy knowledge forever. If you have ever used the Wayback Machine, we ask you humbly, please chip in.
    Brewster Kahle, Founder, Internet Archive

    Please select “One time” or “Monthly”

    Please select an amount (minimum 5 USD)

    To make a donation of USD $10,000 or more, please contact our philanthropy department at donations@archive.org.

    lock Your payment will be securely processed

    Ссылка на основную публикацию
    Adblock
    detector