Получи случайную криптовалюту за регистрацию!

Мумификация русских медиа: как специалисты по веб-архивам спас | Системный Блокъ

Мумификация русских медиа: как специалисты по веб-архивам спасают историю уничтоженных СМИ

С конца февраля в России заблокировали более 50 независимых СМИ: от телеканала «Дождь» до научной газеты «Троицкий вариант». Многие редакции после этого приостановили работу, некоторым пришлось сразу же удалить свои сайты и аккаунты в соцсетях. Например, ни сайта, ни каналов «Эха Москвы» вы уже не найдете даже из-под VPN. Сайты многих других медиа через какое-то время тихо закроются — им просто нечем и незачем будет платить за хостинг.

Но все это не означает полного исчезновения информации из общего доступа. Весь последний месяц специалисты по веб-архивации создают архивы «Эха Москвы», «Дождя», «The Bell», «Вондерзина» и других СМИ, павших жертвами спецоперации. Их архивы останутся для истории — и, возможно, когда-нибудь они помогут ответить на вопрос о том, как мы оказались там, где оказались.

Кто архивирует?

Сохранением контента заблокированных СМИ сейчас занимается «Национальный цифровой архив» — проект автономной НКО «Инфокультура» Ивана Бегтина. «Инфокультура» не первый год борется за открытость и доступность государственных и общественных данных в РФ. Ранее «Национальный цифровой архив» собирал архивы сайтов и социальных сетей госструктур, ведомств и отдельных чиновников, сайты предвыборных кампаний кандидатов в президенты 2018 года. Они занимались дополнительной архивацией данных ликвидированного «Мемориала». Теперь проект переключился на сохранение контента заблокированных медиа.

Что архивируют?

Среди собранных данных — архивы «Новой газеты», The New Times, DOXA, «Эхо Москвы» (включая архивы записей на сотни гигабайт), газеты «Бумага», изданий The Insider и Colta. Все они в последние недели либо были заблокированы, либо получали предупреждения от Роскомнадзора. «Эхо Москвы» после блокировки удалило сайт, YouTube канал и аккаунты в соцсетях.

Уже архивированные медиа и ближайшие планы можно посмотреть в таблице. Кроме сайтов архивируются телеграм-каналов и страницы медиа в социальных сетях, группы ВКонтакте и целые Youtube каналы с видеоархивами.

Как архивируют?

Часть файлов сохраняют в специальном формате для веб-архивации WARC. Их можно открыть с помощью программы ReplayWeb.page в оффлайн режиме. Остальные архивы, среди которых, например, коллекция mp3-записей передачи «Цена победы» на «Эхе», можно открыть любым архиватором, который работает с ZIP и GZ файлами.

Инструменты веб-архивации

Сайты обкачивают веб-краулеры, например, grab-site и Heritrix, а обрабатывают их при помощи библиотек для Python и Java, предназначенных для работы с форматом WARC. Для других платформ, социальных сетей и мессенджеров инструментарий отличается. Так, группу «Эха Москвы» ВКонтакте волонтеры проекта выгружали при помощи API VK, а телеграм-канал «Новой газеты» заархивировали при помощи функции «export chat history», которая доступна в десктопном приложении.

Чем можно помочь?

Архив ищет волонтеров-разработчиков, которые готовы отслеживать сайты, находящиеся «в группе риска», а также помогать в их сохранении, разработке и актуализации инструментов для архивации.
Если вы знаете цифровые проекты и ресурсы, которые могут исчезнуть в ближайшее время, но не нашли их в планах проекта, можно написать об этом в чат телеграм-канала Архива или предложить цифровой ресурс для архивации через специальную форму.