Получи случайную криптовалюту за регистрацию!

Национальный цифровой архив

Логотип телеграм канала @ruarxive — Национальный цифровой архив Н
Логотип телеграм канала @ruarxive — Национальный цифровой архив
Адрес канала: @ruarxive
Категории: Технологии
Язык: Русский
Количество подписчиков: 2.28K
Описание канала:

Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин

Рейтинги и Отзывы

4.00

2 отзыва

Оценить канал ruarxive и оставить отзыв — могут только зарегестрированные пользователи. Все отзывы проходят модерацию.

5 звезд

0

4 звезд

2

3 звезд

0

2 звезд

0

1 звезд

0


Последние сообщения

2022-08-23 19:59:11
Digital Preservation Coalition опубликовало новое руководство для начинающих специалистов по сохранению цифровой информации.

Подробнее: https://www.dpconline.org/news/comp-access-guide-general
647 views16:59
Открыть/Комментировать
2022-08-18 17:18:36 Venom: как проверить веб-архив на наличие нелегального контента из даркнета

Исследователи из проекта Venom опубликовали руководство о том, как проверить содержание веб-архивов на предмет контрабандных материалов из дарквеба. Рекомендации помогут архивистам и библиотекарям безопасно выявлять и удалять нелегальные материалы из своих архивов.

Проект Venom изучает, как лучше всего архивировать нелегальные части даркнета, используя инструменты, методы и практику, созданные для публичных веб-архивов.

Подробнее: https://www.mitre.org/publications/technical-papers/how-to-check-your-web-archive-for-dark-web-contraband
874 views14:18
Открыть/Комментировать
2022-08-13 21:41:56 Веб-архив сайтов Испании стал источником построения языковой модели для искусственного интеллекта

Национальная библиотека Испании (Biblioteca Nacional de España) ежегодно собирает архив всех сайтов в зоне .es. За 2009-2019 годы так было собрано 59ТБ WARC файлов архивов.

На основе этих архивов исследователями из суперкомпьютерного центра в Барселоне была создана языковая модель
RoBERTa-large-bne размером в 570GB, составленная из 201+ миллиона документов.

Эта модель создана в рамках инициативы Plan de Tecnologías del Lenguaje по созданию языковых моделей испанского языка.

По мере использования этой модели можно говорить о том что национальная цифровая архивация имеет не только исторический, но и прикладной экономический и научный результаты.

#language #digitalpreservation #spain
1.1K views18:41
Открыть/Комментировать
2022-08-11 11:42:52 Подборка статей о веб-архивах от международного рецензируемого журнала «Internet Histories»

1. Киран Хегарти исследует в статье «Изобретение архивной сети: отслеживание влияния библиотечных фреймворков», как «архивирование сети» стало возможным в Национальной библиотеке Австралии с 1993 года. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/eprint/URHIKGDIHBX9SAYTBENC/full?target=10.1080/24701475.2022.2103988

2. Джессика Огден в статье «Все в интернете можно сохранить: Archive Team, Tumblr и культурное значение веб-архивирования» с помощью этнографического исследования команды Archive Team изучает подходы веб-архивирования и принципы выбора сайтов, "достойных" сохранения. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2021.1985835

3. Кэти Макиннон в статье «Смерть GeoCities: поиски разрушения и восхваления платформы в веб-архивах» демонстрирует, как использовать веб-архивы популярных платформ из прошлого и исследовать их цифровые следы. Текст статьи полностью доступен. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2051331

4. Терри Ли Харел в статье «Архивы в процессе создания: документирование бунта в Капитолии 6 января на Reddit» рассматривает на примере бунта, как пользователи Reddit объединились для документирования того, что они воспринимали как важное историческое событие в истории США. Требуется доступ к полному тексту статьи. Ссылка: https://www.tandfonline.com/doi/full/10.1080/24701475.2022.2103989.

Полный список статей на эту и смежные темы: https://www.tandfonline.com/action/showAxaArticles?journalCode=rint20
979 viewsedited  08:42
Открыть/Комментировать
2022-07-25 13:30:20 Как сохранить журналистику данных

Зачем медиа и новостным СМИ позаботиться об цифровом сохранении собственных материалов? Профессор Бахарех Херави (Bahareh Heravi) изучает возможности цифрового архивирования и сохранения динамического контента, созданного в дата-журналистских материалах. В основном это интерактив и визуализации данных. Самые частые проблемы:

1. Динамические визуализации данных являются «сложными цифровыми объектами», что значит — такой контент не может быть охвачен существующими инструментами и методами архивирования.
2. Сервисы визуализации данных могут внезапно закрываться, а доступ к контенту, созданному с помощью них, затем теряется.
3. Существуют зависимости, лежащие в основе визуализации, такие как конкретные языки программирования, библиотеки, базы данных, хостинговые платформы и разные сервисы (Flash Player), которые со временем устаревают и не поддерживаются создателями.

Все это затрудняет использование материалов дата-журналистики в исторической ретроспективе. Подробнее о том, какие решения предлагает Бахарех Херави для сохранения сложного динамического контента, узнайте в этой статье: https://datajournalism.com/read/longreads/how-to-save-data-journalism

Дополнительно научная статья «Preserving Data Journalism: A Systematic Literature Review»: https://www.tandfonline.com/doi/full/10.1080/17512786.2021.1903972

#datajournalism #digitalpreservation #digitalarchive
3.1K viewsedited  10:30
Открыть/Комментировать
2022-07-15 12:45:14 Как реагировать на новость то что Пенсионный фонд объединили с Фондом социального страхования? [1]

В первую очередь, провести тотальную архивацию всех общедоступных ресурсов двух этих организаций. Это сайт ПФР pfr.gov.ru и сайт ФСС fss.ru, а также иных доступных сайтов, сообществ в социальных сетях и тд.

Аналогично и с другими случаями и слухами об отстранении отдельных руководителей органов власти. Потому что ни в одном законе не прописывают обязательную архивацию цифрового контента объединяемых или ликвидируемых органов власти.

В ближайшее время начнем архивацию контента этих органов власти в Национальный цифровой архив [2]

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202207140012
[2] https://ruarxive.org

#digitalpreservation #webarchives
1.2K views09:45
Открыть/Комментировать
2022-07-12 18:02:35
Как начать работу по веб-архивации?

Международный консорциум по сохранению Интернета (IIPC) ведет собственный список ресурсов и инструментов для работы с веб-архивами — Awesome Web Archiving.

Содержание:
1. Обучение и документация, например:
— Уроки для начинающих от IPCC: https://netpreserve.org/web-archiving/training-materials.
— Непрерывное образование для развития веб-архивирования (CEDWARC): https://cedwarc.github.io.

2. Инструменты и программное обеспечение для сбора, воспроизведения, поиска и изучения архивов. Это утилиты, библиотеки ввода-вывода WARC, анализ данных архивов и проверка качества.

3. Ресурсы сообщества: блоги, рассылки.

Подробнее: https://github.com/iipc/awesome-web-archiving
1.2K views15:02
Открыть/Комментировать
2022-07-06 09:44:01 Как сохранять исходный код? Как сохранять код публичных репозиториев, который может исчезнуть, например, в связи с закрытием организации или проектов?

Проект Software Heritage [1] специализируется на архивации всего общедоступного исходного кода. Сбор кода осуществляется автоматически, используя такие системы контроля версий, как Git, Mercurial, Subversion и Bazaar. Проект уже охватывает крупнейшие платформы с исходным кодом, а также позволяет самостоятельно добавлять туда репозитории с помощью сервиса «Save code now» [2].

А в июне добавился новый сервис «Add forge now» [3] для добавления новых источников открытого кода — платформ на базе Gitlab, Bitbucket, Gitea, cgit, Hectapod и других подобных продуктов.

Ссылки:
[1] https://softwareheritage.org
[2] https://archive.softwareheritage.org/save/
[3] https://archive.softwareheritage.org/add-forge/request/create/

#digitalpreservation #opensource #sourcecode
3.0K viewsedited  06:44
Открыть/Комментировать
2022-07-05 14:21:47
Началась кампания по архивации материалов с веб-сайтов избирательных комиссий муниципальных образований (ИКМО).


Что случилось
?
14 марта 2022 г. были внесены поправки законом №60-ФЗ в закон №67-ФЗ, согласно которым был упразднен институт ИКМО. Что значит: до конца года все ИКМО должны быть ликвидированы. С тех пор из 2542 ИКМО закрылось более 1000.


Что нужно сделать?
Инициатор кампании Константин Косенков, редактор сайта «Выборы в Санкт-Петербурге» (spb-elections.ru), собрал список из 144 ресурсов ИКМО, которые мы уже начали сохранять.

Мы продолжаем дополнять список ресурсов ИКМО муниципалитетов и ищем волонтеров, которые нам помогут с поиском и сбором информации о сайтах ИКМО России. Источниками могут быть как отдельные сайты избиркомов муниципалитетов, так и разделы «ИКМО» или «Выборы» на сайтах городских администраций.

Список ИКМО доступен здесь: гугл-таблица.

Напишите нам, если вы готовы помочь в комментариях к посту или на почту infoculture@infoculture.ru.
1.1K viewsedited  11:21
Открыть/Комментировать
2022-06-29 16:19:16 Для тех кто готов помогать с архивацией сайтов, мы начали собирать задачи в которых нужна помощь. Большая часть задач являются техническими, например, по сбору сайтов порталов и разделов с открытыми данными в России [1] и по развитию инструментов архивации данных из API [2]․

Общий список задач оформлен в виде проекта на Github [3], новые задачи по остальным проектам будут собраны там же.

Сейчас у нас больше задач технических, но если Вы видите какие-то пробелы или необходимость в инструментах/проектах/работах по архивации, то пишите в чате к этому каналу, обязательно их учтём.

Ссылки:
[1] https://github.com/ruarxive/rudatarchive/issues
[2] https://github.com/ruarxive/apibackuper/issues
[3] https://github.com/orgs/ruarxive/projects/1/views/1

#digitalpreservation #opensource #ruarxive
2.6K views13:19
Открыть/Комментировать