Миллионы старых сообщений с закрытых форумов в свободном доступе

Обновлено 2020-10-18 205 0


Usenet, ранняя интернет-система дискуссий теперь в открытом доступе


За десятилетия до веток Twitter, форумов Reddit или групп в Facebook существовал Usenet: ранняя интернет-система дискуссий, предшествовавшая веб-дискуссии, где можно было начинать или присоединяться к обсуждениям, так же, как на сегодняшних досках сообщений.

Начало Usenet датируется 1980 годом, его создали двое студентов Университета Дьюка, которые хотели общаться между децентрализованными локальными серверами - и он действует до сих пор.

В Usenet люди говорят обо всем, от нанотехнологий до мыльных опер, вина и НЛО. Йозеф Ярощак (Jozef Jarosciak), системный архитектор из Онтарио, впервые познакомился с Usenet в 2000 году, когда нашел постоянную работу в Канаде благодаря размещению там вакансии.

Usenet

Автор: Benjamin D. Esham / Wikimedia Commons, CC BY-SA 2.5, Ссылка «Большая Восьмёрка» иерархий Юзнета

Недавно Jozef Jarosciak загрузил некоторые из старейших сообщений Usenet в Интернет.

Около 2,1 миллиона сообщений из архива UTZOO NetNews Генри Спенсера за период с февраля 1981 года по июнь 1991 года заархивированы в архиве Usenet и доступны любому желающему.

Этот последний дамп архива является частью еще более крупного проекта Jozef Jarosciak. В прошлом месяце он запустил сайт архива Usenet, чтобы разместить информацию независимо от групп Google, которые также содержат архивы новостей, таких как Usenet.

По данным сайта, в настоящее время он архивирует 317 миллионов сообщений в 10 000 уникальных группах новостей Usenet - и, по оценкам автора, в конечном итоге в нем будет храниться около 1 миллиарда сообщений.

Henry Spencer


Генри Спенсер (Henry Spencer) из Университета Торонто, факультет зоологии, хранил архивы групп на 141 магнитной ленте.


«Ленты UTZOO-Wiseman Usenet - это, по сути, самые ранние доступные обсуждения, размещенные в Интернете людьми, работающими в различных университетах, которые уже были подключены к Интернету»,

Jozef Jarosciak
- сказал нам Jozef Jarosciak.

Спенсеру и нескольким коллегам удалось перенести данные с магнитной ленты в формат .TAR (Tape ARchive), и Jozef Jarosciak, который много лет работал архиватором Usenet, преобразовал эти ленты в базу данных PostgreSQL с возможностью поиска, которую он затем загрузил в архивы Usenet.

Попутно, помимо парсеров для архива магнитных лент Utzoo, он создал конвертеры на PHP, JavaScript, Java и Python и сделал их доступными на своем Github в качестве ресурсов с открытым исходным кодом, которые может использовать любой.

Из групп Utzoo он загрузил почти 26 300 000 сообщений и их количество продолжает расти.

«Эта сокровищница старых постов должна быть доступна будущим поколениям», - сказал Ярощак. «Эти сотни миллионов сообщений может быть интересно читать, но, что более важно, они проливают свет на мыслительный процесс Интернет-сообщества на ранних этапах самого Интернета. Это огромное количество важного исторического и исследовательского контента. Было бы пренебрежением с моей стороны и со стороны других архивистов, упустить возможность вернуть эти старые текстовые группы Usenet из архивов в открытый доступ».

Jozef Jarosciak
- сказал нам Jozef Jarosciak.


Статья на английском: www.vice.com





Читайте также:
Похожие записи, из рубрики:
  • Что такое файл TIFF?
  • Как в Gmail переслать сразу несколько писем
  • Как объединить документы Word
Комментарии
Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Вход ]