Архив Интернета: миссия в старой церкви

Архив Интернета: миссия в старой церкви

В нескольких словах

«Архив Интернета», расположенный в Сан-Франциско, играет ключевую роль в сохранении цифрового наследия, особенно в условиях удаления правительственных данных США. Организация сталкивается с вызовами, но продолжает свою миссию, привлекая все больше внимания и поддержки.


В старой церкви в Сан-Франциско, гудя серверами, «Архив Интернета» выполняет свою миссию, становясь все более актуальным.

Расположенный в здании бывшей церкви Христианской науки, «Архив Интернета» представляет собой некоммерческую цифровую библиотеку интернет-сайтов и культурных артефактов. Основанный в 1996 году, он хранит сотни миллиардов копий правительственных веб-сайтов, новостных статей и данных. Wayback Machine — это точка доступа архива к почти трем десятилетиям истории Интернета. Но многие из миллиона или около того ежедневных посетителей, которые стекаются на онлайн-адрес «Архива Интернета», могут ничего не знать о его физическом адресе.

Штаб-квартира «Архива Интернета» — впечатляющий храм в стиле греческого возрождения с белыми колоннами — возвышается к югу от моста Золотые Ворота. Возле входа в неф здания громко гудит триптих из высоких черных компьютерных серверов.

«Это и есть «Архив Интернета», — говорит Марк Грэм, директор Wayback Machine, указывая на серверные стойки. Грэм проводил еженедельный публичный тур по штаб-квартире для дюжины посетителей. «Эти машины — серверы, которые прямо сейчас используются для записи и сохранения материалов. Мигающие огни означают, что что-то записывается или считывается с этих жестких дисков».

Серверы в режиме реального времени записывают Всемирную паутину. Результаты ошеломляют. Ежедневно в «Архив Интернета» загружается около 100 терабайт материалов, или около миллиарда URL-адресов, с помощью автоматизированных сканеров. Большая часть этого попадает в Wayback Machine, а остальное — оцифрованные аналоговые носители: книги, телевидение, радио, научные статьи — сканируются и хранятся на серверах.

«Архив Интернета» оказался в уникальном положении. После инаугурации президента Трампа в январе некоторые федеральные веб-страницы исчезли. В то время как некоторые страницы были удалены полностью, многие вернулись в онлайн с изменениями, которые, по словам официальных лиц новой администрации, были внесены в соответствии с указом Трампа об удалении «политик разнообразия, равенства, инклюзивности и доступности». Тысячи наборов данных были стерты — в основном в агентствах, занимающихся наукой и окружающей средой.

Информация об изменении климата, репродуктивном здоровье, гендерной идентичности и сексуальной ориентации также оказалась под угрозой. Например, страницы, ссылающиеся на Enola Gay — самолет B-29, сбросивший атомную бомбу на Хиросиму, — были среди просочившегося списка сообщений, которые Пентагон пометил для удаления. Некоторые удаленные страницы, в том числе связанные с Enola Gay, вновь появились, поскольку агентства выясняют, как выполнить директивы Трампа.

«Архив Интернета» — одна из немногих организаций, которая пытается сохранить информацию, которая ускользает из цифрового пространства, а также делает эту информацию доступной для общественности. Через шесть недель после прихода новой администрации, по словам директора Wayback Machine Грэма, «Архив Интернета» каталогизировал около 73 000 веб-страниц, которые существовали на правительственных веб-сайтах США и были удалены после инаугурации Трампа.

Грэм отметил, что, например, «Архив Интернета» в настоящее время является единственным местом, где общественность может найти копию интерактивной временной шкалы, подробно описывающей события 6 января. Временная шкала является продуктом комитета Конгресса, расследовавшего нападение на Капитолий, и с тех пор была удалена с их веб-сайта. Грэм сказал, что сохранение таких записей отвечает интересам общества.

«Сколько денег наших налогоплательщиков было потрачено на его создание? — сказал он, имея в виду временную шкалу и слушания в комитете. — Это была нетривиальная работа, и это часть нашей истории — и только по этой причине достойна сохранения и изучения, понимания».

Для новых президентских администраций типично вносить изменения в федеральные веб-сайты. В 2008 году «Архив Интернета» стал соавтором инструмента под названием End of Term Web Archive для отслеживания и резервного копирования таких изменений. Но Грэм сказал, что во время второго срока Трампа масштабы и темпы удаления правительственных данных были беспрецедентными.

«Многие люди пытаются понять: 'Что, черт возьми, только что произошло?' — сказал Грэм. — Мы просто делаем свою работу, стараясь быть лучшей библиотекой, какой только можем быть, стараясь помочь сохранить культурное наследие нашего времени — сделать этот материал доступным, полезным для людей сейчас и в будущем».

Со второго срока Трампа все больше людей обращаются к некоммерческой организации. По словам Грэма, основываясь на большом скачке просмотров страниц, который он наблюдал за последние два месяца, «Архив Интернета» привлекает гораздо больше посетителей, чем обычно, — журналистов, исследователей и других любознательных людей. Некоторые хотят получить информацию, утерянную или измененную в результате чистки, в то время как другие стремятся внести свой вклад в процесс архивирования.

«Наблюдается всплеск поддержки «Архива Интернета» из-за резкого сдвига, происходящего в частях правительственной веб-инфраструктуры, которые, как вы и представить себе не могли, изменятся, — сказал Брюстер Кале, основатель и нынешний директор «Архива Интернета». — Люди приходят и сплачиваются вокруг нас — используя его, указывая на вещи, помогая организовывать вещи, отправляя контент для архивирования — наборы данных, которые находятся под угрозой или были удалены».

Нэнси Кригер, социальный эпидемиолог из Гарвардского университета, сравнила чистку с «цифровым сжиганием книг». Она объединилась с другими учеными, чтобы попытаться сохранить федеральные данные о здоровье, которые недавно исчезли с правительственных веб-сайтов. Она помогла составить список терминов для отправки в «Архив Интернета», чтобы помочь в поиске и сохранении.

«Мы хотим сохранить данные общественного здравоохранения, которые имеют решающее значение для благополучия людей», — сказала она.

Например, на сайте Центров по контролю и профилактике заболеваний есть веб-страница под названием «Прекращение гендерного насилия». В ней освещаются исследования CDC, показывающие, что девочки-подростки и молодые женщины несут непропорционально большое бремя случаев ВИЧ во всем мире, что связано с гендерным насилием и плохим доступом к медицинским услугам. Страница, которая была доступна 16 января до инаугурации Трампа, теперь сообщает: «Страница не найдена».

Команда Грэма работает над тем, чтобы опередить будущие чистки, пытаясь выявить и зафиксировать материал, который может подвергаться большему риску удаления, сказал он. «Конечно, эта администрация в некотором роде облегчила нашу работу, — сказал он. — Уже в первый день они начали делиться терминами, словами, тематическими областями, которые будут находиться под пристальным вниманием, — такими терминами, как 'DEI'».

«Архив Интернета» фиксирует не все. Сообщение о рисках птичьего гриппа для людей и домашних животных ненадолго появилось и исчезло на веб-сайте Центров по контролю и профилактике заболеваний. Грэм сказал, что Wayback Machine не успела его записать.

«Я помню, как сразу же вошел и затаил дыхание: 'О, у нас есть это?' И у нас этого не было», — сказал он. Есть шанс, что он может появиться позже, возможно, через поток материалов, поступающих от сторонних участников и партнеров.

Пока организация работает над адаптацией, Грэм сказал, что работа заставляет его работать сверхурочно. «На личном уровне это был своего рода спринт, — сказал он. — Последние много недель я работал семь дней в неделю. Буквально с момента инаугурации я просыпался раньше с чувством цели и энергии».

Несмотря на свою новаторскую роль в цифровой сфере, команда «Архива Интернета» хочет, чтобы в центре внимания были люди, а не только машины. Рядом с серверами глиняные скульптуры — миниатюрные двойники, увековечивающие людей, работавших в организации, — выстроились вдоль стен и переходят на скамьи.

«У нас есть все эти маленькие статуи, которые, я думаю, являются способом прославления людей, работающих над этими коллекциями, — сказал Кале. — У людей есть возможность создавать технологии, которые, по нашему мнению, будут хорошо нам служить. [Важно], чтобы люди понимали, как они могут участвовать, что это не что-то, что происходит с ними. Это наше».

Авинаш Кришна, 22-летний недавний выпускник колледжа, приехал из района Сакраменто, чтобы осмотреть штаб-квартиру. Он сказал, что пользуется услугами «Архива Интернета» около десяти лет. Экскурсия давно была в его списке дел, но недавнее посещение страницы Википедии подняло ее выше. Для него это был пример того, как, по его мнению, сеть становится все более зависимой от инструментов архива.

«Я не помню страницу, но значительный процент ссылок в статье Википедии — это ссылки на «Архив Интернета», — сказал он. — Это действительно грустно — то, что люди считают первоисточником, — это то, чего больше не существует».

Кришна скорбит о том, что известно как цифровое разложение или «гниение ссылок» — массивное, расширяющееся кладбище неработающих ссылок в Интернете. Это то, что вы видите, когда сталкиваетесь с ошибкой «Error 404» или «page not found».

В то время как удаление администрацией Трампа федеральных веб-страниц представляет собой яркий пример проблемы разорванных ссылок, она давно стала эпидемией. Исследование Pew Research Center, опубликованное в прошлом году, показало, что примерно 38% веб-страниц в Интернете, существовавших в 2013 году, были недоступны по состоянию на 2023 год. Согласно исследованию Harvard Law Review, опубликованному в 2014 году, около половины всех ссылок, цитируемых в заключениях Верховного суда США, больше не вели к исходному материалу.

Кале, который с самого начала осознал эфемерную природу Интернета, сказал, что быстрое разрушение живой сети представляет серьезную угрозу для сохранения истории. «Мы строим нашу культуру на зыбучих песках», — сказал он.

«Архив Интернета», исправляющий огромное количество гнилых ссылок, спасает в среднем 10 000 мертвых ссылок, которые появляются на страницах Википедии, ежедневно. В общей сложности, по данным организации, только в Википедии исправлено более 23 миллионов гнилых ссылок.

Быстрое уничтожение данных правительственных сайтов — это лишь последняя проблема, с которой сталкивается некоммерческая организация. С 2020 года «Архив Интернета» получает дорогостоящие иски о нарушении авторских прав за оцифровку книг и музыки, которые не находятся в общественном достоянии. Звукозаписывающие лейблы и книжные издательства подали в суд на некоммерческую организацию на сотни миллионов долларов.

Основатель Кале сказал, что дорогостоящие судебные иски, которые, по мнению юристов, призваны служить сдерживающим фактором, угрожают будущему архива. При штате около 120 человек бюджет организации в прошлом году составил около 28 миллионов долларов — менее пятой части бюджета Публичной библиотеки Сан-Франциско. Он финансируется за счет пожертвований, больших и малых, а также за счет денег, поступающих от музеев, библиотек и других учреждений, которые платят некоммерческой организации за сохранение ее коллекций. Кроме того, организация также стала объектом недавней серии кибератак на библиотеки.

Даже в то время, когда «Архив Интернета» находится под угрозой, его основатель Кале оценил, что в штаб-квартире большая комната с высокими серверами — источник жизненной силы библиотеки — остается беспрепятственной, в полном поле зрения общественности.

«Это как открытые стеки, — сказал он. — Он не спрятан в каком-то бункере. Это 'это мы'. Это выглядит немного уязвимо, верно?» Кале сказал, что, по его мнению, эта уязвимость посылает сообщение: «Мы должны поддерживать наши институты, иначе они исчезнут».

Read in other languages

Про автора

Яна - журналист, специализирующийся на вопросах образования и науки в США. Её материалы о американских университетах и научных достижениях всегда актуальны и информативны.