Наука исчезает в интернете [ Редагувати ]

При рутинной попытке найти ранее опубликованный документ медик Роберт Деллавелль заметил, как мир исчезает у него перед глазами. Это был мир ссылок, сносок и веб-страниц.
Деллавель, дерматолог из Veterans Affairs Medical Center в Денвере, был соавтором отчета об одном исследовании, в котором было несколько десятков ссылок - по преимуществу не на книги и журнальные статьи, а на веб-сайты. Прблема заключалась в том, что с момента написания до публикации прошло два года. К моменту отправки работы в печать многие из цитированных сайтов сменили адрес или совсем исчезли, так что адреса, которые цитировались в постраничных сносках, попросту исчезли. Тогда-то Деллавель и его коллеги заинтересовались тем, что происходит с научными публикациями в интернете. Для этого они изучили сноски, содержащиеся в научных статьях, опубликованных в трех крупных научных журналах - New England Journal of Medicine, Science и Nature - и проверили работоспособность URL-адресов через 3,15 и 27 месяцев после публикации. Количество неработающих ссылок за это время выросло (3,8%; 10% и 15% соответственно).
Деллавалль сравнивает происходящее с гибелью библиотеки Александрии - совсем еще свежие исследования пропадают прямо под вашим носом. В своих тревогах он не одинок - множество членов научного сообщества нервирует все возрастающая зависимость от среды, оказавшейся слишком эфемерной. Средняя продолжительность жизни интернет-страницы сегодня не превышает 100 дней - ясно, что на таких источниках нельзя основывать культуру.
Конечно, даже обычные ссылки на печатные работы могут быть "тупиковыми" - если в них содержатся, например, опечатки. Однако непрерывная трансформация интернета затрагивает не только ссылки - даже правительственные сайты меняют адреса (так, из 2483 британских государственных веб-сайтов ежегодно меняют дислокацию около 25%). А это уже серьезно - ведь сейчас все больше документов, источников, исследований существует только в электронном виде.
Сайты становятся недоступными по нескольким причинам. Иногда их владельцы перемещают материал в другое место или просто удаляют его из сети. В других случаях, они меняют URL, не оставляя ссылку на новый адрес. В таком случае пользователь, как правило, видит сообщение 404 Not Found с подписью "Страница не может быть отображена" или "страница, которую вы ищете, сейчас недоступна".
Но далеко не все обозначенные таким образом страницы действительно находятся вне доступа. Несколько организаций, в том числе популярный поисковик Google и Kahle's Internet Archive (www.archive.org) делают копии страниц и сохраняют их в архиве, чтобы доступ к ним сохранялся даже после удаления с сайта. Сейчас интернет-архив содержит более 200 терабайт информации, а ежемесячно добавляется еще около 20 терабайт, что эквивалентно информации, содержащейся во всей Библиотеке Конгресса США.
Но при том, что ежедневно в интернете размещается около семи миллионов статей, эти усилия кажутся каплей в море. Поэтому сейчас разрабатываются новые системы индексации и поиска, которые позволят находить страницы, сменившие адрес. Одна из таких систем, DOI (Цифровой идентификатор объектов), приписывает всем участвующим в этой системе страницам виртуальный постоянный код, по которому их можно найти по любому адресу.
Стандартные браузеры не могут находить документы по этому коду, поэтому пользователям приходится обращаться на особые сайты, такие как CrossRef, которые способны перенаправлять пользователей к новому адресу искомого документа. Это достаточно сложная система, но главный ее недостаток в том, что она не единственная. В результате возникает настоящая мешанина.
Однако усилия разработчиков более чем оправданы. Интернет содержит очень много информации. И если наша культура потеряет возможность находить и использовать ее, тогда все накопленные знания превратятся, по сути, в дым...