Охота на книги: поиск иностранной научной литературы в Интернете (доклад)

Мой доклад на Весконе-2015, содержит обзор трёх инструментов для поиска иностранной научной литературы в Интернете (LibGen, Sci-Hub, Academia.edu). Конвент был толкинистский, но доклад на самом деле будет интересен всем, кто занимается исследовательской работой, независимо от научных интересов.

Должен сразу оговориться: хотя в своей работе я регулярно использую все три инструмента, о которых пойдёт речь ниже, книги по Толкину мне до сих пор удавалось находить только с помощью одного из них — Library Genesis. Поэтому наиболее подробно я поговорю именно о нём, но и о других двух ресурсах тоже вкратце упомяну, поскольку знать о них в любом случае полезно и вполне возможно, что вам они тоже ещё пригодятся. Итак, обо всём по порядку:

1. Library Genesis («Либген») — пиратская электронная библиотека, в отличие от многих других подобных ресурсов (той же «Флибусты», например) специально предназначена для нехудожественной литературы (хотя иностранная художественная литература там тоже есть). Адресов у Либгена несколько, и со временем они меняются; на данный момент актуальны, по-видимому, следующие:

  • http://gen.lib.rus.ec/ — этот, судя по всему, основной. Кроме того, по моему опыту, именно этот адрес реже всего бывает недоступен. Начинайте с него. Какие конкретно отношения связывают Либген с «Либрусеком» — не знаю, но использование общего домена очевидно 😉
  • http://libgen.org/
  • http://libgen.in/

Начальная страница сайта по умолчанию выводится на английском, но вверху слева есть ссылка для переключения на русский:

Library Genesis главная страницаИнтерфейс, как видим, довольно простой: на странице, кроме меню вверху, присутствует только форма для поиска. На приведённой картинке в качестве поискового запроса введено слово tolkien. Запросы, как и в любых других системах автоматизированного поиска, лучше вводить строчными буквами: в этом случае поисковый механизм будет игнорировать регистр, что повышает надёжность результатов.

Ниже можно выбрать раздел библиотеки, по которому будет осуществляться поиск. Научная литература находится в разделе LibGen (Sci-Tech).

Можно выбрать также, по каким полям базы данных будет осуществляться поиск. Набор колонок по умолчанию включает имя автора, заглавие, название серии или журнала, издательство, год издания и том. В большинстве случаев этого достаточно.

Результаты поиска выводятся в виде таблицы, что довольно удобно:

Library Genesis результаты поиска

Обратите внимание: в колонке Название выводится не только заглавие документа, но и название серии, номер издания, а также ISBN (если эти сведения имеются в базе). В колонке Зеркала для каждого документа выводятся четыре ссылки для загрузки, ведущие на четыре разных зеркала библиотеки. К сожалению, проза жизни пиратского Интернета такова, что одна из этих ссылок может оказаться нерабочей, по другой даже небольшой файл будет загружаться двадцать минут, после чего загрузка оборвётся на середине, по третьей ссылке этот же файл будет загружаться полчаса, но зато загрузится целиком и без ошибок. Чаще всего, впрочем, загрузка происходит корректно и быстро.

Ещё один важный момент: как видно на снимке экрана, адрес страницы с результатами поиска включает и сам поисковый запрос. Это означает, что на такую страницу можно сделать закладку в браузере. Наличие закладки не только избавит вас в дальнейшем от необходимости вводить запрос повторно, но и позволит отслеживать новые поступления по соответствующей тематике. Достаточно перейти по закладке, скажем, через месяц, и вы увидите обновлённые результаты поиска, в которых уже появятся новые документы, добавленные в библиотеку за этот месяц.

Заглавие книги в таблице результатов является ссылкой на подробную информацию об этой книге:

Library Genesis сведения о книгеСлева вверху выводится скан обложки, под ним — контрольные суммы файла на случай, если они вам понадобятся. Справа даются основные библиографические сведения о документе, под ними указаны параметры файла. Рассмотрим их подробнее:

  • DPI — разрешение (для отсканированных документов).
  • OCR — распознан ли текст документа. Если здесь написано yes, — значит, текст в файле хранится именно в виде текста, а не растровой картинки. По объёму распознанные документы существенно меньше сканов, да и текст на экране выглядит гораздо опрятнее, независимо от выбранного масштаба. К тому же очень похоже на то, что с такой пометкой чаще всего распространяются даже не распознанные документы как таковые, а официальные электронные версии книг, которые кто-то не пожадничал купить законным путём и выложить в Интернет.
  • Bookmarked — пометка yes означает, что если вы откроете файл, скажем, в Adobe Reader, то в левой части экрана отобразится дерево закладок, соответствующих разделам документа; эти закладки можно использовать как оглавление.
  • Scanned — пометка yes означает, что перед вами отсканированный документ.
  • Paginated — есть ли разбивка на страницы. Пометка yes обычно означает, что в файле сохранена пагинация бумажного издания.

Ещё ниже размещаются дополнительные ссылки для загрузки. Что важно, они не перекрываются со ссылками в таблице результатов поиска. Если ни одна из четырёх ссылок, размещённых в таблице, не сработает, попробуйте ссылки на странице с подробными сведениями. По идее, здесь предусмотрена даже возможность загрузки через BitTorrent, но я не пробовал.

В самом низу справа выводится аннотация.

Либген предоставляет и некоторые другие возможности, но для начала вам с лихвой хватит и тех основных функций, о которых до сих пор шла речь.

2. Sci-Hub.org — в отличие от Либгена, это уже не библиотека, а что-то вроде шлюза, который подключается к платным базам данных с журнальными статьями, выдавая себя за легитимного пользователя, и таким образом позволяет бесплатно загружать оттуда тексты. Насколько я понимаю, администраторы баз данных периодически его банят, но спустя какое-то время его создатели восстанавливают доступ.

Обратите внимание на дефис в адресе: адрес без дефиса тоже существует, но это совершенно другой ресурс, не имеющий никакого отношения к тому, о чём здесь говорится 😉

Начальная страница Sci-Hub выглядит так:

Sci-Hub главная страницаОсновным её элементом, как и в Либгене, является поле для ввода поискового запроса. Это может быть не только набор ключевых слов, но и, к примеру, DOI интересующей вас статьи, если вы его знаете (в самом общем виде DOI, или цифровой идентификатор объекта, — это уникальный номер статьи, аналогичный ISBN для книг; часто используется в иностранных журналах). Вообще Sci-Hub, в отличие от Либгена, в большей степени ориентирован не на тематический поиск информации, а на поиск конкретных статей, о существовании которых вам уже известно. Искать статьи по толкинистике мне в Sci-Hub ещё не приходилось, поэтому в качестве примера приведу поиск по истории Советского Союза, который я действительно недавно (и успешно) выполнял. Результаты поиска выглядят следующим образом:

Sci-Hub результаты поиска

Как видим, это страница из «Академии Google», но в обрамлении элементов интерфейса Sci-Hub и со ссылками для загрузки полных текстов статей через Sci-Hub. Если вам повезёт, то в списке появится и интересующая вас статья. Если очень повезёт, вы даже сумеете её загрузить 😉 Если не повезёт, — вы получите от базы данных от ворот поворот. В этом случае можно вернуться назад к результатам поиска и нажать кнопку Поменять прокси, после чего повторить попытку загрузить статью. Иногда это помогает. Если искомая статья уже доступна в Либгене, Sci-Hub сразу выдаст ссылку на Либген, чтобы не лазить лишний раз в платную базу данных.

Следует отметить, что создатели Sci-Hub рекомендуют использовать его только как крайнее средство, когда нужная вам статья недоступна ни на каких других ресурсах. Кроме того, категорически не рекомендуется загружать сборники и номера журналов целиком. Если это всё-таки необходимо, загружайте статьи в случайном порядке, с обязательной сменой прокси после каждой статьи и с перерывом на полчаса после каждых двух-трёх статей. В противном случае Sci-Hub могут в очередной раз забанить, и вы не только осложните жизнь другим пользователям, но и не получите той информации, которую ищете сами.

3. Academia.edu — в отличие от предыдущих, этот ресурс полностью легальный. В техническом отношении он представляет собой специализированную социальную сеть для учёных, в которой каждый участник имеет возможность размещать не только информацию о себе, но и тексты своих публикаций. Причём с формальной точки зрения выгрузка файла в Academia.edu не является его размещением в открытом доступе, поэтому многие авторы, которые не публикуют тексты своих статей в Интернете из опасения нарваться на неприятности с издательством, тем не менее выкладывают их в Academia.edu. Таким образом, в этой сети вы можете отыскать файлы, отсутствующие на других серверах.

Ближайший конкурент Academia.edu — социальная сеть ResearchGate. Я сам её не использую, во-первых, потому что у Academia.edu больше пользователей, и во-вторых, поскольку я в своё время просто не смог зарегистрироваться на ResearchGate из-за того, что в их базе данных отсутствует мой институт. В базе данных Academia.edu он нашёлся (правда, под довольно странным названием — «Institute of Social Sciences and Humanities Information», хотя правильный перевод — Institute of Scientific Information for Social Sciences); кроме того, в Academia.edu можно зарегистрироваться в статусе независимого исследователя, не указывая место работы. В ResearchGate такой возможности нет.

Профиль пользователя в Academia.edu выглядит так:

Academia.edu профиль пользователя

Обратите внимание на список ссылок для загрузки текстов публикаций (его можно разбить на рубрики) и список научных интересов. Система подписок работает, как в ЖЖ и «Твиттере», — вы можете подписаться на кого угодно, на вас может подписаться кто угодно, подтверждение дружбы не требуется.

При авторизации в Academia.edu на экране, однако, появляется не профиль, а лента новостей:

Academia.edu лента новостей

В неё попадают, во-первых, новые материалы, выложенные пользователями, на которых вы подписаны, и во-вторых, новые материалы, соответствующие вашим научным интересам. Ленту, таким образом, можно использовать для отслеживания новых работ по интересующей вас тематике 🙂