Охота на книги: Поиск научной литературы в Интернете

Наконец-то доделал своё руководство по поиску научной литературы в Интернете. Текст основан главным образом на личном опыте, с небольшими исключениями, так что примеры используются соответствующие, но все сайты и программы, о которых идёт речь, — универсальны, они не привязаны к какой-то конкретной тематике и пригодятся представителям самых разных научных дисциплин. Последний раздел посвящён пиратским ресурсам (Sci-Hub, Library Genesis), в предпоследнем описывается, как использовать анонимную сеть TOR для обхода ограничений на доступ к книгам в Google Books и на Amazon.com, но основная часть текста посвящена легальным базам данных, благо с некоторыми из них в последнее время можно работать даже с домашнего компьютера через сайт какой-нибудь публичной библиотеки, в которую вы записаны. Плюс пара слов про поисковик Google Scholar и социальные сети для учёных. Ни в коей мере не претендую на полноту изложения, но мне самому перечисленные ресурсы довольно заметно облегчают жизнь. Надеюсь, что этот опыт пригодится и ещё кому-нибудь :-)

Загрузить полный текст (PDF, 9,5 Мбайт).

ProQuest Dissertations & Theses Global — всемирная библиотека диссертаций

По ходу дела осваиваю базу данных ProQuest Dissertations & Theses Global — крупнейшую в Интернете электронную библиотеку иностранных магистерских и докторских (Ph. D.) диссертаций. На Западе, как и в России, результаты диссертационных исследований нередко публикуются через несколько лет после защиты, а бывает, и вовсе не публикуются. Так что база данных ProQuest не только позволяет всем желающим их прочесть, но и даёт свой, весьма специфический срез информации по интересующей вас теме: если сравнить с библиографией опубликованных работ, то можно увидеть, какие диссертации уже «выросли» в монографии, а какие — ещё нет, над чем работают нынешние магистранты и докторанты и какие исследования, вероятно, ещё «дорастут» до типографии в ближайшие несколько лет. Заодно можно сравнить, как пишутся диссертации и дипломные работы в России и за рубежом.

Всего в базе более 1 миллиона 700 тысяч полных текстов, плюс ещё 3 миллиона 800 тысяч рефератов диссертаций по всем отраслям знания, защищённых в университетах восьмидесяти стран мира, глубина архива — до 1861 года, ежегодное пополнение — около 90 тысяч новых работ из 2700 научных организаций. Читатели Ленинки могут работать с базой даже со своих домашних компьютеров, авторизация производится через сайт библиотеки: нужно просто выбрать ProQuest Dissertations & Theses Global в списке внешних ресурсов, имя пользователя — номер вашего читательского (полный, включая номер читального зала и нули, всего двенадцать цифр), пароль — дата рождения в формате ДДММГГГГ. Очень удобно, рекомендую :-)

ДОКЛАД: Охота на книги: поиск иностранной научной литературы в Интернете

Мой доклад на Весконе-2015, содержит обзор трёх инструментов для поиска иностранной научной литературы в Интернете (LibGen, Sci-Hub, Academia.edu). Конвент был толкинистский, но доклад на самом деле будет интересен всем, кто занимается исследовательской работой, независимо от научных интересов.

Читать дальше ‘ДОКЛАД: Охота на книги: поиск иностранной научной литературы в Интернете’ »

Библиография по Первой мировой войне

В конце прошлого года доделали библиографическую базу данных по Первой мировой войне на сайте ИНИОНа (на грант РГНФ), после пожара она довольно долго не работала, но буквально только что её восстановили из резервной копии. База доступна по адресу http://www.inion.ru/I_publ.html, сейчас там представлены только издания, имевшиеся в институтской библиотеке до пожара (то есть практически всё, что выходило в России, поскольку ИНИОН получает обязательные экземпляры, плюс некоторое количество иностранных работ), но нам, возможно, ещё удастся добавить также книги, доступные в других крупных библиотеках. Интерфейс предельно простой, поддерживается поиск по автору, заглавию и аннотации, ключевым словам; имеется также рубрикатор. В результатах поиска каждая запись сопровождается ключевыми словами, каждое из них, в свою очередь, является ссылкой на список соответствующих ему записей.

Моя роль, правда, была довольно скромная — в основном взаимодействие с программистами ;-)

Осваиваю Tor

Раввин и викинг в жарком споре
Сошлись на том, что сила — в Торе.

(Из сетевого фольклора)

Поскольку в последнее время на экране компьютера вместо интересующей меня страницы слишком часто стал появляться привет от Роскомнадзора («Запрашиваемая вами страница заблокирована по решению суда»), пришлось искать способ противодействия такого рода поползновениям. А из существующих на данный момент технологий самой эффективной, похоже, является Tor.

В техническом отношении это сеть анонимизирующих прокси-серверов, большинство из которых — обычные домашние персоналки. Сеть устроена таким образом, что каждый сетевой пакет по пути от отправителя (например, вашего компьютера) до получателя (например, веб-сервера, который вы хотите посетить) проходит через цепочку из нескольких (не менее трёх) узлов Tor, причём в зашифрованном виде, так что ваш настоящий IP-адрес знает только первый (входной) узел этой цепочки, а содержимое пакета и IP-адрес получателя доступны лишь последнему узлу в ней (выходному). Эти же особенности Tor позволяют использовать его для обхода разнообразных блокировок (начиная с запрета на посещение социальных сетей, принятого у вас на работе, и заканчивая цензурой иностранных интернет-ресурсов, действующей на государственном уровне), а также для защиты вашего канала связи с Интернетом: даже если посещаемый вами сайт не поддерживает шифрование, передаваемые вами данные всё равно не сможет перехватить ни вредный начальник, ни недобросовестный провайдер, ни спецслужбы, ни злоумышленники, взломавшие вашу домашнюю сеть (или гостиничную, если речь идёт об использовании Интернета в путешествии). Таким образом, Tor представляет собой самое мощное средство анонимизации доступа, он гораздо эффективнее обычных анонимайзеров и анонимных прокси-серверов, в изобилии доступных на просторах Сети, а в том, что касается обхода цензуры и защиты канала, с ним могут конкурировать разве что платные прокси-серверы с доступом через VPN, однако в последнее время, благодаря «мудрой» политике партии, президента и правительства, даже пять долларов в месяц стали в два раза дороже, чем год назад.

Технические детали можно почитать в «Википедии», а в качестве руководства для начинающих можно использовать книгу Дениса Колисниченко «Анонимность и безопасность в Интернете». Проще всего загрузить с официального сайта т. н. Tor Browser — готовый набор программ, включающий в себя уже настроенные нужным образом программы для работы с Tor и веб-браузер Mozilla Firefox с отключенным проигрывателем Adobe Flash (его использование может подорвать вашу анонимность). Эта связка работает «из коробки», для анонимного веб-серфинга её достаточно, а большинству пользователей ничего другого и не нужно. По умолчанию Tor Browser работает в режиме клиента, то есть другие пользователи не смогут подключаться к Tor через ваш компьютер до тех пор, пока вы сами этого не захотите.

Следует помнить и об ограничениях Tor. Данные шифруются только на участке от вашего компьютера до выходного узла Tor; если вы хотите защитить их и на участке от выходного узла до получателя, об этом следует позаботиться отдельно. Доступ через Tor в настоящее время работает достаточно быстро, но всё же медленнее, чем обычный доступ в Интернет. Загрузку картинок можно не отключать (были времена, когда это было необходимо), но от загрузки больших файлов лучше воздержаться, иначе вы можете перегрузить сеть. Категорически не рекомендуется использовать BitTorrent через Tor — так можно не только перегрузить сеть, но и лишиться анонимности. Если вас действительно интересует анонимный файлообмен, вам следует использовать не Tor, а анонимную сеть I2P. Использование Tor не защитит вас от компьютерных вирусов, а шпионская программа, работающая на вашем компьютере, сможет перехватить ваши данные до того, как они будут зашифрованы, поэтому о защите от таких программ следует позаботиться отдельно. Невозможно, наконец, скрыть сам факт использования Tor, а правительство, недобросовестный провайдер или вредный сисадмин на работе, в принципе, имеют возможность его заблокировать. Разработчики Tor в настоящее время ищут способ противодействия таким атакам. Борцам с Америкой придётся также смириться с тем, что Tor разработан в недрах Военно-морского флота США и до сих пор финансируется Пентагоном, Госдепартаментом и Национальным научным фондом ;-) Что, впрочем, не мешает американскому же Агентству национальной безопасности искать способ его взлома (пока безуспешно) ;-)

На моём компьютере Tor Browser заработал на ура. Чего и вам желаю :-)

Sci-Hub: загружаем статьи из научных журналов бесплатно

Пиратство в Интернете неистребимо. Буквально на днях узнал от коллег о появлении новой службы Sci-Hub для загрузки полных текстов статей из коммерческих научных журналов. Сайт находится по адресу http://sci-hub.org/ (упоминающиеся в Сети альтернативные адреса http://sci-hub.info/ и http://sci-hub.site50.net/ в настоящее время не работают). Интерфейс предельно простой: в поисковой строке на титульной странице сайта вводим URL статьи или журнала, DOI, PMID или просто поисковый запрос (удобнее всего использовать DOI) и нажимаем на поиск. Доступ к защищённым платным ресурсам осуществляется через систему прокси-серверов.

При работе с Sci-Hub следует помнить о его ограничениях, поэтому перед первым использованием обязательно прочтите справку (доступна по ссылке Как тут скачивать на титульной странице). Статьи, особенно в формате PDF, могут загружаться довольно долго — от 15 секунд до двух минут. Не все статьи доступны в PDF, бывает, что приходится ограничиться HTML-версией. Не ко всем статьям вообще удаётся получить доступ; в отдельных случаях система предлагает повторить попытку, используя другой прокси-сервер. Если требуется загрузить книгу или номер журнала целиком, то такую работу нужно выполнять строго поэтапно с обязательной сменой прокси-сервера после каждой статьи или главы и с перерывом на несколько часов после каждых 3—4 статей, статьи или главы выкачивать не по порядку, как в содержании, а вразброс — разработчики Sci-Hub опасаются, что в противном случае сайт могут забанить.

См. также: официальный анонс от разработчика системы.

ОБНОВЛЕНИЕ: В настоящий момент работающий адрес сайта — http://sci-hub.cc/. Старые адреса не работают.

Законопроект № 89417-6: Великий Русский фаервол?

В Госдуме сегодня рассматривается во втором чтении законопроект № 89417-6 «О внесении изменений в Федеральный закон „О защите детей от информации, причиняющей вред их здоровью и развитию“ и отдельные законодательные акты Российской Федерации по вопросу ограничения доступа к противоправной информации в сети Интернет». Законопроект, который предполагается принять в самые сжатые сроки и практически без общественного обсуждения, вносит ряд поправок в Закон о защите детей от информации, причиняющей вред их здоровью и развитию, который должен вступить в силу 1 сентября нынешнего года, а также в КоАП, Закон о связи и Закон об информации, информационных технологиях и защите информации. Большинство поправок носят чисто технический характер, но Закон об информации предполагается в числе прочего дополнить статьёй 151 «Единый реестр доменных имён и (или) универсальных указателей страниц сайтов в сети Интернет и сетевых адресов сайтов в сети Интернет, содержащих информацию, запрещённую к распространению на территории Российской Федерации», которая по своему содержанию сопоставима со скандальными законопроектами SOPA и PIPA, отклонёнными несколько месяцев назад американским Конгрессом. В реестр предполагается включать по решению соответствующего органа власти не только сайты с детской порнографией, но и сайты, пропагандирующие употребление наркотиков, психотропных веществ и их прекурсоров (крайне расплывчатая формулировка, несмотря на кажущуюся юридическую чёткость), а по решению суда — также и любые другие сайты, содержащие информацию, запрещённую к распространению в России. При включении ресурса в реестр хостинг-провайдер обязан в течение суток уведомить об этом владельца ресурса, чтобы тот — опять же, в течение суток — удалил страницу, признанную незаконной. Если владелец сайта этого не сделает, хостер обязан заблокировать сайт; в противном случае его IP-адрес также будет внесён в реестр, а провайдерам доступа в Интернет вменяется в обязанность блокировать доступ к такого рода ресурсам. Вряд ли подобные меры серьёзно скажутся на деятельности настоящих противоправных ресурсов (здесь могут помочь только аресты самих преступников), зато у многих добросовестных сайтов могут возникнуть проблемы, поскольку законопроект предполагает фильтрацию запрещённого контента не по URL конкретных страниц, а по доменным именам и IP-адресам, что может привести, например, к блокировке всей службы блогов, один из пользователей которой разместил в своём журнале запрещённый документ, или всех сайтов, размещённых на одном сервере. Внедрение фильтрации трафика на уровне магистральных провайдеров неизбежно потребует значительных затрат (которые так или иначе будут переложены на абонентов) и может серьёзно понизить скорость передачи данных в Рунете, а размытость формулировок законопроекта порождает опасения, что в случае его принятия он может быть использован как инструмент цензуры.

Подробности можно посмотреть здесь:

Русскоязычный сегмент «Википедии» в знак протеста объявил забастовку продолжительностью в одни сутки.

Посмотрим, что будет дальше…

Дополнение от 11 июля. Закон принят — сразу во втором и в третьем чтениях, правда, с поправками, текст поправок пока не нашёл. Слово за Путиным. Вчерашний протест «Википедии» и ряда других известных ресурсов депутат от «Справедливой России» Елена Мизулина, один из авторов законопроекта, назвала «шантажом» и происками «глобального педофильского лобби», пообещав обратиться в Министерство юстиции США, чтобы оно провело расследование. Комментарии, полагаю, излишни…

Закрылась электронная библиотека Library.Nu

Электронная библиотека Library.Nu, бывшая «Гигапедия», прекратила своё существование. Сайт, напомню, представлял собою рубрицированный и аннотированный каталог ссылок на электронные книги, размещённые на различных файлообменниках, в том числе на сервере http://ifile.it/. От других подобных ресурсов Library.Nu отличался чрезвычайно удобным интерфейсом с такими возможностями, как распределение каталожных «карточек» по рубрикам, присвоение им меток, удобная маркировка «карточек» в зависимости от формата и качества файла, поиск по ключевому слову, создание закладок на страницы с результатами поиска, отслеживание новых поступлений через RSS. Сервер ifile.it также отличается простым и лаконичным интерфейсом, без назойливой рекламы и без раздражающих пауз перед началом загрузки файла. Из известных мне обменников он был и пока остаётся, пожалуй, наиболее удобным.

Как отмечается в победном рапорте, размещённом на сайте Ассоциации американских издателей (AAP), всего на «Гигапедии» было зарегистрировано свыше 400 тысяч электронных книг. Автор реляции, разумеется, настаивает, что администраторы Library.Nu намеренно вводили посетителей в заблуждение, создавая у них впечатление, будто они имеют дело с легальным ресурсом. Доказательством этого, по его мнению, является… наличие на сайте рекламных баннеров. О том, что посетители сайта легко могли догадаться о его истинной юридической природе просто потому, что ссылки с него вели на файлообменники, в документе не упомянуто. Сервер ifile.it, созданный теми же людьми, что и «Гигапедия», соответственно, использовался якобы исключительно для распространения пиратской продукции, хотя в действительности это был обычный файловый хостинг. В настоящее время адреса http://library.nu/ и http://gigapedia.info/ недоступны для просмотра. Ifile.it продолжает функционировать, но загрузка файлов на сервер разрешена только зарегистрированным пользователям.

Судебное преследование обоих ресурсов продолжалось около семи месяцев: администраторы приложили значительные усилия для защиты своей анонимности. Доменные имена серверов были зарегистрированы в Италии и в островном государстве Ниуэ в Тихом океане, тогда как сами сервера физически размещались сначала в Германии, а затем на Украине. В рапорте AAP отмечается также, что создателями обоих ресурсов «использовались очень сложные технические системы, которые немедленно обнаруживали и блокировали рост числа посещений». Проще говоря, сервера были хорошо защищены от DDoS-атак, хотя какое это могло иметь значение для законопослушных борцов с пиратами, в документе не уточняется.

Мир должен знать своих героев. В преследовании Library.Nu и ifile.it принимали участие издательства Cengage Learning, Elsevier, HarperCollins, John Wiley & Sons, The McGraw-Hill Companies, Oxford University Press и Pearson Education Inc., входящие в AAP, а также Cambridge University Press, Georg Thieme, Hogrefe, Macmillan, Pearson Education Ltd, Springer, Taylor & Francis, C.H. Beck и De Gruyter при поддержке ряда национальных и международных ассоциаций правообладателей.

Электронные копии статей, публикуемых в научных журналах, доступны официально в специализированных базах данных с платным доступом. Со многими из них можно работать на компьютерах, размещённых в публичных библиотеках, в том числе и в библиотеке ИНИОН РАН. Для электронных книг аналогичных баз данных не существует до сих пор. «Пиратская» «Гигапедия» позволяла хотя бы частично восполнить этот пробел, давая возможность многочисленным пользователям реализовать своё право на доступ к информации, достижениям науки и произведениям художественной литературы — зафиксированное, подобно авторскому праву, в международных документах о правах человека.

Что ж, борцы с пиратами могут праздновать победу. Нам же, простым пользователям, тем, кому нравятся сайты без рекламы, кого раздражает защита от копирования с её бесконечными регистрациями и активациями, кто считает, что справедливая цена экземпляра произведения должна быть хотя бы соизмерима с себестоимостью носителя, — нам остаётся лишь надеяться, что никакие судебные процессы не убьют пиратское движение, на месте прежней «Гигапедии» появится достойная замена, а неизбежная, уверен, в будущем декриминализация копирования в личных целях наступит ещё при нашей жизни. И в меру своих сил приближать этот радостный момент :-)