Канн С.К. Особенности индексирования ресурсов библиотечного сайта роботами поисковых машин
Навигация
К 90-летию ГПНТБ СО РАНМЕЖРЕГИОНАЛЬНАЯ КОНФЕРЕНЦИЯ К 90-ЛЕТИЮ ГПНТБ СО РАН (2008)
С.К.КАНН, с.н.с. Отделения ГПНТБ СО РАН
 
ОСОБЕННОСТИ ИНДЕКСИРОВАНИЯ РЕСУРСОВ
БИБЛИОТЕЧНОГО САЙТА РОБОТАМИ ПОИСКОВЫХ МАШИН

Основной поток посетителей сайта Отделения ГПНТБ СО РАН (до 80-90%) формируется за счет обращения к глобальным поисковым машинам Google, Yahoo, MSN, Рамблер. Названная четверка лидирует в мировом информационном поиске в сети, далеко опережая своих конкурентов. Вместе с тем, по мировой паутине «бродит» масса других программ-роботов, требуя непрерывного совершенствования процессов поисковой оптимизации веб-сайтов (search engine optimization - SEO). В первом полугодии 2008 г. число роботов, зарегистрированных библиотечным сервером Отделения, превысило полсотни, но эта цифра не окончательная, так как почти 2/3 роботов посещают ресурсы библиотеки «нелегально», обходя стандартную процедуру обращения к файлу robots.txt. Масштабы аккумулирования информации огромны. Только две крупнейших поисковых системы Google и Yahoo сделали по 650 тыс. доступов каждая, скачав свыше 16 Гбт информации - это в 37 раз превышает весь накопленный объем ресурсов.

В интересах дальнейшего совершенствования наполнения сайта и расширения аудитории пользователей в первом полугодии 2008 г. было проведено изучение особенностей индексирования веб-документов роботами основных поисковых машин. Учитывая сезонную «волнообразность» притока посетителей, изучаемый период охватил как «восходящую» линию обращений (с января по май), так и ее нисходящий тренд (с мая по июль). На это важно обратить внимание в связи с тем, что по данным статистики сервера, приход лета означает почти четырехкратное падение посещаемости библиотечных ресурсов (как по числу посетителей, так и по запросу страниц). В этот период выставляется меньше новой информации, реже редактируются старые документы, ослабевает пользовательская нагрузка на сервер. Между тем, для индексирования страниц роботами такое затишье, наоборот, позволяет извлечь некоторые преимущества, поэтому в их отношении летнего спада посещений не наблюдается.

Специфика сайта prometeus.nsc.ru заключается в его продолжительном существовании в сети и длительной раскрутке ресурсов. Показалось интересным проследить, как реагируют роботы на обновление информации двух типов - ресурсов, актуализируемых постоянно, и ресурсов, возникающих (дополняемых) нерегулярно. В первом случае речь шла о документах еженедельной выставки новых поступлений (ВНП), существующей свыше десятка лет (с 23.10.1997), материалах дайджеста «Российская наука и мир» (с февраля 1998 г.), новостях библиотеки и ее подразделений, проектах, получивших грантовую поддержку, и ряде других устойчиво развиваемых ресурсов. Во втором - об эпизодически возникающих библиографических списках и указателях, оглавлениях книг, трудах сотрудников и партнеров библиотеки. Кроме того, изучалось обращение роботов к абсолютно новым комплексам документов, посвященным созданию «Клуба библиотекарей», посещению Кемеровской областной библиотеки в рамках Всероссийского дня библиотек и ряду других инициатив, еще не ставших традицией.

Первые два десятка поисковых машин индексируют сайт почти непрерывно - об этом свидетельствуют ежедневные визиты их «ботов»-разведчиков. Помимо вышеназванной четверки наибольшую активность проявляют Turn It In, BaiDuSpider, AskJeeves, Alexa (IA Archiver), Lycos. Но все они на порядок уступают лидерам индексирования и поиска. Так, роботы Google (Googlebot 2.1) отличаются тем, что ведут «плотный» мониторинг издавна существующих ресурсов, отслеживая обновления (формальные и содержательные), вливание новой информации, появление новых документов, расширяющих рамки ресурса. Проведенные тесты показали, что Google самым первым индексирует очередные файлы еженедельной ВНП и, вообще, является единственной машиной, индексирующей выставку «неделя в неделю». У остальных поисковых систем задержка индексирования достигает трех и более недель. Как правило, Google хранит и самые свежие копии старых выставок. Yahoo, не намного уступающая ему по скорости отражения новой информации, к сожалению, не имеет сервиса кэшированных документов (сохраненных копий).

Вместе с тем, роботы Yahoo (Slurp и Slurp 3.0) обнаружили завидную мобильность в выявлении новых нерегулярно возникающих документов. Они умудрялись индексировать эти документы, как уже было сказано, выставлявшиеся крайне нерегулярно и неожиданно (например, во вновь созданных директориях), уже в день их появления на сервере или на следующие сутки. Частота дальнейших визитов Yahoo в разы превышала показатели конкурентов. В отношении такого рода «нерегулярных» обновлений Google уступал Yahoo, в среднем, примерно сутки. Еще одни сутки проигрывали Yahoo роботы отечественной поисковой системы Рамблер (StackRambler 2.0). Любопытно, что на страницах сайта Отделения выставлен код баннерного проекта Rambler's Top 100 (id=474349). Казалось бы, Рамблеру стоило воспользоваться этим преимуществом для своевременного индексирования новых документов, но этого не происходит. Что же касается MSN (Live Search), то задержка прибытия ее роботов по сравнению с «пионерами индексирования» (Yahoo, Google и Рамблером) временами достигала целого месяца.

Особый интерес имело изучение взаимодействия поисковых машин с библиографическими указателями по актуальным проблемам естествознания, техники и технологии, экологии и пр., составленными А.П.Зарубиным. Первый указатель этого автора появился на сайте 09.02.1999 г. и с тех пор два десятка указателей (около 90 веб-страниц) аккумулировали до 12 тыс. библиографических записей. В 2008 г. была подготовлена и выставлена новая работа, посвященная современным подходам к теме «Периодическая система Д.И.Менделеева». Уже через 12 часов после ее установки на сервер оба текстовых файла были проиндексированы Google (в ночь на 4 марта), а через сутки - Yahoo. Робот Рамблера пришел только 13 марта. До конца июня указатель посещали роботы Yahoo (118 раз), Google (74), MSN (31) и Рамблера (20). С 17 марта документы указателя стали присутствовать в поисковых выдачах Google, число которых к концу июня достигло 204. Из числа остальных 120 выдач на долю Рамблера пришлось 42 и MSN - 23 (остальные поиски велись рядом других поисковиков - nigma.ru, elementy.ru, etc.). За четыре месяца на указатель было сделано 57 закладок в браузерах (подсчитано по вызову файла favicon.ico).

Очень неожиданными оказались результаты тестирования в отношении поисковой машины Яндекса. Выяснилось, что за все первое полугодие 2008 г. ее роботы проиндексировали не более 15% новых документов, созданных с января по июнь включительно и выставленных на сайт. Последнюю индексацию свежих документов сайта Отделения Яндекс провел в начале мая 2008 г., а все остальное время его роботы многократно «перелопачивали» уже давно известные страницы. При этом совершенно игнорировались целые массивы новой информации - ВНП за последние 14 недель (до середины июля), файлы книжных оглавлений, дайджест «Российская наука и мир» (с января по апрель, так как более свежие еще не выложены в сеть), новые документы проекта «Научные школы Новосибирского научного центра» (материалы об академиках В.В.Болдыреве и В.Н.Пармоне) и т.д. Возможно, причина кроется в каких-либо внутренних проблемах фирмы Яндекс, например, в смене поискового алгоритма или чем-то ином.

Подводя итоги, подчеркнем, что проведенное изучение особенностей индексирования новейших документов сайта Отделения ГПНТБ СО РАН роботами основных поисковых машин позволило более точно определить место библиотечных ресурсов в общем информационном пространстве www и продолжить целенаправленную работу по переходу на новые технологические «рельсы» в связи с намечаемой диверсификацией сайта.


Опубликовано в сборнике: Роль ГПНТБ СО РАН в развитии информационно-библиотечного обслуживания в регионе (к 90-летию ГПНТБ СО РАН, 50-летию в составе Сибирского отделения РАН): Тез. докл. межрегион. науч.-практ. конф. (г. Новосибирск, 6-10 окт. 2008 г.) / Гос. публич. науч.-техн. б-ка Сиб. отд-ния Рос. акад. наук; Отв. ред. О.Л.Лаврик. - Новосибирск, 2008. - С.66-69.
 
СБОРНИК ТЕЗИСОВ | СТЕНДОВЫЙ ДОКЛАДПубликации С.КаннаПубликации С.К.Канна 
[О библиотеке | Академгородок | Новости | Выставки | Ресурсы | Библиография | Партнеры | ИнфоЛоция | Поиск | English]
  Пожелания и письма: branch@gpntbsib.ru
© 1997-2024 Отделение ГПНТБ СО РАН (Новосибирск)
Статистика доступов: архив | текущая статистика
 

Документ изменен: Wed Feb 27 14:57:26 2019. Размер: 20,467 bytes.
Посещение N 7920 с 06.10.2008