Организация поиска информации в сети интернет

4.5. Организация поиска информации в сети Интернет

4.5.1. Традиционные поисковые системы Интернета

Для поиска информации используются специальные внешние службы — поисковые серверы: поисковые машины и каталоги.

Поисковые машины — это такие серверы, которые накапливают информацию о содержимом сайтов автоматически, при помощи специальных программ-роботов.

Информацию для серверов-каталогов отбирают люди. В отличие от поисковых машин, информация в каталогах более точно структурирована, причем в вертикальном иерархическом виде.

И поисковые машины, и каталоги являются внешними службами или, как их еще называют, автономными системами. Особенностью автономных систем является то, что цикл работы с информацией выполняется полностью непосредственно на этой системе, начиная с получения информации от первоисточника и заканчивая предоставлением поискового сервиса конечному пользователю.

Автоматические поисковые системы охватывают больший объем информации, их сведения чаще обновляются и поэтому более актуальны. Однако информация на таких серверах плохо структурирована, потому что оценка содержимого того или иного сайта — трудно формализуемая задача. Чаще всего программа-робот отбирает документы только по наличию искомых слов в тексте документа. Примером поисковой машины является AltaVista (http://www.altavista.com).

В каталогах вся информация имеет четкую вертикальную иерархическую структуру. Причем эта структура строится на основе смыслового содержания. В этом главная ценность каталогов, обрабатываемых людьми: можно найти не множество сайтов, содержащих данные ключевые слова, а множество сайтов, посвященных данной тематике. Примером каталога может служить сервер Yahoo (http://www.yahoo.com).

Каталоги WWW, содержащие большое количество записей, часто размещают на своих страницах локальные поисковые машины. Реализуемые в виде традиционных шаблонов, которые мало чем отличаются от шаблонов на автоматических индексах.

Как для поисковых машин, так и для каталогов устанавливается некий принцип отбора информации. Этот принцип закладывается либо в алгоритмы работы поисковых машин, либо в регламент работы людей (для каталогов). В зависимости от того, откуда и какой тип информации накапливается, оценивают две характеристики автономных систем — пространственный масштаб и специализацию.

Пространственный масштаб призван ограничить количество первоисточников информации до некоего конечного предела. Например, поисковая система может быть построена в рамках только одного сайта. Поиск может быть ограничен рамками одного географического домена (например, ru). Такие системы называют региональными.

Существует множество поисковых серверов, которые не имеют подобных ограничений. Их называют глобальными информационно-поисковыми системами.

Особенности регионального подхода могут присутствовать и в глобальных системах. Так, система Lycos (http://www.lycos.com) сортирует результаты поиска в зависимости от того, из какого региона поступил запрос.

Наиболее популярные поисковые сервера загружены настолько, что возникает необходимость в создании «зеркал» (mirrors). Зеркала должны содержать точную копию первичной поисковой системы и гарантировать быстрое обслуживание обращений, поступающих из определенной географической зоны.

При обращении к той или иной поисковой системе следует учитывать, какие сервисы она предоставляет. Например, в отечественной поисковой машине Яндекс (http://www.yandex.ru) введен поиск не только страниц, но и серверов. Суть этого метода заключается в том, что ключевые слова ищутся не по всем страницам, а лишь по их заголовкам (то, что заключено в HTML между тегами «title»). В зарубежной AltaVista сделана отдельная служба Real Names, которая содержит перечень всех зарегистрированных страниц компаний и организаций.

Следующий важный сервис — это специализация поиска. В настоящее время Интернет является хранилищем разных типов информации. Поэтому и поиск информации тоже может быть формализован. Можно искать исключительно графические изображения, можно — мультимедийные записи в формате MP3 и т.д. На многих поисковых серверах можно задать тип искомой информации. кроме того, существуют и серверы, которые специализируются на поиске информации строго определенного типа. FTPSearch (http://ftpsearch.lycos.com) специализируется исключительно на поиске файлов. Он индексирует всевозможные ftp-серверы на предмет находящихся там файлов. Поиск осуществляется непосредственно по наименованию искомого файла. Аналогично MP3Search (http://mp3.box.sk) специализируется на поиске исключительно файлов в формате MP3.

Еще одним важным моментом является то, какой язык запросов использует та или иная система. Чем сложнее этот язык — тем более тонкую настройку поиска оказывается возможным провести. В настоящее время не существует единого унифицированного языка запросов для поисковых систем. Разработка такого языка сделала бы возможной интеграцию различных поисковых сервисов в единую сверхсистему поиска. В феврале 1999 был начат проект SESP (Search Engine Standards Project), в котором участвует 15 крупнейших поисковых систем Интернета. В задачу проекта входит стандартизация работы поисковых служб (материалы о нем можно найти по адресу http://www.searchenginewatch.com).

4.5.2. Метапоисковые системы

Еще одним перспективным направлением развития поисковых сервисов в сети является использование метапоисковых систем. Основа метапоисковых систем — это интерфейс между пользователем и множеством поисковых систем. Метапоисковая система не предназначена для индексирования и накопления информации. назначение ее — чистый поиск и обработка результатов поиска.

Метасистема позволяет, в соответствии с пожеланиями пользователя, ограничить свой поиск определенными поисковыми серверами, проверять существование ресурсов, на которые указывают результаты поиска, осуществлять уточненный поиск в результатах поиска и т.д. Метапоисковые системы часто называют клиентами к поисковым серверам.

Основной чертой метапоисковых систем нового поколения является объединение поисковых серверов различных специализаций. В рамках одного приложения можно осуществлять поиск информации различного типа. При обработке поискового запроса допускается соединение более чем со 100 поисковыми системами (в т.ч. и со специализированными). Результаты поиска дополнительно обрабатываются: ссылки, дублирующие уже найденные, системой исключаются; полученные адреса проверяются на доступность. Есть возможность конфигурации работы с поисковыми серверами (можно выбрать серверы, с которыми будет работать система, указать максимальное число ссылок, получаемых с каждого сервера и т.д.).

Однако и в случае использования метапоисковых систем не обойтись без знаний о традиционных поисковых серверах — именно они служат базой для всякого поиска.

Рассказываем, как устроены поисковые системы, чем они отличаются между собой, где пользователи чаще всего ищут коммерческие предложения и как распределяется поисковый трафик.

Тезисно, о чем мы сегодня будем говорить:

  • что такое поисковая система;
  • как делят между собой рынок Яндекс и Google;
  • из чего состоит структура страниц выдачи информации Яндекса и Google;
  • принцип работы поисковых систем;
  • структура страниц Яндекса и Google и их визуальные отличия;
  • как распределяется поисковый трафик по темам и по типу устройств;
  • различие поисковых систем на живом примере.

Что такое поисковая система?

Поисковая система — это программно-аппаратный комплекс, который ищет и выдает информацию по запросу пользователя. То есть, вы заходите на сайт Google или Яндекс, вводите интересующий вас запрос (например, боулинг-центр в Москве) и поисковая машина находит для вас соответствующую информацию — сайты, где вы видите ответ на свой запрос.

Как делят рынок Яндекс и Google

Сейчас российский рынок почти поровну поделен между Яндексом (48,13%) и Google (46,79%). Есть еще Рамблер и Mail.ru, но это скорее не поисковые системы, а порталы, использующие поисковую строку и алгоритмы от Яндекса и Google. Раньше распределение позиций на рынке было другим: более 60% занимал Яндекс и, соответственно, менее 40% было у Google. Почему? Дело в том, что Яндекс — это локальная система и в России она оказалась более востребованной, чем Google (компании понадобилось время, чтобы компенсировать разницу и занять нишу, которую она занимает сейчас). Догнать Яндекс получилось благодаря развитию мобильного рынка: появилось больше мобильных устройств, доступный мобильный интернет стал данностью и люди начали активнее им пользоваться. Как это связано с успехом Google? Что у Andriod, что у Apple по умолчанию установлена поисковая система Google (кстати, компания выплачивает $3 млрд. в пользу Apple каждый год), поэтому ей и удалось догнать Яндекс на российском рынке. У последнего такой возможности нет (в Яндексе работали над созданием своей операционной системы на базе Android, но пока ничего не получилось).

Доли рынка поисковых систем в России, %:

Как работают поисковые системы

Как работает поисковая система? У каждой поисковой машины есть роботы, которые ежедневно переходят по ссылкам и находят информацию. Далее она заносится в базу и хранится до востребования (момента, когда пользователь делает соответствующий запрос), а все найденные ссылки используются для того, чтобы перейти дальше по ссылкам и найти новую информацию (получается такой бесконечный круговорот ссылок). Когда вы вводите запрос (например, вейкборд-москва-лебедка), поисковая система обращается к базе и выстраивает документы на основании их релевантности (уровню соответствия документа запросу). То есть, чем больше документ отвечает запросу, тем более он релевантный. Процесс выстраивания документов по релевантности называется ранжирование поисковой системы. И как раз ранжирование определяет тот топ-10 сайтов, которые мы видим на первой странице после того, как ввели запрос и нам выдали результаты.

Структура страниц Яндекс и Google и их визуальные отличия

Как выглядит страница выдачи информации у Яндекса и Google? Визуально они повторяют друг друга, но у Google она более строгая, у Яндекса предусматривает больший интерактив и выглядит чуть привлекательнее.

У Яндекса страница состоит из четырех разделов:

  • поисковая строка;
  • блок контекстной рекламы;
  • органическая выдача;
  • колдунщики (последнее звучит дико, знаем).

Теперь чуть подробнее по пунктам: поисковая строка — это та страница, где вы вбили запрос и получили ответ в виде ссылок на сайты. Блок контекстной рекламы — это объявления, которые могут находиться вверху, внизу или по бокам страницы (обычно они помечены словом «реклама»). На эти позиции может попасть любой сайт, который заплатил деньги Яндексу или Google за размещение информации о себе или своих услугах. Блок органической выдачи (следующая ступень) — это те результаты, которые строятся на основании релевантности документа. То есть на первое место в органику попадает тот сайт, который наиболее полно отвечает ключевому запросу. Поэтому в ваших же интересах, чтобы информация была качественной, так как пользователи чаще ищут ответы в органике, чем в блоке рекламы. Последний элемент выдачи — это колдунщики, или внутренние сервисы поисковиков. Колдунщики делают выдачу более живой, интерактивной и, как правило, точечно отвечают на запросы. Пример колдунщиков у Яндекса: Яндекс-авто, Яндекс-фото, Яндекс-недвижимость.

Как выглядит страница выдачи у Google? Фактически она повторяет внешний вид Яндекса (за исключением того, что выглядит более строго) и состоит из тех же четырех элементов. Что касается колдунщиков, то их меньше, чем в Яндексе (с точки зрения коммерческих запросов) и в основной массе они работают для информационных запросов из разряда «что такое», «почему», «как работает».

Распределение поискового трафика по темам и типу устройств

Если говорить о распределении поискового трафика по типам устройств, получается следующая ситуация: Google больше ориентирован на мобильную аудиторию (это причина его популярности, как мы и говорили выше), у Яндекса больший упор на десктопную версию.

Доли рынка поисковых систем в России, %:

Еще один важный момент: распределение трафика в зависимости от тематики, с которой связан запрос. Например, недвижимость менее популярна в Google, чем в Яндексе (74% против 26%). Всему виной, что изначально Google строился так, чтобы искать конкретную информацию (ему легче найти и отранжировать большой документ: статью, исследование), а Яндекс задумывался как машина, которой проще отыскать информацию, основываясь на коммерческих составляющих. Поэтому в Яндексе вы найдете больше ответов на запрос «купить-продать», а в Google быстрее отыщите информацию. По этой причине мы рекомендуем направлять запросы по недвижимости, туризму, автотематике и производству в Яндекс.

Распределение трафика по тематикам, %:

Немного практики

Предлагаем рассмотреть различия двух поисковых систем на примере одного из наших проектов. На скриншоте из аналитики видно, что количество пользователей, пришедших на наш сайт из Google превышает количество пользователей из Яндекса на 25%. Учитывая, что показатель отказов и среднее время, проведенное на сайте, приблизительно одинаковы, можно сделать первоначальный вывод о том, что трафик идентичен. Но не тут-то было. Несмотря на преимущество трафика с Google, конверсия в покупку у пользователей Яндекса выше на 20-25% и, несмотря на разрыв в количестве посетителей, Яндекс генерирует на порядок больше выручки.

Оказавшись в такой ситуации, необходимо сделать правильные выводы и с умом распределить свои ресурсы. Мы поняли, что должны бросить основные силы на работу над SEO в Яндексе, но это было довольно очевидно, и мы решили копнуть глубже. Оказалось, что очень много пользователей выбирали себе квест в течение рабочего времени с телефона и, похоже, просто боялись его бронировать в рабочей обстановке. Затем, вернувшись домой, они совершали бронирование уже с компьютера, и, очевидно, использовали Яндекс для поиска нужного квеста. Здесь мы также сделали правильные выводы — учитывая наше более низкое ранжирование в Яндексе, мы не могли позволить клиенту уйти к конкурентам, когда он выбрал квест через наш сайт. Поэтому большую часть рекламного бюджета мы распределили на ретаргетинг своих пользователей из Яндекса — это помогло нам лучше понять поведение клиентов, а также подтвердило на практике, что Яндекс более коммерческий сервис, а Google — информационный.

Если у вас есть вопросы по статье, задавайте их в нашем телеграм-канале, а также подписывайтесь на нашу группу vk и заходите на наш сайт, чтобы быть в курсе последних новостей.

Михаил Талантов

Черты, присущие профессиональному поиску

Контроль полноты охвата ресурсов. Типы ресурсов Интернета

Ресурсы Интернета через призму поисковых сервисов

Этой статьей мы начинаем небольшую серию публикаций, связанных с вопросом поиска информации в Интернете. Интерес к нему не ослабевает на протяжении всего времени существования Сети. Однако наш взгляд на проблему будет не совсем нетрадиционным — речь пойдет о профессиональном поиске. Хотелось бы избежать пафосного звучания слова «профессиональный». Оно лишь подчеркивает тот факт, что люди, для которых поиск информации стал частью служебных обязанностей, сталкиваются с проблемами, не свойственными эпизодическому, «любительскому» поиску. Для данной категории людей естественно желание преодолеть эти проблемы и выработать новые результативные подходы к решению поисковых задач.

За последние годы развития Интернет-технологий в мире и в России произошло немало положительных перемен. Формирование позитивного общественного мнения о роли Сети, расширение ее технических возможностей и географии подключения пользователей стимулировали стремительный рост информационной базы Интернета и, как следствие, становление новых и развитие старых поисковых сервисов. Тем не менее эти события явились лишь фоном, на котором произошел главный перелом — в сознании руководителей среднего и высшего звена как коммерческих организаций, так и государственных учреждений. Стало понятно, что своевременное получение информации из Сети способно приносить авторитет, деньги и стабильное положение ее потребителям. Автору этой статьи в течение нескольких лет приходилось читать и поддерживать на современном уровне курс по поиску информации в Интернете. Судьба предоставила ему уникальную возможность: немало учебного времени пришлось провести с десятками людей, для которых решение поисковых задач стало профессиональной деятельностью. Общение с ними, безусловно, обогатило личный опыт автора и в какой-то мере уполномочило говорить о самой проблеме от их имени.

Черты, присущие профессиональному поиску

Итак, в отличие от ситуации поиска «для себя», профессиональный поиск предполагает исполнение некоторого заказа с вытекающими отсюда обязательствами перед заказчиком. Эти обязательства и являются источником трех основных требований:

  • контроль полноты охвата ресурсов;
  • контроль достоверности информации, полученной из Сети;
  • высокая скорость проведения поиска.

Так, если вы выступаете в роли заказчика, то вправе потребовать от поисковика помимо собственно результатов еще и некоторых гарантий по указанным выше пунктам. Такие гарантии, безусловно, может дать лишь человек, неплохо осведомленный о тонкостях распределения и движения информационных потоков в Интернете.

Целью настоящей и последующих публикаций станет обсуждение тех возможностей, которыми располагает поисковик, чтобы добиться оптимальных показателей полноты, достоверности и скорости выполнения поисковых работ. Попробуем теперь более предметно обозначить существующие проблемы.

Контроль полноты охвата ресурсов является закономерным требованием, если вы решаете задачу, противоположную той, что звучит как «найти хоть что-нибудь». Полномасштабный сбор информации из Интернета по какому-либо вопросу во многих случаях выводит поисковика за пределы широко освоенного Web-пространства в лоно telnet-доступных баз данных, региональных телеконференций и других хранилищ информации. Знание всех основных существующих на сегодняшний день типов ресурсов Сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа становится необходимым условием успешного планирования и проведения поисковых работ.

Контроль достоверности информации, полученной из Сети в результате поиска, разумеется, может производиться разными средствами. Кратко остановимся здесь на возможностях, которые предоставляет сама Сеть. Так, традиционными способами проверки являются локализация источников информации, альтернативных данному; сверка фактического материала, установление частоты его использования другими источниками; выяснение статуса документа и рейтинга узла, на котором он находится, средствами поисковых систем; получение информации о компетентности и статусе автора материала с помощью специальных поисковых сервисов; анализ отдельных элементов организации узла с целью оценки квалификации поддерживающих его специалистов и другие.

Скорость проведения поиска в Сети, если не принимать во внимание технические характеристики подключения пользователя, в основном зависит от двух факторов: грамотного планирования поисковой процедуры и навыков работы с ресурсом выбранного типа. Под составлением плана поисковых работ понимается выбор поисковых сервисов и инструментов, отвечающих специфике задачи и, что крайне важно, последовательности их применения в зависимости от ожидаемой результативности. После получения доступа к соответствующему ресурсу на передний край выдвигается умение быстро разобраться в его структуре и способах навигации. Моторика выполнения действий, умелое совмещение поисковых средств и возможностей обработки информации локальной клиентской программы и сервера являются необходимыми для поисковика навыками.

Материал данной статьи будет посвящен в основном вопросу полноты проводимого поиска.

Контроль полноты охвата ресурсов. Типы ресурсов Интернета

Большинство пользователей, пришедших в Интернет за последние пару лет, отождествляют его со Всемирной паутиной (www). И дело даже не в том, что им ничего не известно о существовании в мультипротокольной среде Сети других типов ресурсов. Как правило, эти сведения воспринимаются ими скорее как признак эрудиции, чем как практически полезная вещь. Действительно, информационный объем Web-пространства удовлетворяет многих пользователей. Однако как только поиск ставится на профессиональную основу и заставляет нести ответственность за выполненную работу, контроль за полнотой охвата ресурсов выдвигается на передний план. Можете ли вы гарантировать, что эксперт, выполнивший поисковые работы после вас, не обнаружит в Сети ничего реально значимого по заданному вопросу, что уже находилось там на момент ваших действий? Автору известен случай, когда сведения, в нужный момент найденные в группах новостей телеконференций, до какой-то степени изменили судьбу целой компании, на порядок увеличив доход от планировавшейся накануне сделки.

Так или иначе, сегодня информация в Интернете оказывается доступной из источников разного типа. Планировать поиск без полного представления об их спектре и особенностях функционирования невозможно. Перечень основных типов ресурсов, который можно использовать как карту при планировании поисковой процедуры, приведен на рис. 1. Фактически вопрос ставится более широко — об основных способах представления, передачи и обработки информации в Сети.

Особенности доступа к ресурсам указанного типа обсуждаются во многих руководствах. Полезный материал на этот счет содержится также в КомпьютерПресс №2’99. Ограничимся здесь краткой характеристикой каждого типа, акцентируя внимание на той нагрузке, которую может нести на себе ресурс при проведении поиска в Сети.

Электронная почта и почтовые роботы. Адрес электронной почты отдельного лица или организации традиционно используется для идентификации владельца. В коммуникационных ресурсах Сети — онлайновых средствах коммуникации пользователей и системе телеконференций — он нередко оказывается необходимым атрибутом каждого участника. Специальная URL-схема mailto позволяет вставлять в Web-страницу гиперссылку на Е-mail, автоматически открывающую почтового клиента. В этом виде она широко применяется в Паутине. Сами адреса при этом свободно индексируются поисковыми системами и доступны для поиска через поисковые машины общего назначения. AltaVista, например, показывает, что адреса электронной почты встречаются почти на 100 миллионах Web-страниц из 150 миллионов проиндексированных ею документов.

Адреса Е-mail активно накапливаются и в специальных системах поиска людей и организаций, о которых пойдет речь ниже. Серьезное неудобство для поиска по E-mail составляет то, что при получении адреса допускается регистрация пользователя под псевдонимом. Эта практика особенно широко распространена на серверах, предоставляющих бесплатные почтовые ящики.

Почтовые роботы — это специальные программы, способные отвечать определенными действиями на команды, поступающие им по электронной почте. Их основное назначение — пересылка данных по запросу в случае, когда те недоступны иным способом, а также как альтернатива работы в режиме online с каким-либо из известных ресурсов, например ftp-архивами. Адрес почтового робота имеет обычный формат, например mailserv@turbo.nsk.su (файловый сервер Новосибирского узла TURBO). Справка о перечне допустимых команд обычно высылается роботами на адрес пользователя в ответ на сообщение с пустым полем subject и единственным словом help, набранным в теле сообщения с первой позиции. При поиске почтовые роботы обычно используются лишь как посредники при получении информации. Иногда приходится сталкиваться с тем, что они оказываются единственным средством получения нужных сведений.

Глобальная система телеконференций Usenet, региональные и специализированные телеконференции. Система построена по принципу электронных досок объявлений, когда пользователь может разместить свою информацию в одной из тематических групп новостей. Затем эта информация передается пользователям, которые подписаны на данную группу. Полное число групп новостей Usenet превышает 20 тысяч, и сведения о них можно найти, например, на Yahoo. Все они одновременно не поддерживаются ни одним сервером, так что труднее бывает отыскать не название соответствующей группы, а сервер телеконференций, с которого ее можно загрузить. Usenet — ключевое слово именно для глобальной системы телеконференций. Региональные и специализированные системы также имеют распространение. Ресурс наиболее значим для быстрого накопления информации по узкому вопросу, а при поиске — чаще для получения частной, неофициальной информации.

Несколько примеров из практики. Один из референтов получил задание обеспечить «техническую» сторону пребывания делегации российской компании в Лондоне. Стандартный набор сведений, необходимых в этом случае, — транспорт, отель, погода, последние городские новости, а также личные пожелания участников командировки. Большая часть информации была взята с Web-узлов, локализованных с помощью поисковых систем Yahoo и AltaVista. Тем не менее на ряд частных вопросов, таких как рента автомобиля и отдельные маршруты городского транспорта Лондона, ответов в Web-пространстве не существовало. С помощью сервера Deja News (http://wmod.dejanews.com), являющегося Web-шлюзом к системе телеконференций, референт разыскал две британские региональные группы новостей: uk.transport.london и uk.local.london. Благодаря обаянию, вложенному в его просьбу, вся необходимая информация была получена в течение одного дня.

Еще один поисковик столкнулся с проблемами, возникшими у офис-менеджера при конвертировании документов в текстовом процессоре Microsoft Word 97. Автор посоветовал ему обратиться на сервер телеконференций msnews.microsoft.com компании Microsoft и задать при организации подписки поиск русскоязычной группы новостей по ключевому слову «word» в ее названии. Ответ на все вопросы был получен в течение двух дней.

Списки рассылки подразумевают более или менее систематическую рассылку сообщений информации по электронной почте. Если пользователь сам может поместить информацию в список рассылки, то это начинает напоминать систему телеконференции, однако не требует специального клиента. Небольших по охвату адресов узкоспециальных или рекламных списков рассылки в Сети насчитывается огромное количество. Здесь стоит обратить внимание на те, авторитет которых получил международное признание. Внушительная коллекция почтовых списков, (порядка нескольких тысяч), собрана на узле http://www.NeoSoft.com/internet/paml/. Там же присутствуют указатели на другие списки списков. По адресу http://www.relc.com/tech/all/list.html.ru можно найти страницу, содержащую перечень наиболее известных российских списков рассылки. Если не говорить о каких-то специальных интересах, то они необходимы поисковику главным образом для того, чтобы быть в курсе последних событий, происходящих в жизни Интернета. Владение сетевой лексикой по широкому спектру тем и осведомленность о крупнейших проектах, реализуемых в Сети, которые можно почерпнуть из списков рассылки, позволяют более результативно строить поисковые запросы.

Онлайновые средства коммуникации пользователей (chat, ICQ и другие) предполагают возможность обмена информацией между двумя или большим количеством пользователей Сети в режиме реального времени через посредство специального чат-сервера. Частью такого обмена может стать текстовый диалог, передача графики прямо в процессе ее создания, голосовая и видеосвязь, обмен файлами. Долгое время подобные ресурсы крайне редко использовались в решении поисковых задач, однако ситуацию изменило появление в 1996 году нового сервиса этого типа, а именно службы ICQ, известной среди российских пользователей как «Аська» (http://www.icq.com). В отличие от существовавших ранее чатов, где регистрация участников, как правило, носила анонимный характер и действовала лишь на протяжении сеанса связи, разработчики ICQ предложили каждому пользователю регистрационный номер-идентификатор, который сохранялся бы за ним постоянно. Это решение имело грандиозные последствия в области компьютерного общения людей. Уникальный ICQ-номер грозит появиться на визитных карточках рядом с телефоном, адресом электронной почты и домашней страницей1. При поиске людей и организаций можно с успехом использовать поисковую службу ICQ, которая становится доступной сразу после установки ICQ-клиента на компьютер.

Еще несколько слов о чат-серверах. Как правило, некоторый их перечень уже зашит в используемую клиентскую программу, как, например, в программе Microsoft NetMeeting.

В регистрационных списках чатов обычно присутствуют сведения о месте проживания участников, и они редко указываются неверно. Автора этой статьи чат-ресурсы даже в своем анонимном варианте не раз привлекали тем, что позволяли получить информацию из первых рук от представителей конкретного государства, региона и города планеты.

Системы поиска людей и организаций в современной Сети характеризуются двумя важными моментами: большинство этих ресурсов уже перенесено на Web-серверы, и все более широкое присутствие получает в них информация о людях и организациях, которые не имеют прямого или вообще никакого отношения к Интернету. С последним утверждением связаны известные факты появления в Сети телефонных, адресных и других баз данных как отдельных организаций, так и целых регионов. Тем не менее такой чисто сетевой идентификатор пользователя как адрес E-mail остается доминирующим поисковым атрибутом для многих сервисов этого типа. Источником пополнения их баз данных становятся материалы телеконференций, Web-сервера, а также самостоятельная регистрация пользователей. К ним добавляются системы, специализирующиеся на поиске, например, по номеру ICQ (см. выше) или домашних страниц пользователей (служба Ahoy!, URL http://www.cs.washington.edu/research/ahoy/). Наряду c переориентированием сервисов под WWW в Сети продолжает работать одна из самых старых поисковых служб подобного типа — Whois, доступная по протоколу telnet с сервера whois.internic.net после входа по login: whois. Часто возникают попытки выяснить рейтинг поисковых сервисов этого назначения. Так, по результатам исследований журнала PC Magazine (http://www.zdnet.com/pcmag) наибольшей популярностью в Сети среди пользователей Европы и Северной Америки пользуется служба поиска адресов электронной почты Four11 (http://www.four11.com), расположенная в портале Yahoo. Однако практика показывает, что начало поиска именно с нее совершенно не гарантирует успеха. Все эти службы имеют один серьезный недостаток — они не представляют собой единую, кем-либо администрируемую систему, а являются лишь хаотически (с точки зрения стороннего наблюдателя) пополняемым набором информационных узлов. Вследствие этого грамотно спланировать поисковую процедуру и расставить приоритеты в поиске отдельного лица становится крайне сложно. В некоторых случаях намного эффективней прибегнуть к поиску человека по его следам в Сети — публикациям, месту службы и т.п. — с использованием поисковых систем общего назначения.

Базы данных Hytelnet, доступные по протоколу telnet, в ряде случаев представляют собой совершенно уникальную информацию, прежде всего по библиотечным каталогам европейских и американских университетов, а также государственных учреждений. Наиболее внушительный перечень баз данных этого типа, превышающий 1600 единиц можно найти на Web-сервере по адресу http://www.lights.com/hytelnet/. Каждая из них обладает оригинальной системой навигации и поиска, реализуемой через команды, которые вводятся с клавиатуры в алфавитно-цифровом режиме. Пример подобного интерфейса, с которым незнакомо большинство нынешних пользователей Сети, приведен на рис. 2.

Система файловых архивов FTP, системы поиска в FTP-архивах глобального и регионального охвата. Ресурсы этого типа не отступили так безоговорочно под натиском Web-технологий, как большинство остальных. Одна из причин этого — в огромном количестве информации, накопленной в FTP-архивах за десятилетия эксплуатации компьютерных систем, которая по-прежнему ценна для специалистов. Социального заказа на ее перенос в Web-пространство в полном объеме не существует. Другая причина кроется в простоте доступа, навигации и передачи файлов по FTP. Так или иначе, сегодня FTP-ресурсы востребованы и даже характеризуются развитием не только своей единственной глобальной поисковой системы Archie (адрес одного из стабильно доступных Web-шлюзов к ней — http://ftpsearch.ntnu.no), но и региональных систем, в частности российской — http://ftpsearch.city.ru), охватывающей более 2000 серверов.

FTP-архивы — это в первую очередь источники программного обеспечения, успешно конкурирующие с Web-узлами, которые специализируются на продаже и представлении коллекций программ. В отличие от Web-узлов на них гораздо чаще можно столкнуться с нарушением авторских прав в виде пиратских копий программ и отдельных материалов, продаваемых на других узлах за деньги. Как следствие теневых сторон FTP-сервиса — опасность заражения вирусом из непроверенного источника. Поиски какой же информации стоит начинать с поисковой системы FTP? Универсальный ответ прост: поскольку ключевым словом при оформлении запроса является текст, входящий в название файла или каталога на FTP-сервере, то наибольшего успеха можно добиться при поиске информации, которая, будучи оформлена в виде файла, либо уже имеет определенное кем-либо имя, либо существует реальная возможность его угадать. Известных автору случаев делового применения FTP-поиска немало. Один из них следующий. Поисковик, разыскивающий один из американских стандартов ASTM по материаловедению, с помощью поисковой системы HotBot быстро локализовал головной Web-сервер. Там ему удалось выяснить точное название стандарта. Полное описание стандарта предоставлялось за плату, а краткая аннотация — бесплатно. По техническим причинам аннотация на сервере была недоступна. Человек принял решение исследовать FTP-архивы с помощью поисковой системы и использовать алфавитно-цифровую последовательность, кодирующую название материала. Вскоре была найдена версия стандарта, близкая к полной, что исчерпало проблему. Достоверность информации вызвала у поисковика некоторые сомнения, однако была легко установлена специалистами.

Базы данных Gopher и поисковая система Veronica, сканирующая ресурсы Gopher-пространства, на текущий момент перестали играть сколь-нибудь существенную роль в информационном поле Интернета. Тем не менее мать «Гоферов» всего мира — сервер, на котором зарегистрировано большинство gopher-серверов Сети (gopher://gopher2.tc.umn.edu), — остается в рабочем состоянии и по сей день. Выйти на тот или иной gopher-сервер случается и через коллекции ссылок на Web-страницах, и через «бумажные» Желтые Страницы. Как правило, если gopher-сервер еще работает, в одном из файлов на нем указан адрес Web-узла, на который перенесена информация.

Гипертекстовая информационная система World Wide Web (WWW) и ее технологии на сегодняшний день занимают в Сети главенствующую позицию, и значение их продолжает расти. По своей навигационной картине WWW фактически является копией Gopher-ресурсов, но последствия одной мелкой детали мало кто мог предугадать. Эта деталь — использование Web-страницы как легко создаваемого составного объекта, в тело которого монтируются более простые объекты, предназначенные для одновременного отображения. То, что сегодня в списке последних присутствуют текст, гиперссылки, графика, мультимедиа, программный код, диалоговые формы и многое другое, в конечном итоге и предопределило широкое коммерческое использование WWW. Паутина заставила поисковые системы Web-пространства тонко подстроиться под себя и фактически обозначила ключевую тенденцию их развития. Речь идет, с одной стороны, о том, что при индексировании ресурсов все более детальной проработке поисковыми системами подвергаются поля Web-страниц, формируемые контейнерами языка HTML. С другой стороны, интенсивно развиваются те элементы информационно-поисковых языков, которые поддерживают поиск внутри этих полей. Сегодня можно констатировать глубокую интеграцию поисковых систем и ресурсов WWW на базе единой технологии. Кроме того, чудовищный объем информационной базы WWW впервые с особой остротой поставил вопрос о необходимости параллельного существования целого ряда идентичных поисковых сервисов, обслуживающих интересы пользователей.

Каталоги ресурсов — глобальные, локальные, специализированные (в среде WWW) — представляют собой размещаемые в Сети базы данных с адресами ресурсов и самым разным масштабом накопленной информации и охватом тематики. Обычно они имеют иерархическую структуру, перемещаясь по которой можно локализовать нужный объект. Скорость накопления информации такими системами оказывается сравнительно низкой, поскольку в классификации ресурсов предполагается непосредственное участие человека. Для поисковика получение информации о ресурсе из известного каталога всегда является некоторой гарантией достоверности. При решении более или менее стандартной поисковой задачи именно каталог, а не поисковая машина, оказывается стартовой площадкой для начала поиска.

Поисковые машины, или автоматические индексы — глобальные, локальные, специализированные (в среде WWW), — представляют собой мощные информационно-поисковые системы, размещаемые на серверах свободного доступа. Их специальные программы-роботы, или «пауки», в автоматическом режиме непрерывно сканируют информацию Сети на основе заданных алгоритмов, проводя индексацию документов. В последующем на основе созданных индексных баз данных поисковые машины предоставляют пользователю доступ к распределенной на узлах Сети информации. Это реализуется через выполнение поисковых запросов в рамках соответствующего интерфейса. Последние исследования возможностей поисковых машин, даже самых мощных из них, таких как AltaVista или HotBot, показывают, что реальная полнота охвата ресурсов Всемирной паутины отдельной такой системой не превышает 30%. Планирование поисковой процедуры в пространстве WWW является нетривиальным, и его, безусловно, следует рассмотреть отдельно.

Баннерные системы (в среде WWW) предполагают различные варианты размещения специальных объектов — баннеров, обычно небольших графических изображений с рекламной целью на Web-узле, принимающем рекламу. Баннеры отсылают пользователя по гиперссылке на сервер рекламодателя и зачастую могут не иметь вообще никакого отношения к основному содержимому страницы. Баннеры не используются напрямую при проведении поиска, но являются неплохими индикаторами состояния информационного рынка Сети.

Активные информационные каналы (в среде WWW) представляют собой специализированные Web-серверы, предназначенные для поступления данных прямо на рабочее место пользователя. Ресурсы этого типа принято связывать с push-технологией (технология проталкивания информации). Фактически активный Web-канал является информационным источником периодически обновляемых данных. Можно как подписаться на канал, так и остановить подписку, что многим напоминает работу со списками рассылки. Методика поддержки каналов основными на сегодняшний день браузерами Netscape Communicator и Internet Explorer оказывается различной. С информацией каналов после ее обновления можно позднее ознакомиться в автономном режиме. Сама технология не получила ожидаемого широкого распространения и в контексте проблемы поиска не играет заметной роли.

Ресурсы Интернета через призму поисковых сервисов

Среди пользователей Интернета легко выделить две категории. С одной стороны — это разработчики ресурсов в самом широком смысле этого слова: от технического персонала до авторов-журналистов, поставляющих информацию в Сеть. С другой стороны — активные потребители информационного потока. Деятельность по поиску информации становится неотъемлемой надстройкой потребительской сферы.

Стремление разработчиков осмыслить интересы потребителя выглядит более чем естественно. Однако эффективные подходы к решению поисковых задач кроются как раз в обратном проникновении — детальном осмыслении поисковиком интересов, намерений и технических решений, культивируемых разработчиком. В этом смысле при рассмотрении основных типов ресурсов Сети мы стремились упомянуть и те, которые пока привлекательны в большей степени для поставщиков информации. Роль некоторых из них для задач поиска на первый взгляд не кажется существенной, но такое положение может измениться.

История развития Интернет-технологий показывает, что состояние поисковых сервисов, обслуживающих информационный ресурс определенного типа, напрямую связано с фазой его жизненного цикла (см. рис. 3).

Кратко поясним основные элементы схемы жизненного цикла. Каталогизация как оформление и укрупнение коллекций ссылок на ресурсы данного типа следует немедленно за становлением ресурса. Сервис автоматического индексирования начинает обычно формироваться лишь в случае достижения информационной массой ресурса некоторого критического объема. После этого наступает фаза конкуренции идентичных поисковых сервисов — каталогов и индексов, обслуживающих ресурс. Канонизация фактически приостанавливает этот процесс, отдавая пальму первенства одному или нескольким поисковым системам. Заключительная стадия — угасание ресурса — характеризуется активной утечкой информационной массы в поле функционирования ресурсов другого типа вплоть до полного исчезновения.

Попробуем рассмотреть в свете схемы рис. 3 такие информационные системы, как Telnet, FTP, Gopher и WWW. Так, очевидно, что ресурсы WWW переживают в настоящий момент пик жизненного цикла между третьей и четвертой фазами. Поисковые работы в информационном поле ресурса, переживающего период бурного развития автоматических индексов, являются самыми многообещающими и одновременно самыми проблематичными. Архивы FTP находятся в фазе канонизации. Базы данных Gopher и Telnet характеризуются стадией угасания. Тем не менее, какую бы жизненную фазу ни переживал ресурс (и это основной тезис, проводимый автором), он всегда может содержать уникальную информацию и поэтому требует бережного обращения при организации поиска информации в Сети.