Обзор 6 поисковых механизмов для Web
PC Magazine/RE logo
©СК Пресс 3S/96
PC Magazine, July 1996, p. 39

Как найти иголку в стоге "Всемирной паутины"

Джон Клаймен


Сеть World Wide Web растет с головокружительной скоростью - как по широте охвата, так и объему хранящейся информации, и поиск в ней нужных материалов может показаться кошмаром. Лежащий в основе Web принцип децентрализации придает ей известную привлекательность, но одновременно вызывает ощущение хаоса.

Наиболее предприимчивые компании быстро отреагировали на требования дня и выпустили целый спектр средств, - поисковых механизмов, которые не дадут вам заблудиться в лабиритнах Web. Многие из этих поисковых механизмов прочно обосновались среди наиболее известных узлов Web и образрвали настоящие центры обмена информацией, которые поставлят последние новости и выполнят такие обычные функции, как доступ к аннотациям материалов, находящихся на "холодных" серверах, и обзорам редакционных статей независимых изданий.

Мы рассмотрели наиболее популярные поисковые механизмы и ряд менее известных, но заслуживающих внимания узлов с тем, чтобы выяснить, какие из них стоит отметить специальной "закладкой" в вашем браузере. Все рассмотренные нами узлы предоставляют хранящуюся на них информацию бесплатно. Дополнительные сведения можно также получить, обратившись к узлу InternetUser журнала PC Magazine по адресу http://www.pcmag.com/IU.

AltaVista

AltaVista (http://www.altavista.digital.com) фирмы Digital Equipment Corp. представляет собой самую функционально богатую и мощную на сегодняшний день программу для Web, осуществляющую поиск по всему тексту. В ходе наших тестов она часто отыскивала в пять, а то и в десять раз больше материалов на заданную тему, чем ее ближайший конкурент. И несмотря на ее временами чрезмерное "усердие" и избыточность, в целом программа отличается замечательная точностью.

Чтобы воспользоваться функцией Simple Search (Простой поиск), предусмотренной в AltaVista по умолчанию, достаточно лишь набрать слова, по которым вы осуществляете поиск, и нажать кнопку Submit. Поскольку AltaVista часто отыскивает сотни или тысячи соответствующих документов, вам понадобится также ознакомиться с функцией Advanced Search. При этом вы можете использовать логические операторы (AND, OR и NOT), задавать интервал между ключевыми словами, выполнять поиск с учетом регистра, ограничивать поиск Web-страницами с заданным интервалом дат, использовать трафаретные символы как в конце строки поиска, так и внутри слова, ограничивать область поиска конкретными элементами, такими, как связи. Можно, кроме того, предписать AltaVista отдавать предпочтение документам, содержащим определенные слова.

В отличие от многих поисковых механизмов в AltaVista не предусмотрена приорететная или иерархическа организация пересмотра узлов, но если вы разыскиваете Web-страницу (либо дискуссионную группу в системе Usenet) с конкретным текстом, то лучшего средства поиска не найти.

Excite

Одна из первых поисковых программ - Excite (http://www.excite.com) - представляет собой средство поиска по полному тексту, но она, по-видимому, перестает выдерживать конкуренцию. В ходе наших испытаний Excite обычно отыскивала меньше узлов, нежели другие поисковые механизмы. К тому же многие особенности этой программы существенно умаляют ее достоинства.

Так, например, открывая экран поиска, приходитс решать, вести ли поиск по ключевому слову ("by keyword") или по смыслу ("by concept"). Однако эти способы обычно дают одинаковые результаты. К тому же Excite не позволяет изменять исходный запрос в зависимости от результата поиска и повторить его вновь; вместо этого вы вынуждены вначале щелкнуть на кнопке Refine Search. По умолчанию программа ранжирует результаты поиска по степени достоверности, вырабатыва соответствующие оценки от 0 до 100%. Однако мы установили, что такая классификация является плохим показателем реального соответствия и качества информации.

Тем не менее нам понравилась предусмотренная в Excite функция Query-by-example (запрос по примеру), которая аналогична ссылке программы InfoSeek Similar pages (подобные страницы). Как и конкуренты, Excite предоставляет обзоры узлов Web и информационные выпуски агентства Рейтер плюс комиксы и колонки юмора.

Хотя Excite уже не вызывает прежнего энтузиазма, она тем не менее поставляет разнообразную информацию и новости, а ее функция Query-by-example может оказатьс очень полезной.

InfoSeek

InfoSeek Guide (http://guide.infoseek.com) - это бесплатная поисковая услуга, предоставляемая фирмой InfoSeek Corp. Последняя, кроме того, оргонизовала и платную службу InfoSeek Professoinal, охватывающа периодические деловые издания и новости телеграфных информационных агентств, а также Web-страницы, дискуссии Usenet и источники информации. Подобно Excite и Lycos программа InfoSeek помимо поисков по полному тексту Web-страниц предоставляет обзоры по узлам в соответствии с категориями последних.

В ходе тестирования программа InfoSeek, как правило, находила те узлы, где имелась отыскиваемая нами информация, хотя предоставляемые материалы не шли ни в какое сравнение с исчерпывающими данными, которые выдает AltaVista. Если щелчкнуть клавишей мыши на ссылке Similar pages, то InfoSeek станет отыскивать страницы, близкие по содержанию выбранной вами странице, не требуя от вас никаких уточнений запроса на поиск. Это свойство особенно полезно, если смысл отыскиваемого вами слова зависит от контекста.

Кроме того, в процессе поиска InfoSeek часто предоставляет ссылки на материалы, воспринимаемые ею как близкие к указанным в запросе; после щелчка на одной из таких ссылок происходит переход в соответствующие разделы предоставляемых программой обзоров узлов, аналогичных выдаваемым программой Yahoo!, но менее пространных. Случается, тем не менее, что перечень близких материалов оказывается ненадежным; когда мы вели поиск по известной марке пива, InfoSeek предложила нам "прикладные программы Macintosh Webhelper".

InfoSeek предусматривает работу с логическими операторами, поиски с учетом регистра и по законченным фразам, а также позволяет задавать должны ли слова, образующие пару, соседствовать непосредственно или через некоторый интервал (последний может составлять до 100 слов).

В целом InfoSeek представляет собой полноценный, полезный и функционально развитый поисковый механизм для средств Web, хотя функция поиска по родственным темам порой способна ввести в заблуждение.

Lycos

Как и в InfoSeek, в программе Lycos (http://www.lycos.com) объединены возможности поиска по полному тексту, реализуемые функцией Lycos Catalog, и метод на основе пары поисковых указателей узлов Web в стиле программы Yahoo!. К сожалению, ни метод указателей (каталог A2Z Directory в программе Lycos), ни метод предусматриваемого функцией Point так называемого 5%-ного списка узлов Web (Top 5 Percent of All Web Sites), не отличаются особой широтой охвата, и результаты тестов быстро убедили нас, что Yahoo! - гораздо более эффективное средство поиска.

В то же время, функция Lycos Catalog следует признать достаточно эффективной. С помощью программы Lycos нам неизменно удавалось отыскать больше нужных страниц Web, чем с помощью Excite и InfoSeek, хот Lycos безусловно теряет в сравнении с AltaVista. Lycos выделяет ключевые слова выдаваемых материлах,, что позволяет сразу же выяснить, используются ли эти слова в нужном вам контексте. Программа устанавливает "родовую принадлежность" вводимых вами слов и поэтому если поиск происходит по слову food (пища), то выявляются также страницы со словом foods (продукты питания).

Между тем, копнув поглубже, вы быстро обнаружите свойственные программе Lycos ограничения. Дать команду об исключении страниц с определенным ключевым словом можно, но нельзя потребовать, чтобы то или иное ключевое слово имелось. Нельзя добиться и соответстви целых фраз. Как следствие, поиски могут иногда дать совершенно неудовлетворительные результаты. И хот Lycos допускает использование трафаретных символов, приходится вместо почти универсальной звездочки ставить символ "$". Не предусматрен поиск по выражениям, содержащим знаки булевых операций.

В целом Lycos представляет собой мощный поисковый механизм, однако действия средств поиска едва ли можно признать интуитивно понятными.

WebCrawler

WebCrawler (http://webcrawler.com) принадлежит службе Global Network Navigator фирмы America Online и представляет собой работоспособный, хотя едва ли сколько-нибудь исключительный поисковый механизм дл Web. В ходе проведенного нами тестирования число отождествлений оказалось относительно небольшим по сравнению с другими механизмами. Хотя в WebCrawler предусмотрена функция GNNselect, осуществляющая обзор узлов Web, поиск по этим обзорам в отличие от Lycos не предусмотрен.

К достоинствам WebCrawler следует отнести лаконичный и простой пользовательский интерфейс, который компенсирует изощренность поисковых средств. Система работает с логическими операторами, кавычками (дл обозначения последовательности слов, требующих точного отождествления) и операторами смежности (adjacent) и близости (near). Однако не располагая списком узлов как основой для поиска, WebCrawler оказывается менее эффективным инструментом по сравнению с рядом других.

Yahoo!

Первая и, пожалуй, наиболее известная среди поисковых механизмов, программа Yahoo! (http://www.yahoo.com) формально представляет собой вовсе и не поисковый механизм, а предметный указатель поиска. Хотя в большинстве поисковых механизмов используются автоматизированные агенты, называемые спайдерами (spiders) и предназначенные для отслеживани любой гиперссылки на странице, и средства, которые автоматически индексируют отдельное конкретное слово на этой странице, Yahoo! исходит из того, что просмотр узлов, аннотирование их содержимого и размещение его в соответствующих разделах предусматриваемой ее иерархической классификационной структуры реально осуществляется людьми.

Наглядной иллюстрацией такого подхода служит узел ZD Net, принадлежащий Ziff-Davis Publishing - материнской компании журнала PC Magazine. Узел указан под рубриками Business and Economy (Бизнес и экономика), Companies (компании), Publishing (Издательское дело), ZD Net и Ziff-Davis Pulishing. Узел Yahoo! содержит ссылки на обзоры узлов, опубликованные Yahoo! Internet Life - совместным предприятием Yahoo! и Ziff-Davis.

Обращаясь к Yahoo!, вы можете либо внимательно проштудировать рубрики, либо поискать термины, фигурирующие или в названии рубрики, или в аннотации узла. Yahoo! почти не предоставляет возможности контроля над деталями поиска, но это обычно не создает затруднений, так как продуманная организация узлов приводит к чрезвычайно точным результатам.

Поскольку результаты поисков представлены по рубрикам, местоположение сходных узлов легко установить просто щелчком на названиях соответствующих рубрик. В Yahoo! предусмотренно выделение наиболее соответсвующих названию каждой рубрики узлов пиктограммой солнцезащитных очков и предпочтительным размещением в списке результатов поиска.

Недостаток принятого в Yahoo! подхода, основанного на ручной каталогизации Web, заключается в том, что сделанный выбор по своей глубине и широте совершенно несопоставим с тем, что дает AltaVista. Кроме того, Yahoo! не позволяет выполнять поиск по полному тексту в отношении конкретных слов на странице - эти слова должны фигурировать в наименовании рубрики или аннотации узла. Указанный недостаток Yahoo! особенно проявляет себя в случаях, когда приходится отыскивать собственные имена, например, фабричные марки изделий. И хотя в Yahoo! предусмотрено использование результатов поиска по полному тексту, осуществляемого отдельным поисковым механизмом Open Text, мы тем не менее пришли к выводу, что это плохая замена специализированному средству поиска по полному тексту.

Помимо индексации узлов Web программа Yahoo! выполняет поиск по адресам электронной почты, и конференциям Usenet, предоставляет информацию агентства Рейтер, ежедневные и еженедельные сводки содержимого малоактивных узлов Web и указатели важнейших новых поступлений. Для юных любителей "киберсерфинга" Yahoo! отводит отдельный узел Web - Yahooligans (http://www.yahooligans.com), который уделяет особое внимание детям и отсеивает неподходящие материалы.

Разработчики Yahoo! пожертовали передовыми средствами управления поиском в пользу индексации узлов, выбираемых "вручную", что позволяет получать актуальные и информативные результат.