Поиск сверху
- У вас есть ее приметы?
- И да, и нет. Имеются совершенно различные описания.
Согласно одному, это молодая женщина, согласно другому - старуха.
Что касается ее возраста, он колеблется от двадцати до шестидесяти. Вот и все, что нам известно.
Морис Леблан. Графиня Калиостро
Основная проблема поиска заключается в том, что мы в точности не знаем, что ищем. Ведь точное знание появляется (да и то не всегда), когда документ уже найден и несколько раз прочитан. А когда знания неполны, можно, наряду с нужными, найти и кучу ненужных документов. Особенно это справедливо для Интернета, объем которого удваивается каждые 6-8 месяцев и, по некоторым оценкам, уже превысил 8 миллиардов страниц. И если бы мы располагали только традиционными для бумажных библиотек средствами поиска, такими, как алфавитные и тематические каталоги, Интернет был бы кладбищем книг, лежащим рядом и не доступным никому сокровищем, Вавилонской библиотекой, описанной Борхесом задолго до появления Интернета и компьютерных сетей. Но, как мы уже знаем, в Интернете действуют поисковые системы - неутомимые библиотекари, которые переписывают в свои базы данных тексты всех встреченных страниц и показывают адреса тех страниц, где встретились заданные слова и фразы. Эта фантастическая возможность, однако, только усугубляет проблему, когда мы в точности не знаем, какие слова и фразы искать. Если, например, искать слово "art" в англоязычных документах, надеясь получить общую информацию об искусстве, то стандартный индекс вроде Altavista выдаст миллионы адресов, а ведь нам достаточно нескольких десятков, больше мы прочесть не в состоянии. А еще лучше - всего один документ, но хороший. Но как найти этот документ среди миллионов? Над этим вопросом бьются уже много лет создатели поисковых систем. Попробуем же перечислить и кратко описать все известные подходы.
Сортировка
Поисковая система пытается расставить документы в порядке убывания "важности". Предполагается, что ответ на запрос будет найдет в числе первых нескольких десятков самых "подходящих" документов. Этот способ - исторически самый первый и основан на анализе текста документа. "Хорошим" считается документ, в котором ключевые слова встречаются в заголовке, ближе к началу, в тексте, написанном прописными буквами, и т. д. Способы сортировки - большая тайна, известная узкому кругу программистов, поддерживающих и совершенствующих поисковую систему. Слабое место этого подхода - в том, что появляющиеся первыми страницы можно проанализировать, понять принципы сортировки и разработать страницу, которая алгоритмом сортировки будет помещена в число первых двух-трех десятков. Очень любопытно следить за состязанием программистов и создателей страниц на примере поиска какого-нибудь слова - скажем, "art" в Altavista. На протяжении нескольких месяцев победу одерживает то одна сторона, то другая. Вначале Altavista выдает в ответ на слово "art" довольно сомнительный набор адресов, и в первой десятке оказываются, например, страницы, посвященные web-дизайну и вьетнамскому искусству. Вдруг в один прекрасный момент все это безобразие сметает новый алгоритм сортировки, и на первых местах оказываются солидные сайты, посвященные искусству вообще, виртуальные музеи и сайты крупнейших мировых хранилищ - например, музея Метрополитен. Но постепенно, вытесняя хорошие сайты, в первую десятку снова просачиваются страницы, посвященные граффити, искусству построения Интернет -приложений (на французском языке) и пр. Ясно, что новый алгоритм сортировки все опять поставит на места, и так же ясно, что засорение первой десятки произойдет вновь. В этой борьбе не будет, похоже, победителей, а скорее всего, не будет и самой борьбы, потому что древнейшие способы сортировки заменяются сейчас новыми, гораздо более совершенными.
Оценка по количеству ссылок
Один из новых подходов к оценке "важности" сайта использует поисковая машина Google . Этот крупнейший индекс оценивает важность сайта по количеству ссылок, которые делают на него другие сайты. Причем ссылки имеют разный вес. Ссылки с хорошего сайта ценятся выше, с неизвестного - ниже. В целом этот подход оправдывает ожидания и качество отбора сайтов с помощью Google считается очень высоким. Но, как и любой другой, этот подход не лишен недостатков. Понятно, что Google оценит очень низко новый сайт, потому что на него еще нет ссылок. Кроме того, желание оказаться на первых местах в индексе Google вынуждает создателей страницы размещать ссылки на нее везде, где только возможно. Есть специальные сайты, которые содержат только ссылки на другие сайты, безбрежные поля ссылок, созданных для улучшения места в индексе Google. Правда, вряд ли они получат высокую оценку, и вклад их в рейтинг сайта будет невелик. В целом этот подход очень удачен, и основные поисковые системы (Teoma, Wisenut, AllTheWeb) сейчас тоже используют оценку "важности" сайта по количеству и качеству ссылок на него.
Голосование редакторов
Следующий способ справиться с огромным числом выданных поисковой системой адресов почти так же стар, как и Мировая Паутина (WWW). Если результатов поиска слишком много, то можно искать не во всем Интернете, а в небольшой его части. Число найденных документов при этом уменьшится, и в них легче будет разобраться. Но как обозначить ту часть Интернета, в которой пойдет поиск? Здесь тоже можно выделить несколько подходов. Самый прямолинейный - отобрать сайты вручную, для чего придется нанять специальных редакторов, которые будут их просматривать и решать, включать сайт в число избранных или нет. Если сайт заслуживает внимания, редактору придется отнести его к какой-то определенной теме. Постепенно кропотливым трудом редакторов будет создан каталог сайтов, в котором все они разбиты по темам, а чтобы в списке сайтов легче было ориентироваться, ему следует придать древовидную структуру: отнести каждый сайт к одному (а может, к нескольким) из главных разделов, к определенному подразделу и т. д. Поиск в таком каталоге будет напоминать выбор: на каждом этапе нужно принимать решение, в какой подраздел перейти, а если выбор неудачен, вернуться и попробовать другую дорожку. По такому принципу построены крупнейшие тематические каталоги: Yahoo! (www.yahoo.com), LookSmart (www.looksmart.com), Open Directory (dmoz.org). Все они - сайты немалого размера, в каждом миллионы адресов, каждый позволяет не только "гулять" по разделам каталога, но искать слова и фразы в описаниях сайтов. До определенного момента каталоги прекрасно решали задачу отбора качественных ресурсов. Но пришло время, когда принцип отбора ресурсов редакторами терпит крах по той простой причине, что темпы роста Интернета превышают возможности даже 40 000 редакторов Open Directory2. Отсюда - предложения Yahoo! платить деньги (порядка 300 долларов) за помещение сайта в каталог. Конечно, редакторы не пропустят откровенно плохие сайты, даже если они размещаются за деньги. Но все равно большая часть некоммерческих сайтов при таком подходе не попадет в каталог.
Каталогостроение
Если нельзя рассмотреть все предложенные для включения в каталог сайты, то разумен другой подход: вообще не рассматривать сторонние предложения, а отбирать в каталог только "самые лучшие" сайты. По такому принципу построен каталог Lii.org . Отбором сайтов в каталог ведают квалифицированные библиотекари, и, несмотря на крошечный размер (порядка 10 000 сайтов), а быть может, благодаря ему, каталог пользуется большим авторитетом среди тех, кто занимается поиском профессионально. Другой подход к составлению каталогов демонстрирует система Northern Light. Если редакторы не в состоянии рассмотреть все предложенные сайты, то пусть они составят только перечень всех возможных разделов и укажут правила, позволяющие отнести найденный сайт к тому или иному разделу. Northern Light - один из самых больших индексов в Интернете. И поиск в нем какого-то не очень редкого слова даст миллионы результатов. Раскладывая эти результаты по папкам, Northern Light помогает ищущему уменьшить количество найденных документов, выбрав нужную папку. А в ней документы опять сортируются, и так происходит до тех пор, пока не будет найдено что-то полезное или ищущий поймет, что заблудился, и вынужден будет вернуться назад. Нечто похожее используется в метапоисковой системе SurfWax , где слова и фразы порождают бесконечно ветвящуюся систему понятий (своеобразных разделов каталога), подготовленную экспертами на основе автоматического анализа web-страниц. SurfWax различает общие и частные понятия, и это может быть крайне полезно для первоначального знакомства с предметом. Кроме того, готовые сочетания слов и фразы, выдаваемые SurfWax, очень полезны иностранцам, плохо владеющим английским языком. Еще дальше идет метапоисковая системa Vivisimo , создающая тематические каталоги "на лету". Vivisimo не использует заранее подготовленные экспертами имена разделов каталога. Вместо этого система классифицирует описания найденных сайтов, создает древовидную структуру разделов каталога, куда найденные сайты и помещаются. Как только каталог создан, с ним можно обращаться, как с Open Directory или Lii.org: путешествовать по его разделам, искать слова в описаниях сайтов и т. д.
Соответствие запроса и базы данных
То, что делают Northern Light и Vivisimo, можно назвать сужением области поиска, то есть уменьшением количества обрабатываемых документов. Эта задача возникает перед ищущим очень часто, особенно в начальной стадии поиска, когда знаний предмета практически нет, и приходится использовать какое-то одно слово. В этом случае нужно привести в соответствие запрос и объем базы данных. Детальные запросы нужно делать к большой базе данных. Если размер базы недостаточно велик, поиск закончится ничем. Наоборот, общий запрос хорош только к базе данных небольшого размера; если она велика, то результаты просто погребут под собой ищущего. В сущности, все изложенное выше есть описание методов, позволяющих преодолеть несоответствие между огромным размером базы данных поисковой системы и недостаточно детальным запросом. Самый очевидный способ сгладить это несоответствие - уменьшить размер базы данных. Этой цели служит, например, префикс intitle в Google. Поиск исключительно в заголовках документов не только сокращает в сотни раз размер базы данных, он в значительной мере повышает ее качество и устраняет "шумы", ведь заголовки создаются для того, чтобы в немногих словах отразить суть документа. Но поиск в заголовках должен идти иначе, чем поиск во всей базе данных. Бессмысленно искать там длинные цитаты, редкие или специальные слова. Гораздо больше шансов найти в заголовке такие слова, как "art", "search", "africa". Выбрав базу данных или какое-то ее подмножество, необходимо экспериментально подобрать запрос так, чтобы его специфичность соответствовала размеру базы данных. Начать следует с самых общих слов и постепенно усложнять запрос, пока в числе первых не покажутся нужные документы. Каждую базу данных и любое ее подмножество необходимо чувствовать, то есть на основании опыта понимать, какие вопросы можно задавать, а какие - нет. Другой разумный способ уменьшить размер базы данных - выбрать специализированную поисковую систему, которая ищет только определенного рода документы, например, научные отчеты по компьютерным вычислениям: Существует огромное количество специализированных баз данных - по медицине, спорту, истории, науке и т. д. Для поиска таких баз данных есть специальные поисковые системы, например, превосходный сайт CompletePlanet, или сайт InvisibleWeb (www.invisibleweb.com)1. Если пользоваться специализированной базой данных, то поиск становится двухступенчатым: сначала ищется подходящая база данных, затем в ней - подходящие документы. На самом деле поиск идет в несколько этапов и в нескольких направлениях. Он похож на поиск рыбы в океане. Никто не знает, есть ли она там и сколько ее. Корабль бороздит поверхность в разных направлениях, и то, что он поймает, зависит от размера и величины ячеек его сети. В этом разделе описан поиск сверху, то есть поиск с постепенным накоплением знаний. В следующем разделе будет рассказано о том, какую выгоду можно извлечь из этих знаний, как ими распорядиться.