PageRank и Google
Было бы неверно думать, что поиск в Интернете всегда начинается так, как описано в первых двух разделах этой главы: сначала в небольшом, но тщательно составленном каталоге обнаруживается хотя бы один сайт по теме, а затем его имя или какие-то слова и фразы, взятые с его страниц, ищутся в большем каталоге, таком, как Open Directory. Не существует единого рецепта поиска. Какие-то темы лучше раскрываются тематическими каталогами, какие-то - индексами. И это на первый взгляд кажется странным, если учесть, что размеры индекса многократно превышают размеры даже такого огромного каталога, как Open Directory. Мы уже знаем, что в Open Directory хранятся описания примерно трех миллионов сайтов, в то время как индекс Google содержит не менее двух миллиардов страниц! А это значит, что поиск любого распространенного слова даст миллионы результатов, и кажется почти невероятным, что среди первых десяти-двадцати будет что-то полезное. Но давайте попробуем найти в индексе слово "art" и посмотрим, каковы будут результаты поиска. Для этого наберем слово art и нажмем кнопку Google Search (поиск в Google). Как видим, слово "art" найдено более чем в пятидесяти миллионах страниц, и кажется чудом, что уже первые несколько сайтов - как раз то, что нам нужно. Названия МоМА | The Museum of Modem Art (Музей современного искусства), The Metropolitan Museum of Art (Музей искусств Metropolitan), Art on the Net (art.net) (Искусство в Сети) говорят сами за себя. Если посмотреть следующие несколько адресов, то почти все они отвечают нашим ожиданиям - это сайты, посвященные искусству вообще. Каким же образом индекс Google выбрал из миллионов страниц несколько подходящих? Ведь слово "art" может встретиться и на сайте, совсем не связанном с искусством! Все дело в том, что Google, решая, какую страницу показать первой, анализирует не только ее текст (в нашем случае - как часто и в каких ее местах встречается слово "Art"), но и сведения, которых на самой странице нет. Google ищет слова и фразы не только в тексте страницы, но и в ссылках на нее. Это, между прочим, значит, что Google покажет в результатах поиска даже такие страницы, где вообще нет заданного слова, - просто потому, что это слово есть в ссылках на страницу! Google придает большое значение ссылкам из-за того, что они делаются с чужих страниц. Свой сайт можно менять как угодно, пытаясь так подстроиться под поисковую систему, чтобы она показала его в числе первых; но чужим сайтом труднее управлять, ведь у него свой хозяин, создающий страницы так, как ему хочется. Ценность ссылки еще и в краткости: те немногие слова, которые умещаются в ней, очень информативны. Наконец, еще одно достоинство ссылки - в том, что она есть. Если на сайт ссылаются - значит, он кому-то нужен. Чем больше ссылок на страницу, тем она популярнее и тем более высокое место займет в результатах поиска. Правда, Google в оценке важности сайта идет гораздо дальше этого примитивного подсчета, учитывая не только количество ссылок, но и их качество. Ссылка с популярного сайта, такого как Open Directory, имеет гораздо больший вес, чем ссылка с малоизвестной страницы Васи Пупкина. Но и это еще не все. Весомость ссылок обратно пропорциональна их числу на странице. Представим себе две страницы с одинаковым весом, но на одной 10 ссылок, а на другой 20. Тогда вес любой из десяти ссылок будет в два раза больше, чем любой из двадцати. Теперь мы в состоянии понять, как оценивается популярность страницы в системе Google. Сначала все страницы индексируются. Затем берется каждая страница, находятся все ссылки на нее, их вклад суммируется - и получается некое число, которое характеризует "важность" страницы и называется рангом страницы (PageRank). Место страницы в результатах поиска определяется значением PageRank и тем, как часто встречаются на странице (или в ссылках на нее) требуемые слова (фразы). То есть индекс Google должен еще анализировать содержимое самой страницы - примерно так, как это делают другие индексы. Убедившись в том, что Google - отличное средство начального поиска, попробуем познакомиться с этой системой подробнее и начнем с кратких сведений о сайте, сообщаемых в ответ на запрос. В кратких сведениях о сайте, можно выделить несколько частей, описания которых приведены ниже.
-
Название страницы или сайта, в нашем случае это The Metropolitan Museum of Art.
-
Фрагменты текста страницы, где есть запрашиваемые слова и фразы (в нашем случае - слово "art", выделенное полужирным шрифтом).
-
Описание (Description) и раздел (Category) страницы в тематическом каталоге Google. О том, что это за каталог, скажем чуть позже.
-
Адрес сайта (в нашем случае - www.metmuseum.org).
-
Размер страницы (у нас - 5 Кбайт, то есть примерно 5 тысяч знаков).
-
Дата последней индексации (указывается только для тех страниц, которые Google считает особенно важными или часто меняющимися). Такие страницы робот Google старается навещать ежедневно.
-
Признак индексации - ссылка Cached (Индексирована) - говорит о том, что страница занесена в базу данных Google. Выбрав эту ссылку, увидим страницу такой, какой она была в момент индексации.
-
Ссылка Similar Pages позволяет (если выбрать ее мышью) найти близкие Но содержанию страницы. Это особенно полезно в начале поиска, когда отыскался один подходящий сайт и хочется найти несколько похожих на него. Здесь возможны разные подходы. Можно искать только что найденный сайт в тематическом каталоге (см. раздел "Open Directory"). А можно выбрать ссылку Similar Pages.
Вокруг первого найденного сайта расширяется, как круги на воде, пространство поиска. Новые сайты, обнаруженные благодаря первому, открывают нам полезные фразы, термины, адреса, служащие материалом для дальнейшего поиска. Но об этом поговорим в следующих главах. А в этом разделе, будет, пожалуй, уместным сказать несколько слов о тематическом каталоге Google. Как мы уже поняли, индекс и тематический каталог дополняют друг друга. Преимущество индекса - в широком охвате страниц, преимущество каталога - в классификации, позволяющей определить основную тему сайта и найти другие сайты, похожие на данный. Поэтому в мире поисковых систем каталоги и индексы притягиваются друг к другу. Индексы стараются использовать содержимое известных каталогов, а каталоги прибегают к помощи индексов, когда в описаниях сайтов не находится требуемое слово (фраза). Например, индекс Altavista (www.av.com) использует один из крупнейших каталогов Looksmart (www.looksmart.com). Другой крупный каталог, Yahoo (www.yahoo.com), пользуется услугами Google, а сам индекс Google "договорился" о сотрудничестве с уже известным нам каталогом Open Directory. Выбирая ссылку Directory на главной странице Google, увидим те же разделы, что и в Open Directory. Правда, содержание разделов смотрится несколько иначе. Попробуем, например, сравнить разделы Arts: Visual Arts: Native and Tribal: Africa в каталогах Open Directory и Google. Если посмотреть внимательно на оба раздела, окажется, что там перечислены одни и те же сайты, но в разном порядке. Например, сайт Art and Life in Africa Project, стоящий в Open Directory на первом месте, оказался в каталоге Google лишь четвертым. Очевидно, алфавитный порядок сайтов в каталоге Google нарушен, и сайты расположены в порядке уменьшения популярности (PageRank). Чем длиннее зеленая полоска, стоящая слева от названия сайта, тем он популярней. Заметим, что сайт National Museum of African Art, который мы искали в Open Directory, Google считает самым непопулярным и ставит на последнее место в своем каталоге. Тут стоит вспомнить, что этот сайт был найден в каталоге Lii.org, хранящем только лучшие, "отборные" сайты. Многие сайты, которые Google считает необычайно популярными, просто не попали в каталог Lii.org, потому что у его создателей совсем другие критерии отбора. Если Google считает "хорошим" сайт, на который больше ссылок с других, тоже "хороших" сайтов, то составители Lii.org оценивают сайт более субъективно, руководствуясь своими впечатлениями, опытом и отзывами коллег. Завершим этот раздел рассказом о нехитром языке запросов Google, хорошо приспособленном именно для начального поиска. Google не различает прописных и строчных букв, система ищет документы, в которых есть все указанные в строке поиска слова. Если указаны два слова - Clinton и Gore, то Google покажет только те документы, где есть оба слова. Если перед каким-то словом поставить знак "минус", то Google найдет только те страницы, где нет помеченного минусом слова, например, Clinton -Lewinsky. Все слова Google понимает буквально. В результате запроса Drum (Барабан) будут найдены документы, где есть слово "drum", но слово "drums" (барабаны) Google не найдет, его придется искать отдельно. Индекс Google способен искать и фразы. Для этого слова, их составляющие, заключаются в кавычки. Поиск фразы означает, что Google отберет документы, где есть все слова в указанном порядке. Если ищется фраза "Bill Clinton", то будут найдены лишь те документы, где за словом "Bill" сразу следует слово "Clinton". Пользуясь Google (да и многими другими индексами), нужно понимать, что поисковая система иначе относится к некоторым распространенным словам, называемым служебными (stopwords). В частности, к таким словам относятся "to", "be", "or" - почти все составляющие фразы "to be or not to be". Правда, внутри фразы Google считает все слова равными. Вот почему нам удался поиск фразы "to be or not to be" в разделе "Google" первой главы. Если же поискать просто слова "to", "be", "or", "not", "to", "be", то окажется, что Google воспримет только слово "not". Все остальные слова будут отброшены, о чем Google честно сообщает, перед тем как показать результаты поиска. Следующая фраза говорит нам, что оператор OR - один из элементов языка запросов Google (слово "or" не было включено в запрос, для поиска одного из слов используйте прописные буквы "OR"): The word "or" was ignored in your query - for search results including one term or another, use capitalized "OR" between words Если нужны документы, где есть хотя бы одно из указанных слов, то запрос будет выглядеть так: purse OR life Очередное сообщение говорит о том, что слова "to", "be" встречаются практически в любом документе, следовательно, искать их (по мнению Google) не имеет смысла (следующие слова слишком часто встречаются и не были включены в запрос): The following words are very common and were not included in your search: to be to be В большинстве случаев это действительно так, но если найти такие слова все же необходимо, есть два пути: искать фразу (например, "to be or not to be") или же поставить перед каждым служебным словом оператор "плюс". Следующий запрос заставляет Google искать все указанные слова: +to +be +or +not +to +be Неудивительно поэтому, что уже среди первых десяти результатов оказывается сайт, посвященный Шекспиру. Удивительно другое: на сайте показана правильная категория каталога: Arts > Literature > World Literature > British > Shakespeare > Works - и это несмотря на то, что система Google "забраковала" почти все слова из запроса. Видимо, при поиске в каталоге Google не делит слова на "обычные" и "служебные" и честно ищет то, что приказано.
|