"Гамлет" и Google
Как уже говорилось, Google - универсальная поисковая система, и в предыдущей главе мы задавали ей простые вопросы только потому, что не были способны задать более сложные. В этой главе наши вопросы будут сложнее, а задачи - конкретнее. Пусть нам понадобился текст шекспировского "Гамлета". Чтобы найти его, можно, конечно, искать сайты, посвященные Шекспиру, а там - ссылки на тексты его пьес, а среди этих ссылок - нужную нам. Но можно поискать в большом индексе, таком, как Google, одну длинную цитату из "Гамлета". Логика здесь такова: длинная цитата может быть найдена в тексте пьесы или в тексте какого-то исследования, посвященного Шекспиру: но чем длиннее и случайнее цитата, тем больше вероятность найти ее в тексте пьесы и тем меньше - где-то еще. Итак, беру с полки книгу "Hamlet Prince of Denmark", открываю ее на первой попавшейся странице, нахожу фразу "And what's untimely done: so, haply, slander", ввожу в соответствующее поле, обрамляю кавычками, нажимаю кнопку Google Search - и уже первая найденная страница, похоже, содержит нужный текст. Ее заголовок Hamlet говорит, скорее всего, о том, что перед нами - отрывок из пьесы (фрагмент четвертого действия), а путь к ней содержит слова "Shakespeare" (значит, на сайте есть раздел, посвященный Шекспиру) и "Ham" (сокращенное "Hamlet"). На основании этого можно предположить, что первая найденная Google страница - отрывок из пьесы. Чтобы проверить эту гипотезу, достаточно выбрать ссылку Hamlet, и через несколько секунд в окне браузера появится начало четвертого действия. Но как отыскать начало пьесы? Самый простой способ - подвести указатель мыши к полю Адрес и нажать левую кнопку, чтобы его выделить. Далее нажимаем клавишу -"", чтобы выделение исчезло, и с помощью клавиши Backspace или Del стираем в адресе имя страницы Ham41.html. Остается вот что: http://www.engi.uvi с.ca/Faculty/MBHomePage/ISShakespeare/Ham/ Нажимаем теперь клавишу Enter, и в окне браузера появляется оглавление пьесы. Итак, по отрывку из пьесы нам удалось найти саму пьесу и даже больше, ведь слово "ISShakespeare", встретившееся в пути к найденному документу, говорит о том, что на сайте, скорее всего, есть и другие произведения Шекспира. Конечно, таким способом можно искать любые документы - нужно только, чтобы фраза (или набор слов) были достаточно характерными. И фраза "And what's untimely done: so, haply, slander", содержащая устаревшее слово "haply" (возможно), едва ли может встретиться где-нибудь вне "Гамлета". Прежде чем переходить к следующим примерам, стоит еще раз взглянуть, где в отрывке первой найденной страницы выделена полужирным шрифтом фраза: "And what's untimely done. [So, haply slander,]", немного отличающаяся от той, которую мы искали. В ней иначе расставлены знаки препинания и есть пара квадратных скобок, которых не было в моем экземпляре пьесы. Все дело в том, что поисковая система, как правило, не обращает внимания на знаки препинания: точки, запятые, скобки, - считая эти элементы фразы нехарактерными для нее. Вспомогательные символы (вроде точек и запятых) выкидываются из фразы еще во время индексации, а перед поиском в индексе заданные слова и фразы сначала очищаются от этих символов. Приступая к поиску, полезно знать, какие символы система игнорирует, а какие - нет. Для этого можно провести маленький эксперимент: найти какое-то редкое слово, а потом ставить перед ним (без пробела) все служебные символы подряд и смотреть, меняются ли результаты поиска. Эксперимент показывает, что Google замечает только три символа - &, _ и -. Поиск документа по характерным фрагментам (например, цитате или просто названию) может быть очень полезен, ведь рядом с интересным документом, вероятно, найдутся и другие, еще более интересные. Но как быть, если нет ни названия, ни цитаты? Как, например, отыскать текст "Гамлета", не имея под рукой соответствующей книжки? В этом случае можно догадаться, как выглядит нужный документ и какие слова содержит. Начнем с очень простой догадки: в заголовке документа, содержащего текст пьесы, должно, видимо, быть слово "Hamlet". Для поиска в заголовках предусмотрен специальный оператор intitle:, и соответствующий запрос будет выглядеть как intitle:hamlet. Из двух сайтов, уместившихся на рисунке, первый выглядит, безусловно, лучше - и совсем не потому, что система Google поставила его выше в результатах поиска. Просто слова "Entire play in one page" ("Вся пьеса на одной странице") и путь к документу, содержащий слова "Shakespeare" и "hamlet", убеждают нас в том, что полный текст пьесы находится где-то рядом. И действительно, посмотрев страницу, видим на ней ссылку Entire Play, которая ведет к документу под названием full.html, содержащему нужный текст. Чем же плох второй документ? Ведь его размер (101 Кбайт) и название (hamlet.htm), казалось бы, говорят о том, что это текст пьесы? На самом деле это не пьеса, а учебное пособие по "Гамлету". В поле Description читаем: Ed Friedlander, MD provides scene summaries and tips for reading Shakespeare (краткий пересказ сцен и комментарии Эда Фридландера). Этот документ, возможно, и хорош, но он просто не отвечает нашей цели. То, что выбранная Google из более чем двухсот тысяч подобных страница, содержащая в заголовке слово "Hamlet", оказалась текстом пьесы, можно считать большой удачей. В реальности поиск может идти совсем не так гладко. Предположим, что нами избран другой путь - на первый взгляд, очень логичный. Будем искать документы с названиями hamlet.htm. Разумно предположить, что документ, содержащий текст пьесы, называется именно так. Для поиска документов, в чьих адресах есть нужный фрагмент, система Google располагает префиксом inurl, и по запросу i nurl: haml et. htm ищутся страницы, адреса которых содержат фрагмент "hamlet.htm". Введя этот запрос и нажав кнопку Google Search, получим всего 1400 результатов, что несравнимо меньше предыдущих 220 000. Но вот беда: среди первых десяти, по всей видимости, нет текста пьесы. Значит, на этот раз нам не повезло, и нужно как-то изменить запрос. Проще всего попробовать искать страницы с названием не hamlet.htm, а hamlet.html. Этот поиск прошел удачнее, и если не второй, то третий документ - как раз то, что нужно. В его пользу говорят и название hamlet.html, и слова "Shakespeare", "tragedies", "texts" в пути к нему. Обратите внимание: раз на сайте есть папка tragedies, то, возможно, там будут и другие разделы, где хранятся тексты комедий. А в самой папке tragedies (трагедии), наверное, есть не только "Гамлет", но и "Макбет", и "Король Лир". В начале этого раздела мы говорили о том, что текст "Гамлета" можно было бы искать на сайтах, посвященных Шекспиру. Но чтобы узнать адреса, не обязательно обращаться к такой системе, как Теоmа, - часто помогает простая догадка. Например, в адресе сайта, посвященного Шекспиру, есть, скорее всего, слово "shakespeare", а сам адрес может выглядеть так: www.shakespeare.com. Направив браузер по только что придуманному адресу, убеждаемся в своей правоте: такой сайт действительно есть, и он посвящен Шекспиру. Но есть ли там текст "Гамлета"? Чтобы ответить на поставленный вопрос, не нужно блуждать по сайту. Достаточно поискать там слово "Hamlet". Для этого в языке запросов Google есть специальный префикс site, инициирующий поиск только в пределах заданного сайта. В нашем случае запрос будет таким: site:www.Shakespeare.com hamlet Первые результаты поиска показывают, что нужный текст на сайте есть. Действительно, под подозрение подпадает уже первая страница, потому что в пути к ней есть папка HAMLET, а называется страница "The First Web Folio Edition of Shakespeare's Works" ("Первое web-издание работ Шекспира"). Все сомнения рассеивает четвертая ссылка: HAMLET 2.2 - вторая сцена второго действия пьесы. Остается только выбрать ее - и текст перед нами. В этом разделе практически любой запрос к Google выводил нас на текст "Гамлета". Происходило это прежде всего потому, что в Сети огромное число сайтов, посвященных Шекспиру, и куда ни сунься, всюду оказывается "Гамлет". Поиск чего-то более редкого (или, наоборот, очень распространенного) может проходить далеко не так гладко. Но отчаиваться при первых неудачах не стоит. Лучше отключиться эт Сети и спокойно подумать, как еще можно спросить поисковую систему. Нужно повторять попытки вновь и вновь. "А в награду счастливая минута, когда приходит нежданная удача, - зевнула собака, и муха в рот влетела".
|