Язык запросов
В разделе "Яндекс" мы искали слова "телеработа" и "программирование" во всех web-страничках, хранимых индексом Яндекс (будем впредь говорить просто "индекс" вместо "автоматический индекс") в своей базе банных. Чтобы понять, насколько эта возможность замечательна и фантастична, вспомним, как приходится искать книги в обычной библиотеке. Читателю традиционной библиотеки доступны два каталога - алфавитный и систематический. В алфавитном каталоге можно искать книги по фамилиям авторов или по названиям. То есть найти в нем можно лишь то, что уже известно из каких-то других источников, например, из списка цитируемой литературы в книге или статье. Тематический каталог похож на каталог ресурсов в Интернете (List.ru, например). В нем книги расставлены по темам, согласно принятой у библиотекарей классификации. И в тематическом, и в алфавитном каталоге нам доступна только библиотечная карточка, где указываются авторы книги, ее название и дается краткая аннотация. Можно представить себе, что Интернет - огромных размеров библиотека, у которой нет единого каталога. Библиотеку никто не охраняет, в ней десятки миллионов книг, валяющихся где попало. Хозяева книг переставляют их с полки на полку, вырывают из них страницы или вставляют новые. Иногда книга полностью переписывается, иногда хозяин забирает ее с собой и больше не возвращает. Часто он забывает о книге, и она валяется где-то в углу, никому не нужная. Иногда в библиотеке появляются люди, которые пытаются навести в ней порядок. Они ходят вдоль бесконечных полок, просматривают книги и заносят сведения о них в тематический каталог (List.ru, например). Некоторые группы библиотекарей считают, что кратких сведений о книгах в тематическом каталоге недостаточно; они берут с полок книги, одну за другой, и переписывают каждую в специальный индекс. Примерно так составляются каталоги в Интернете, но библиотекари здесь быстры и неутомимы, работают круглые сутки, не болеют и в отпуск не ходят - это, как мы уже говорили, специальные программы-роботы, которые навещают каждый сайт и переписывают его содержимое в специальную базу данных - индекс (например, Яндекс). В индексе можно искать не только названия, но и любое слово. Причем не нужно перебирать бумажные карточки, нужно только набрать слово в поле поиска, а всю остальную огромную работу выполнит специальная программа. Это революционное новшество преображает поиск информации, делает его в сотни и тысячи раз быстрее и эффективнее, но при одном условии: нужно очень точно формулировать запрос. Вспомним, что слова "телеработа" и "программирование" Яндекс нашел в 555 документах. Просмотреть такое количество страничек вряд ли возможно - и, если среди первых нескольких десятков не найдется ничего подходящего, придется уточнить запрос. Вот для этого почти в любой поисковой системе есть язык запросов, то есть правила, позволяющие искать несколько слов и целые фразы. Собственно, языком запросов мы уже пользовались, когда искали в Яндексе слова "телеработа" и "программирование". Ведь Яндекс покажет в этом случае только те документы, где заданные слова встречаются в пределах одного предложения. Чтобы искать документы, где есть оба слова, но расположенные где угодно, запрос должен быть таким: . телеработа && программирование По этому запросу будут найдены все документы, где есть оба слова, представленные любой грамматической формой (например, "телеработе" и "программированию"), при этом Яндекс никак не учитывает порядок следования заданных слов. В одних документах слово "программирование" встретится после слова "телеработа", в других - до. Чтобы зафиксировать порядок слов, можно искать фразы, то есть последовательности слов, идущих друг за другом. Слова, составляющие фразу, заключаются в кавычки. Например, по следующему запросу будут найдены только те документы, где за словом "телеработа" сразу идет слово "программирование": "телеработа программирование" Попробуем теперь путем поиска фраз найти текст романа М. Ю. Лермонтова "Герой нашего времени". Для этого можно поискать в Яндексе фразу "герой нашего времени". Нужно, правда, понимать, что Яндекс наряду с названием романа найдет и массу других фраз - "герои нашего времени", "героями нашего времени" и т. д. К счастью, количество таких комбинаций не очень велико, и есть шанс, что среди первых выданных системой Яндекс страниц окажется текст романа. Попробуем же отыскать фразу "герой нашего времени" в Яндексе, для чего наберем ее в поле поиска и заключим в кавычки. Результаты поиска - 23 165 документов на 465 сайтах - не очень обнадеживают. Дело в том, что фраза "герой нашего времени" давно уже стала крылатой и часто используется безо всякой связи с Лермонтовым. Среди первых десяти найденных документов есть ссылка на книгу Владимира Маканина "Андеграунд, или Герой нашего времени", какие-то рассказы о современной московской жизни и даже статья о культуре секса. Если романа не видно среди первых десяти документов, разумно просмотреть следующие десять. Для этого нужно прокрутить страницу с результатами поиска вниз и выбрать ссылку Еще". И вот во втором десятке web-страниц наше внимание привлекает документ под номером 13. Привлекает прежде всего названием "Интернет-библиотека" - похоже, это сайт, где хранятся некие тексты. Догадку подтверждает и доменное имя сайта http://www.ilibrary.ru, ведь ilibrary - это, скорее всего, сокращение английской фразы "Internet Library" (библиотека в Интернете). Далее слово "начало", показанное системой Яндекс, наводит на мысль, что текст довольно большой, вряд ли это слово встретится в коротком рассказе. Наконец, ссылка Русская проза, показанная в конце сведений о найденном документе, говорит о том, что текст старый, дореволюционный, а значит, мы на верном пути. Но доказать свою правоту можно только одним способом -выбрать ссылку Интернет-библиотека и посмотреть, что там хранится. А там- предисловие к роману и ссылки на первые его главы: Бэла, Максим Максимыч, Журнал Печорина. Прежде чем переходить к следующему разделу, заметим, что сайт http://www.ilibrary.ru, на котором нашелся текст романа Лермонтова, хранит тексты и других писателей-классиков (Гоголя, Достоевского, Пушкина). То есть мы нашли не только текст романа, но и целую библиотеку. Чтобы запомнить ее адрес, можно сделать закладку в браузере, для чего нажимается комбинация клавиш ALt+B и выбирается нужная папка. |