Контакти;

Все для мобілки: Мобільні новини; Каталог WAP-ресурсів; Розповіді про мобілки; Різне.

 
Все для компьютера: Жосткі диски; Процесори; Графіка; Принтери; Системні плати; Інтернет; Різне.
 
Україна: Нам пора для України жити! Вірші Констянтина Гайя; Ностальгія за минулим; Політика;

Основні розділи:

Конгрес Українських Націоналістів Rambler's Top100
Рейтинг@Mail.ru Украина онлайн

© Лихач М.В. sem@shynok.com.ua 2004рік

Яндекс

Чтобы отчетливей представлять себе страницы и сайты, с которыми мы познакомились в предыдущем разделе, посмотрим, как работает поисковая система Яндекс (www.yandex.ru), и попробуем найти те же, что в каталоге List.ru, слова - "телеработа" и "программирование". Итак, соединимся с Яндексом, наберем в поле Я ищу, запрос телеработа программирование и нажмем кнопку найти справа. Через некоторое время в окне браузера появятся результаты поиска. Завершает список первых десяти документов общее число найденных страниц и серверов (так Яндекс называет сайты). Яндекс нашел 555 страниц и 136 серверов, причем страницы, найденные на одном сервере, собраны в одном месте. Их список можно получить, выбрав ссылку Еще с сервера. Теперь стоит внимательнее посмотреть на web-страницу, показанную в результатах поиска. Ее заголовок, Kаталог@MAIL.RU: Работа и заработок: Дистанционная работа: Телеработа, позволяет предположить, что это раздел Телеработа уже известного нам каталога List.ru. Смущает, правда, другой адрес страницы - ip224.port.ru/catalog/11506.html - поэтому выберем ссылку на нее (например, слово "Каталог" правее цифры 10), после чего Яндекс покажет эту страницу в другом окне браузера. Как видим, это действительно раздел каталога List.ru. Прежде всего, заметим, что слова Каталог@МАIL.RU: Работа и заработок... Яндекс взял из заголовка страницы. Следующие слова в результатах поиска "Аналитические материалы по телеработе" находятся уже на самой странице. На той же странице есть и такая фраза (они не уместились на рисунке): "Тема телеработы представлена статьями по оффшорному программированию". Почему же Яндекс включил в описание найденной страницы именно эти фрагменты? Потому, очевидно, что в них есть слова, которые мы ищем: "телеработа" и "программирование". Эти слова Яндекс выделяет полужирным шрифтом. Дойдя до этого места, внимательный читатель обязательно заметит огромную разницу между системой Яндекс и каталогом List.ru. Ведь List.ru, как мы помним из раздела "Окно в Интернет", содержит только адреса и краткие описания сайтов. В то же время Яндекс, похоже, хранит содержимое всех известных ему сайтов, иначе как он может показать те места на странице, где встречаются указанные нами слова "телеработа" и "программирование"? И действительно, Яндекс - поисковая система совершенно другого типа, так называемый автоматический индекс. Автоматический индекс навещает все известные ему сайты, переписывает тексты всех доступных страничек и хранит эти тексты вместе с их адресами в своей базе данных. Обращаясь к Яндексу, мы ищем слова "телеработа" и "программирование" во всех текстах страничек, которые есть в базе данных этого индекса. Обращаясь к List.ru, мы ищем заданные слова в описаниях сайтов, которые хранит каталог. Ясно, что описания содержат гораздо меньше информации, чем сами сайты, - так зачем же тогда вообще нужны тематические каталоги вроде List.ru? Если Яндекс содержит гораздо больше информации, так давайте будем пользоваться только системой Яндекс и забудем про List.ru! Чтобы понять, почему делать этого не стоит, попробуем разобраться в том, как формируются базы данных Яндекс и List.ru. Яндекс, как и любой автоматический индекс, навещает все известные ему сайты и переписывает все встреченные тексты страничек в свою базу данных. Кроме того, посетив сайт, Яндекс запоминает все ссылки на другие страницы и сайты, а позже, когда выпадет свободное время, навещает эти сайты и также переписывает их в свою базу. Ясно, что через какое-то время в базе данных Яндекса окажутся все русскоязычные сайты (в Интернете есть сайты на разных языках; Яндекс - это местная поисковая система, которая интересуется документами на русском языке). Как и любой автоматический индекс, Яндекс состоит из двух половинок. Первая - это сама база данных и программа поиска нужного слова. Набирая в соответствующем поле запрос телеработа программирование и нажимая кнопку найти, мы взаимодействуем именно с этой частью Яндекса. Вторую часть называют поразному: пауком (spider), роботом (robot), червем (worm); она ищет новые сайты и переписывает их содержимое в базу данных. Когда какой-нибудь сайт или страничка оказываются в базе данных, говорят, что они проиндексированы. Автоматический индекс, как гигантский пылесос, засасывает все, что встретит на своем пути. В то же время каталог ресурсов, такой как List.ru, гораздо более разборчив. В него попадают только те сайты, которые посмотрел и одобрил редактор - специальный сотрудник, занимающийся их поиском и оценкой. Чтобы понять, почему предварительный просмотр сайта может быть полезен, нужно знать, что Интернетом никто не управляет, здесь нет цензуры, и за содержание сайта в подавляющем большинстве случаев отвечает только его хозяин. Значит, никакой гарантии, что данный сайт соответствует своему названию, нет. И тем более нет гарантий, что документы, помещенные на сайт, содержат полезные, правдивые сведения. Яндекс индексирует все сайты подряд, поэтому в его базу данных попадают, наряду с точными и правдивыми сведениями, горы словесного мусора. Вместе с красивыми и тщательно спроектированными сайтами он индексирует неряшливые домашние странички, где в беспорядке на безумном фоне разбросаны фотографии хозяина, его жены и собаки. Такие странички заведомо не попадут в List.ru, потому что их не пропустит редактор. Из представленных здесь описаний индекса Яндекс и каталога List.ru можно понять, что сайты попадают в каталог или индексируются, только когда их найдет редактор каталога или робот автоматического индекса. На самом деле большинство сайтов представляют поисковым системам их хозяева. Для этого и в Яндексе и в List.ru есть специальные ссылки Добавить сайт. Хозяин сайта вводит его адрес и краткую характеристику. Если сайт представлен системе Яндекс, он будет обязательно помещен в базу данных (проиндексирован). Если же сайт представлен тематическому каталогу, его судьба зависит от редактора, который может занести его адрес в наиболее подходящий (с его точки зрения) раздел, а может и не занести, если сочтет сайт неинтересным или не соответствующим теме.  

 

Основы интернета