Контакти;

Все для мобілки: Мобільні новини; Каталог WAP-ресурсів; Розповіді про мобілки; Різне.

 
Все для компьютера: Жосткі диски; Процесори; Графіка; Принтери; Системні плати; Інтернет; Різне.
 
Україна: Нам пора для України жити! Вірші Констянтина Гайя; Ностальгія за минулим; Політика;

Основні розділи:

Конгрес Українських Націоналістів Rambler's Top100
Рейтинг@Mail.ru Украина онлайн

© Лихач М.В. sem@shynok.com.ua 2004рік

Google

До сих пор мы искали слова в русскоязычных документах, и сейчас самое время вспомнить, что Интернет- мировая сеть, где есть документы практически на всех основных языках, но большая их часть все-таки написана на английском. Разумно поэтому искать слово "telework" - английский эквивалент слова "телеработа" - в индексе Google (www.google.com), хранящем тексты на разных языках. Нажав кнопку Google Search, получим список адресов тех страниц, где есть слово "telework". Как видим, индекс Google нашел примерно 134 000 страниц (об этом говорит фраза "Results 1-10 of about 134,000" в верхней части рисунка), содержащих слово "telework". Индекс Google, с которым мы только что познакомились, принципиально ничем не отличается от индекса Яндекс. Разница только в размерах. Google - глобальная поисковая система, которая индексирует все странички подряд, независимо от того, на каком языке они написаны. В индекс этой системы попадают французские, португальские, русские, греческие и китайские страницы. Индекс Google - самый большой в мире и включает примерно 2 миллиарда документов. Индексы, подобные Google, стараются вобрать в себя все доступные страницы. И чем дальше, тем хуже это получается, ведь Интернет стремительно растет1 и никакой даже самый мощный индекс не в состоянии за ним угнаться. Мало того, что скорость появления новой информации все увеличивается, - хуже, что старая информация постоянно меняется, web-сайты переезжают на другие компьютеры, а сами страницы меняют адреса или исчезают. Вот почему любой индекс должен не только читать новые страницы, но и постоянно следить за старыми, периодически обходя весь известный ему Интернет. Очевидно, система Яндекс, индексирующая только русскоязычные документы, общий объем которых примерно в тридцать раз меньше всего Интернета, может лучше сделать свою небольшую часть работы: проиндексировать новые страницы, успевая следить за старыми. Другое преимущество системы Яндекс в том, что она учитывает особенности русского языка, о которых Google даже не догадывается. Яндекс, как мы уже видели, ищет не только заданное слово, но и все его грамматические формы. Теперь стоит вернуться к поиску в индексе Google слова "telework", чтобы обратить внимание на связанную с этим проблему - слишком большое число находок. Пару-другую сотен страниц еще можно просмотреть. Но никакая голова не выдержит 130 тысяч (а могут быть и миллионы). Одно из средств борьбы с этим - мощный язык запросов, позволяющий, с одной стороны, выбрать нужные документы из индекса (задав, например, поиск только на сайтах в домене .com), а с другой стороны, точно указать, какие слова или фразы должны быть в документе, а каких слов и фраз быть не должно. Посмотрим, как уменьшается число документов, когда заданное слово "telework" ищется только в их заголовках. Для этого в языке запросов Google есть префикс intitle: . Нажав кнопку Google Search, получим почти 6 тысяч ссылок. Это более чем в двадцать раз меньше, но все еще много. Дальнейшие действия зависят от наших целей и предварительных знаний. Если никаких знаний нет, стоит посмотреть первые выданные ссылки, попробовать освоить терминологию и познакомиться с предметом. Если же цель более определенная, нужно уточнить запрос. Пусть, например, нам интересна телеработа в Германии. Тогда разумно искать документы, где есть оба слова: "Telework" и "Germany". Потребуем, чтобы более общее слово "Telework" было в заголовке, а слово "Germany" - в любом месте документа. Соответствующий запрос индексу Google выглядит так: ntitie:telework Germany Как видим, префикс intitie перед словом telework заставляет Google обращать внимание лишь на документы, в заголовках которых есть это слово. Из всех таких документов он должен отобрать только документы, содержащие слово Germany. Как видно, Google нашел 271 страничку. Посмотрим внимательнее на сведения о первых трех. Страничка, показанная первой, называется "European Telework Online - National website for Germany" (Европейская телеработа: сайт Германии), она явно посвящена телеработе в Германии. Легко заметить, что эта страничка, скорее всего, принадлежит сайту, рассказывающему о телеработе в Европе, а не только в Германии. Действительно, ее адрес www.eto.org.uk/nat/de/, показанный в результатах поиска, говорит о британском происхождении сайта (домен первого уровня - uk), а по фрагменту названия "European Telework Online..." (Европейская телеработа в Интернете) можно догадаться, что сайт http:// www.eto.org.uk посвящен телеработе в Европе, а не только в Германии. Выходит, можно искать телеработу в Германии, на самом деле интересуясь более общей темой - например, телеработой в Европе. Логика здесь проста: если на сайте есть страницы, посвященные чему-то конкретному, например телеработе в Германии, то рядом, на соседних страницах, есть, скорее всего, сведения и о телеработе вообще. Такой прием я называю "поиском снизу", и часто он оказывается полезен. Ее заголовок начинается словами "Teleworking Germany", то есть "Телеработа в Германии". После названия странички Google показывает фрагмент ее текста "Teleworking Germany offers and searchs for home based work opportunities...", то есть "Teleworking Germany предлагает и ищет возможности работать дома". Как видим, это как раз то, что мы искали. Раз уж мы заговорили о языке запросов Google, познакомимся с важнейшим его элементом - кавычками. Заключая ряд слов в кавычки, мы велим индексу Google искать фразы, то есть последовательности слов, идущих друг за другом в определенном порядке. Поиск фразы даст уже не 271, а 62 страницы. Замечу, что фраза "teleworking Germany" взята не наугад, а из названия уже найденного сайта. То есть (это очень важно!) результаты предыдущего поиска помогают поиску следующему. Попробуем поискать в индексе Google еще одну фразу - "to be or not to be" ("быть или не быть"), интересную тем, что в нее входят только так называемые служебные слова (stop words), которые многие поисковые системы считают бессмысленными и потому не включают в свои индексы. Но Google хранит странички "как есть". Обратите внимание: в заголовке третьего найденного документа встречаются как прописные, так и строчные буквы, в то время как фраза, которую мы искали, состояла только из строчных букв. Отсюда вывод: Google не различает прописные и строчные буквы. Напоследок хочется еще раз сказать о том, что подавляющая часть документов в Интернете написана на английском языке. Кто не знает языков, вынужден ограничить себя русскоязычным Интернетом, или Рунетом, - родной, но не самой лучшей тридцатой частью всей Сети.

Основы интернета