Контакти;

Все для мобілки: Мобільні новини; Каталог WAP-ресурсів; Розповіді про мобілки; Різне.

 
Все для компьютера: Жосткі диски; Процесори; Графіка; Принтери; Системні плати; Інтернет; Різне.
 
Україна: Нам пора для України жити! Вірші Констянтина Гайя; Ностальгія за минулим; Політика;

Основні розділи:

Конгрес Українських Націоналістів Rambler's Top100
Рейтинг@Mail.ru Украина онлайн

© Лихач М.В. sem@shynok.com.ua 2004рік

Поиск внутри файлов

До сих пор мы искали файлы только по их именам, полагая, что поисковые системы могут читать лишь документы с расширением .html. Так до недавнего времени и было, пока система www.Google.com не решила проиндексировать практически все файлы, ссылки на которые можно было найти в HTML-документах. Произошло важней­шее со времен запуска www.Altavista.com в 1995 году событие: в поле зрения Google попали миллионы документов в форматах PDF, DOC (MS Word), RTF (универсальный фор­мат для документов), PS, WRI (Microsoft Write), XLS (Excel) и некоторых других. Самый важный формат — безусловно, PDF. Именно в нем хранится подавляющее большинство документов, проиндексированных Google. Преимущество формата PDF над обычным форматом HTML — в том, что PDF-документы представляют собой единое целое (как правило, это один файл), а HTML-документы часто состоят из сотен мелких файлов, для загрузки которых из Интернета нужна специальная программа вроде Teleport Pro. Кроме того, документ, состоящий из множества частей, гораздо труднее найти. Всегда есть риск, что точный запрос к поисковой системе, содержащий несколько ключевых слов, не даст результатов только потому, что слова из запроса попадут в разные части большого документа и не смогут сойтись в каком-то одном малень­ком файле. Ничего похожего не произойдет с документами в формате PDF, где значительная часть текста сосредоточена, как правило, в одном файле. Кроме PDF-документов, очень интересны и файлы в формате PS. Велика вероятность, что там держится научная статья или отчет. Можно сказать, что PS — «элитарный», и PDF — массовый формат. Значит, в зависимости от цели поиска можно ограни­читься только PDF-документами, только файлами в формате Postscript — или искать всюду, что по умолчанию и делает Google. Формат файлов задается параметром filetype. Если, скажем, нам захотелось побольше узнать о сети Gnutella, разумно ограничить поиск только PDF-документами. Соответствующий запрос может выглядеть так: jnuteila filetype:pdf Как видим, Google показывает формат найденного файла в квадратных скобках ряд его заголовком. Если бы в запросе не было команды fi letype, знаки в квадратных скобках оказались бы разными. Но раз мы ограничились только одним фор­том, всюду в результатах поиска стоит [PDF]. Хочется еще раз подчеркнуть: слово «gnutella» Google ищет внутри файлов, а не в их названиях или адресах. Документ, показанный на рис. 6.36 последним, назы­вается bellovin.pdf, в его адресе нет слова «gnutella», но зато оно есть в его заголовке «Security Aspects of Napster and Gnutella» (Безопасность в сетях Napster и Gnutella) и, конечно же, в самом тексте. Кстати, текст документа можно посмотреть, если выбрать ссылку View as HTML, видную во второй строке описания файла. Посмот­реть содержимое файла и понять, о чем он, бывает полезно, когда его размеры ве­лики, что совсем не редкость для формата PDF. Прежде чем загружать большой файл, заполненный бесполезными картинками, лучше просмотреть его текст. Впрочем, к файлу, это вряд ли относится. Его название What is Gnutella? (Что такое Gnutella?), путь к нему, содержащий слово «tutorials» (учебники), говорят о том, что перед нами введение в сеть Gnutella — текст, который нужно прочитать в первую очередь. Если же нас интересуют более сложные вопросы, можно поискать ответы в документах формата PS. Соответству­ющий запрос будет выглядеть так: gnutella filetype:ps Кроме команды filetype, для поиска в документах определенного формата можно использовать префикс inurl. Поиск слова «gnutella» в документах формата PDF может быть задан так: gnutella inurl:pdf Правда, по такому запросу будут найдены и обычные документы, в чьих адресах есть слово «PDF» — например, /pdf/file.htm, — но таких будет немного. Особенно полезен префикс inurl для поиска в документах формата Postscript (.ps). Дело в том, что по команде fiIetype: ps Google ограничится только «чистыми постскриптовскими» файлами с расширением .ps. Если же в запросе использовать префикс inuri : ps, то Google будет искать и среди упакованных PS-файлов с расширениями ps.gz или ps.z, а таких Интернете большинство. Проиндексировав файлы других форматов, система Google установила новые стан­дарты для поисковых систем. И теперь все ее конкуренты пытаются проделать то же самое. Но повторить подвиг Google оказалось непросто. Пока лишь система AHTheWeb сумела проиндексировать доступные ей PDF-файлы. Чтобы искать только в них, можно использовать префикс url .all. Запрос для поиска слова «gnutella» в PDF-документах выглядит так: gnutella url.all:pdf Видно, что заинтересовавший нас файл «What is Gnutella» найден и AllTheWeb. Только Google показывает его в конце первого десятка, a AllTheWeb — в начале. Завершим этот раздел парой замечаний. Первое касается определения «пригодноcти» web-страницы системой Google. Как мы знаем , для этого используется число PageRank, отражающее количество и ка­чество ссылок на страницу. Этот показатель едва ли будет хорошо работать при поиске в файлах отличного от HTML формата — потому, что на документы в фор­мате PDF или PS очень мало ссылок. Значит, поиск в таких документах требует ) более глубокого перебора. Можно просмотреть и 50, и 60 адресов, и лишь в седьмом десятке найти что-то потрясающее. Второе замечание - об индексировании документов в Google и AllTheWeb. Окаывается, Google не индексирует до конца длинные документы, ограничиваясь первыми примерно 100 Кбайт текста. AllTheWeb же читает все документы целиком, поэтому в сомнительных случаях, когда что-то не удается найти в Google, стоит обратиться к AllTheWeb. 

 

 

 

Основы интернета