Поиск файлов
В Интернете несколько тысяч (а может быть, десятков тысяч) ftp-серверов, и было бы сущим безумием в поисках нужного файла обходить их по очереди. Поэтому списки всех имеющихся файлов готовятся заранее специальными поисковыми системами. Поскольку ftp-серверы не содержат ссылок друг на друга, система для поиска файлов должна иметь готовый их список. Пользуясь таким списком, система периодически навещает каждый ftp-сервер и заносит в свою базу данных имена хранящихся там файлов. Чтобы найти файл, нужно соединиться с поисковой системой, набрать в специальном поле имя файла или его фрагмент, нажать соответствующую кнопку (или просто клавишу Enter) и ждать результатов. Попробуем найти уже знакомый нам по предыдущему разделу файл wnimpl21.exe. для чего направим браузер по адресу www.alltheweb.com, выберем вкладку FTP FILES, наберем запрос wni mpl21. exe в предназначенном для этого поле и нажмем кнопку SEARCH. Как видим, найдено 5 одинаковых файлов i разных ftp-серверах, среди которых уже известный нам сервер ftp.uni-koeln.de. Когда отыскивается сразу несколько копий файла, появляется возможность выбрать сервер, с которого он будет загружаться быстрее всего. Находясь в России логично искать сервер из домена .ru. Бывает, правда, что файлы загружаются быстро с японских и австралийских серверов, но очень медленно с болгарских. Здесь многое зависит от времени суток и состояния Сети. В нашем примере сделать выбор довольно трудно, потому что итальянские (домен .it), германские (домен .de), австрийские (домен .at) и венгерские (домен .hu) ftp-серверы географически довольно близки друг к другу. Чтобы загрузить найденный файл, нужно выбрать его левой кнопкой мыши и указать затем подходящую папку на своем компьютере. Об этом мы уже говорили в предыдущем разделе. Может показаться, что системы, подобные AllTheWeb, хороши только для поиска файлов с известным именем. Но это не так. В умелых руках AllTheWeb превращается в мощное орудие исследования и поиска. И буквально на каждом шагу можно совершать открытия, просто «ткнув пальцем в небо». Попробуем, например, найти изображение иголки. Переведя на английский слово «иголка» и предположив, что это файл с расширением .jpg, получим название needle.jpg». Введя его в соответствующее поле и нажав кнопку Search, увидим через некоторое время результаты поиска. Как видим, найдено 15 иголок и, соответственно, 15 стогов сена, если считать таковым каждый сервер. Какой же файл из найденных 15 выбрать? Решающее значение имеют два параметра: размер файла и путь к нему. Графический файл размером 11 байт (показан на рисунке первым) едва ли содержит что-то интересное, а вот 156,4 Кбайт другое дело. Как видно из рисунка, файл объемом 156,4 Кбайт хранится на сервере ftp.sai.msu.su в следующей папке: jb/misc/pictures/fantasy/.../ Посмотрим внимательнее на этот путь. Файл needle.jpg находится где-то в недрах папки pictures, то есть «изображения». Это наводит на мысль, что файл needle.jpg часть большой коллекции картинок. Чтобы проверить эту гипотезу, нужно выбрать мышью не сам файл needle.jpg, а стоящий слева от его названия значок с указывающей вверх стрелкой. Через некоторое время мы увидим в окне браузера содержимое следующей папки: ://ftp.sai.msu.su/pub/misc/pictures/fantasy/misc/ Именно в этой папке хранится файл needle.jpg. Двигаясь вверх по дереву папок, еле нескольких операций выбора значка со стрелкой мы увидим наконец содержимое папки pictures. Вместе с папкой misk (разное), где и был обнаружен файл needle.jpg, показались и другие папки например, animals (животные), art (искусство). Значит, скорее всего, найдена не просто картинка, а целое их собрание. «А что же файл needle.jpg?» спросите вы. Не знаю. Этот пример приведен не для того, чтобы рассказать, как найти изображение иголки. Как раз наоборот. Он должен научить вас по иголке искать стог сена. Разобранный только что пример с поиском иголки многими будет воспринят как подтасовка, то есть попытка выдать случайную удачу за метод поиска. Однако это действительно метод, а не подтасовка. В этом примере проявилось фундаментальное свойство Интернета его локальная однородность. Эти мудреные слова означают всего лишь то, что рядом с одной картинкой часто хранятся другие, близкие по теме. А рядом с группой картинок можно встретить другую группу, где они объединены по иному признаку. Посмотрим, например, куда заведет нас поиск файла dog.jpg, хранящего (предположительно) изображение собаки. На этот раз будем искать файл с помощью системы www.filesearch.ru , превосходящей по объему базы данных (особенно в российской ее части) сервер www.alltheweb.com. Вводим символы dog. jpg в поле Поиск, ограничиваем себя только российскими серверами (для этого выбираем раскрывающемся списке пункт в России), нажимаем кнопку найти и видим на экране то, что из двадцати найденных файлов очень многие, похоже, включены в большие коллекции. Это, между прочим, говорит о том, что в файле dog.jpg действительно хранится изображение собаки или собак. Но раз есть папка dogs, могут быть и другие, например, cats. Чтобы проверить это, выберем мышью ссылку dogs и увидим содержимое папки dogs. Еще один шаг вверх и перед нами содержимое папки ClipArt, а там есть папки bears (медведи), birds (птицы), books (книги), Worldmap (карта мира) и т. д. Есть там и папка cats, не уместившаяся на рисунке. То есть найдена еще одна коллекция картинок. В только что разобранных примерах нас не очень интересовали иголки и собаки. Нашей целью было найти коллекцию картинок, но если хочется отыскать что-то более конкретное, задача усложняется. Однако и здесь часто возможны догадка и ее моментальная проверка. Если, например, хочется найти документ, в котором разбираются приемы поиска в Интернете, то весьма вероятно, что в его названии есть фрагмент «search». Но файлов с таким названием слишком много, и первые результаты поиска не дают ничего интересного. Значит, название должно быть более конкретным. Весьма вероятно, что документ, рассказывающий о поиске в Интернете, это файл с расширением .pdf под названием Internetsearch. Но поиск файла internetsearch.pdf не дает результатов. Тогда пробуем найти файл internetsearch в надежде, что появится документ с другим расширением. На этот раз отыскивается очень маленький файл internetsearch.zip, но в нем хранится какая-то программа, а вовсе не документ. И тогда мы совершаем еще одну попытку: ищем файл под названием internet_search. На этот раз обнаруживается файл Internet_Search_FAQ_l_2, рассказывающий о том, как найти в Интернете людей, файлы, картинки и т. д. Этот файл наша первая удача, но мы не успокаиваемся на достигнутом и вспоминаем самую первую, очень неудачную попытку поиска слова «search». Сейчас нам приходит в голову, что если бы файл, содержащий в своем имени слово «search», находился в папке internet, то он наверняка имел бы отношение к поиску в Интернете. Поэтому нашей следующей попыткой будет поиск файла search в папке internet. Но форма, которой мы до сих пользовались, не позволяет задать папку. Для этого нужен режим расширенного поиска, переход в который обеспечивает ссылка ADVANCED SEARCH, видная в правом нижнем углу. Выбрав ее, получаем форму. В этой форме есть специальное поле Limit to path, где и указывается имя папки Здесь можно еще задать домен (например, для поиска только на российских (.ru) или китайских (.сп) ftp-серверах), размер файла (Limit size) и число одновременно показываемых файлов (Hits). Итак, задаем папку internet, имя файла search и число находок на странице (20) нажимаем кнопку SEARCH и через некоторое время видим результаты поиска. Прежде всего обращает на себя внимание вторая строка сверху. Путь к файлу выглядит следующим образом: ftp://ftp.kiarchive.ru/pub/.l/windows/internet/search Это говорит о том, что в папке собраны программы для Windows (какой версии неясно), связанные с поиском в Интернете (слова «internet», «search»), и все он расположены на российском (об этом говорит домен .ru) ftp-сервере. Вот как много информации можно извлечь из пути к файлу. Если нас больше интересуют документы, а не программы, то вполне привлекательно выглядит четвертая строка сверху. Путь к файлам говорит о том, что перед нам документы, посвященные исследованиям (research) в Интернете и расположенные на чешском (.ch) сервере: ftp://ftp.umzh.ch/internetstudies/public_html/research Это, конечно, только догадки, нуждающиеся в проверке. Наконец, пятый сверх файл выводит нас на собрание документов под названием Information_Research_FAL рассказывающих об исследованиях в Интернете и предназначенных тем, кто зам мается поиском профессионально. Эти документы еще одна наша удача. Завершим этот длинный раздел кратким рассказом о других режимах поиска файлов. До сих пор мы использовали режим multiple substrings searc при котором заданное слово может быть фрагментом какого-то другого (иска, «search», а нашли «research»). Причем не делается разницы между прописными строчными буквами. Но есть и другие режимы. Их так много, что вряд л кто-то использует их все. Некоторые, впрочем, могут быть полезны. Так, режим ехаct search позволяет отсеять ненужные документы: ведь слово «exact» (точный) означает буквальный поиск только заданного слова с учетом регистра и всех знаков препинания. Если задано «search», то слово «research» уже найдено не будет. Полезна также группа режимов, где есть слово «wildcard». В них слова можно задавать с помощью шаблонов. Например, запрос *. pdf означает поиск всех pdf-документов. А запрос *. Zip - поиск всех zip-архивов.