Контакти;

Все для мобілки: Мобільні новини; Каталог WAP-ресурсів; Розповіді про мобілки; Різне.

 
Все для компьютера: Жосткі диски; Процесори; Графіка; Принтери; Системні плати; Інтернет; Різне.
 
Україна: Нам пора для України жити! Вірші Констянтина Гайя; Ностальгія за минулим; Політика;

Основні розділи:

Конгрес Українських Націоналістів Rambler's Top100
Рейтинг@Mail.ru Украина онлайн

© Лихач М.В. sem@shynok.com.ua 2004рік

Teoma

Индекс Google, о котором рассказывалось в предыдущем разделе, - бесспорный лидер среди поисковых систем. Его преимущество до неприличия велико: объем базы данных в два раза больше, чем у ближайшего конкурента, качество первых выданных ссылок превосходно, скорость работы - фантастическая. Но все же есть недостатки даже у такой славной системы, как Google. Самый, наверное, большой недостаток - отсутствие диалога с пользователем. Чтобы найти подходящий материал, библиотекарь общается с посетителем и в разговоре выясняет, что ему нужно. Но с Google разговора не получается, ищущий в ответ на запрос получает набор кратких описаний документов и должен сам решить, какой документ хорош, а какой - нет. У Google нет никакой возможности хорошо ответить на слово "Charles", потому что не ясно, о каком Чарльзе идет речь - о Чарльзе Диккенсе, Чарльзе Дарвине или принце Чарльзе. Чтобы такой разговор стал возможен, конкуренты Google стараются классифицировать найденные документы, и в результате между человеком и поисковой системой завязывается диалог. Попробуем, например, найти слово "charles" в поисковой системе Теоmа (www.teoma.com). Как видим, они разбиты на четыре части. В верхнем левом углу под заголовком Sponsored Results (Оплаченные результаты) видны рекламные ссылки - своеобразные текстовые баннеры. О них мы еще поговорим. Далее, в правом верхнем углу под заголовком Refine показаны результаты автоматической классификации найденных документов. Названия разделов (Charles Dickens, Charles Darwin, Charles Ives) говорят сами за себя. В нижней левой колонке, озаглавленной Results, показаны страницы, лучше всего отвечающие запросу. В колонке справа, названной Resources, показаны документы, в которых много ссылок на страницы, стоящие слева. Это могут быть разделы тематических каталогов, где упоминается слово "Charles", или какие-то другие наборы ссылок. Как видим, Teoma предпочитает Чарльза Диккенса всем другим Чарльзам. Чтобы переключиться на Чарльза Дарвина, выберем ссылку Charles Darwin в верхней части результатов поиска - и возникнет новое триединство: вверху справа - классификация документов, попавших в раздел Charles Darwin, слева - наиболее подходящие документы, а справа - лучшие коллекции ссылок на них. Обратите внимание: названия многих групп документов, выделенных системой Teoma, не содержат исходных слов "Charles" и "Darwin". Значит, классифицируя найденные документы, Teoma демонстрирует признаки разума - и, просмотрев названия разделов, можно в общих чертах представить себе жизнь Дарвина: путешествие на корабле "Бигль" (Beagle, Voyage), открытия, сделанные на Галапагосских островах (Galapagos Islands), его классическую книгу "Происхождение видов" (Originator, Species), теорию эволюции (Evolution Darvin) и т.д. Ничего подобного нельзя сделать в системе Google, где извлекать знания из найденных сайтов приходится самому ищущему. Классификация результатов - вещь замечательная, и ее очень недостает Google. Но система Теоmа славна не только классификацией результатов, а еще и тем, что пытается обыграть индекс Google на его "собственном поле". Решая, какой документ показать первым, Теоmа использует примерно тот же показатель популярности, что и Google. Но ранг страницы (PageRank) определяется в системе Google всеми проиндексированными документами, он постоянен и не зависит от запроса. А похожая характеристика, используемая в системе Теоmа, вычисляется на основе анализа структуры ссылок в уже найденных документах. То есть Теоmа, оценивая "важность" документа, учитывает только ссылки со страниц, имеющих отношение к запросу. И многие считают, что такой способ лучше. Анализируя структуру ссылок, Теоmа не только определяет наиболее соответствующие запросу документы, но и разделяет их на две части. Первая - те документы, на которые чаще всего ссылаются (их часто называют autorities), вторая - те документы, которые чаще всего ссылаются (их называют hubs). Первые располагаются в колонке слева, вторые - в колонке справа. Иными словами, в левой колонке располагаются примерно те же сайты, что покажет Google в ответ на тот же запрос, а в правой колонке Теоmа выделяет сайты, большинство ссылок с которых "упирается" в сайты, показанные слева. "Правыми" оказываются отвечающие запросу разделы тематических каталогов или просто кем-то собранные ссылки. Получается, что Теоmа соединяет в себе индекс и тематический каталог, который, правда, отличается от Open Directory и ему подобных тем, что его разделы создаются "на лету" и определяются текущим состоянием Интернета. Пройдет время, и Теоmа в ответ на тот же запрос покажет совсем другие сайты - как в правой колонке, так и в левой. До сих пор мы говорили только о достоинствах системы Теоmа. Настало время сказать о причинах, по которым все-таки Google - самый популярный (и лучший) на сегодняшний день индекс. Все дело в том, что Google - могучая, универсальная поисковая система, пригодная для любых видов поиска. Теоmа же создана именно для начального поиска, она выполняет только одну работу, но хорошо. Системе, предназначенной для начального поиска, не нужен индекс огромных размеров, поэтому Теоmа хранит "всего" около 200 млн. страниц1, что гораздо меньше полу-тора-двух миллиардов, хранимых в индексе Google. Второй недостаток Теоmа - примитивный язык запросов. Как и Google, Teoma ищет все введенные слова. По запросу Charles Darwin будут найдены документы, где есть и слово "Charles", и слово "Darwin". Как и Google, Teoma не различает прописных и строчных букв: запросы Charles, charles, charleS дадут один и тот же результат. Как и в Google, перед словами в запросе можно ставить операторы + и - . "Минус" показывает системе, что нужно искать документы, где нет заданного слова. "Плюс" разумно использовать только для поиска служебных слов, перед обычным словом Теоmа его не заметит. Наконец, Теоmа позволяет искать фразы. Для этого нужные слова заключаются в кавычки. Как и в Google, перед служебными словами, попавшими внутрь фразы, не нужно ставить "плюс". По запросу "to be or not to be" Teoma показывает, как и положено, тему Hamlet, Shakespeare (правда, ни один из первых десяти найденных сайтов не имеет отношения к Шекспиру). Таковы нехитрые возможности языка запросов Теоmа. Сложный язык этой системе, предназначенной для начального поиска, и не нужен. Другое дело - Google. Универсальной системе необходимо умение отвечать на более изощренные запросы, иначе очень трудно будет найти какой-то конкретный документ. Между тем, тот язык запросов, с которым мы познакомились в разделе "PageRank и Google", - такой же, как у Теоmа. Просто мы пока касались только самых простых конструкций, необходимых для начального поиска. О более сложных элементах языка запросов Google речь еще впереди.  

Основы интернета