Принцип работы и обзор поисковых систем и языка запросов
Состав и принципы работы поисковой системы Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов. Поисковых систем в мире насчитывается достаточно много, однако среди них выделяется 3 гиганта — Google, Yahoo и MSN Search, каждый из которых имеет свою базу данных и свои собственные алгоритмы поиска. В русском Интернете это – «Яндекс», «Рамблер», «Апорт». Все остальные поисковики в той или иной мере используют их данные и их наработки в своей деятельности. Среди указанных поисковиков первое место занимает Google. Нам он интересен еще и потому, что занимает видное место в поиске среди русскоязычных сайтов (Рунете). Кроме того, Google регулярно рассказывает о своих подходах к индексации сайтов и вебмастера имеют возможность строить свою работу, основываясь на данных из первоисточника. Структура поисковых систем Итак, любая поисковая система, как бы она ни называлась, имеет общие с другими поисковиками черты. У них у всех есть (в той или иной степени развитости) следующие системы: § программы, которые скачивают к себе в базу вебстраницы, их часто называют Spider (паук); § программы, которые с этих обнаруженных страниц переходят по ссылкам на другие Интернет-ресурсы (Crawler или «путешествующий» паук); § программы, которые анализируют скачанные страницы (Indexer или индексатор); § программа, которая выдает по запросу нужные результаты (Search engine results engine — система выдачи результатов). Модуль индексирования состоит из трех вспомогательных программ (роботов): Spider, Crawler, Indexer. Spider (паук) – программа, предназначенная для скачивания веб-страниц. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате: -URL страницы -дата, когда страница была скачана -http-заголовок ответа сервера -тело страницы (html-код) Теперь подытожим все вышесказанное. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. Основные характеристики поисковых систем: § Полнота § Точность § Актуальность § Скорость поиска § Наглядность Применение языка запросов
Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют. Расширенный поиск Форма расширенного поиска дает возможность:
Поиск по тексту ...
Искать слова запроса ...
Расстояние между словами запроса ...
Исключить документы, содержащие следующие слова ... Из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле. Язык документа ...
Дата документа ... Позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только "новыми" (начиная с указанной даты) или "старыми" документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 29/02/2000. По умолчанию находятся любые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования (день, когда документ был считан "пауком" Рамблера).
Популярное: Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ... Почему стероиды повышают давление?: Основных причин три... Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (519)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |