Технология поиска информации в Интернете и профессиональных базах

Поиск любой информации в Интернете – творческих процесс, требующий глубоких знаний в области информационных технологий, лингвистики, принципах построения поисковых и информационных ресурсов глобальной сети.

На сегодняшний день во всемирной паутине представлены миллиарды страниц самой разнообразной информации. При таком изобилии ресурсов встаёт вполне логичный вопрос: как рационализировать поиск? Как при минимальный затратах времени извлечь максимум нужной и полезной информации?

Что такое поиск? Полнотекстовый – это поиск по всему документу. Поиск по метаданным — это поиск по атрибутам документа (название документа, дата создания, размер, автор), поддерживаемым системой. Запрос — это способ выражения потребностей в определенном виде информации пользователем системы в особом формате. Для этого используется особый язык поисковых систем или синтаксис, который у каждой системы может быть свой.

Существует понятие естественных запросов. Это упрощает составление сложного запроса. Самый популярный поисковый сайт на основе языка естественных запросов – это Ask.com. Он преобразует запрос в ключевые слова, которые затем и использует при индексировании сайтов. Этот подход работает только в случае простых запросов.

Как всё начиналось. В 1993 году первой поисковой системой для всего Интернет пространства был «Wandex», на смену ему пришел «Aliweb», функционирующий и по сей день. В 1996 году появилось морфологическое расширение к Altavista и оригинальные российские поисковые машины Aport (http://www.aport.ru/) и Rambler (http://www.rambler.ru). В 1997 году была открыта сама популярная поисковая система Яндекс (http://www.yandex.ru/), которая охватывает 47 % Рунета. Рунет – это русскоязычная часть Интернета, включая домены .ru, так же все русскоязычные ресурсы.

Развиты специализированные поисковые системы. К примеру – это отдельная категория поиска картинок во многих крупных поисковых системах. Существуют системы с фильтрацией спама, вирусов и вредоносных программ на сайтах, находящихся в базах данных. Искать файлы можно даже на ftp-серверах (http://www.filesearch.ru/).

Наилучшим вариантом работы с глобальными информационными ресурсами является тот, когда пользователь знает адрес сайта и получает возможность доступа к его содержанию. Адрес сайта может быть получен из различных источников: справочников, желтых страниц, Интернета, рекламы. На сайт так же можно попасть по гиперссылкам других сайтов, схожих по тематике.

Опытный пользователь всегда имеет под рукой список, каталог адресов поисковых серверов. В этом случае необходимо отслеживать обновления и появления новых сайтов.

Если пользователь исследует новую проблему, осуществляет поиск информации среди ресурсов, которые до этого ещё не были им изучены и освоены, одним из наиболее эффективных методов является использование поисковых систем и каталогов. В этом случае может быть предложена следующая технология поиска:

1) определение общего направления запроса и его содержания (текст, изображения, товары в интернет-магазинах, новости и последние обновления) по ключевым словам;

2) определение географических рамок поиска (популярные поисковые машины Рунета Яндекс, всемирные Yahoo!, Google, в Европейском Союзе – Accoona). Для получения лучших результатов можно воспользоваться расширенными условиями поиска. Например задать язык, дату создания документа, страну, популярность посещения сайта.

3) На следующем этапе осуществляется отбор и установка последовательного использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска в каждой из машин. Качество выполнения постановки задания поисковой машине будет напрямую зависеть от опытности работы пользователя с ней.

4) Далее задается запрос к поисковой машине – это наиболее ответственный момент. Требуется максимально сузить область поиска информации. Следует отдавать предпочтение нескольким узким запросам, а не обширному предложению. Эффективно создать тезаурус по ключевым словам – требуется углубленное знания языка пользователя, а так же знание специфической терминологии исследуемой предметной области.

5) На заключительном этапе происходит выполнение запроса и его уточнение. Анализ полученных результатов позволяет корректировать запрос с целью сужения области поиска.

Можно воспользоваться услугой Query-By-Example (найти подобные). Этой услугой оснащены не все поисковые системы. При просмотре результатов поиска пользователь выбирает документ или группу документов, наиболее близких по содержанию к тому, что Вы ищете, и даете команду «найти подобные документы».

Все поисковые системы (службы, серверы) разделяются на поисковые машины (роботы, указатели) и поисковые каталоги.

Одни из самых известных поисковых систем можно классифицировать так:

Системы, поддерживающие все языки мира:
Yahoo!
Google
Overture
Inktomi
AltaVista
Alltheweb FAST-Engine
MSN

Русскоязычные — индексируют и ищут тексты на украинском, белорусском, английском и др. В основном индексируются ресурсы, расположенные в доменных зонах, где доминирует русский язык и языки стран СНГ: Aport , Rambler, Яндекс, Mail.ru, Webalta, Qwika, GoGo, Turtle, Punto, Nigma, Visualworld.

Украинские: A.UA ,Мета, Bigmir)net, Поиск I.ua

Европейский Союз:

Немецкие: Abacho.de, de.Ez2find.com,
Французские: fr.Ez2Find.com, Francité, Locace, Nomade, Voilà
Эстонские: www.ee, neti.ee
Чешские: seznam.cz,
Узбекские: Voydod.uz, www.uz

Основные функции поисковых систем:

1)сбор статистики (что бы определять число страниц на сервере, типы присутствующих на нем файлов, их соотношения, средний размер страницы и т. д);

2)обслуживание (сбор информации о неисправных ссылках и обновлениях, проверка ссылок сайтов, авторы которые самостоятельно подали регистрационную заявку, и др);

3)поиск новых ресурсов.

Каталог ресурсов — классифицированный набор ссылок на сайты с кратким описанием содержания. Сайты в каталоге делятся по тематике, а внутри тем могут быть ранжированы по индексу цитирования, дате добавления, алфавиту, или по другому параметру. В зависимости от тематики ссылок каталоги могут быть общими и специализированными.

Каталоги Рунета:

“@Rus” – http://www.atrus.ru
List.Ru – http://www.list.ru
Russia on the Net – http://www.ru
Интернет Столица – http://www.data.ru/
Up.ru (http://www.up.ru/)
Улитка – http://www.ulitka.ru/
The List of Russian Web Servers – http://weblist.ru/
Справочник предприятий СНГ – http://www.trifle.net/cis
Иван Сусанин – http://www.susanin.net/
Search center – http://search.centre.ru/cgi-bin/search/

Специализированная компания “Экослип” предлагает ортопедические матрасы и подушки, пружинные и беспружинные матрасы, вакуумные матрасы. Правильно подобранный ортопедический матрас – это отличный сон ночью и хорошее самочувствие весь день.

Музыкальное сопровождение любого праздника Вам поможет организовать Клуб Музыкантов “TREDA”.

Также по теме:

Комментариев: 1

  1. lenkat пишет:

    спасибо за информацию

Оставьте свой отзыв!


Анализ сайта online