16.02.2006 11:25

Обзор поисковых систем

В последнее время все более актуальным становится использование различных программ, осуществляющих поиск документов различных форматов, информации в СУБД и информационных системах, сообщений электронной почты и прочих данных, содержащихся как на жестком диске персонального компьютера или в локальной сети предприятия, так и в других источниках знаний.В последнее время все более актуальным становится использование различных программ, осуществляющих поиск документов различных форматов, информации в СУБД и информационных системах, сообщений электронной почты и прочих данных, содержащихся как на жестком диске персонального компьютера или в локальной сети предприятия, так и в других источниках знаний.
Востребованность поисковых систем такого рода обусловлена непрерывным ростом объемов текстовой информации. И если раньше программы поиска были ориентированны только на корпоративный сектор (для домашнего использования хватало «прямого поиска» с обычным перебором файлов), то теперь разработчики стремятся удовлетворить потребности и обычного пользователя – объем информации-то возрос. Но несмотря на это, приоритетным направлением развития поисковых технологий (помимо Интернета) является корпоративный сектор.
Наиболее важным параметром любой системы поиска является скорость ее работы. Это касается как индексации больших объемов данных, так и скорости поиска документов. Конечно, немаловажными факторам являются возможности работы с различными источниками данных, списки поддерживаемых форматов файлов и дополнительный функционал (поддержка морфологии, синонимов, различных видов поиска). Но, если взять определенный набор необходимых функций, то большинство конкурентоспособных программ ими обладают.
Корпоративный поиск
Проблема организации данных в единую базу частично решается за счет DMS, CRM и специализированных СУБД. Но, чем больше предприятие и чем разнообразнее его виды деятельности, тем сложнее обрабатывать информацию из различных источников. Документы на диске, 1С, Oracle, архивы html-страниц, электронная корреспонденция и даже записи логов ICQ – в последнее время отнюдь немаловажный «информационный сектор», который можно смело подключать к основным хранилищам данных внутри любой крупной компании. На основе анализа многообразия этих источников поступления и хранения текстовых данных можно выделить две основные проблемы «информационного обеспечения». Это неструктурированность информации и ее поиск. В принципе, эти проблемы взаимосвязаны. Так как, получив хорошую систему поиска информации по различным источникам, можно, тем самым, предельно систематизировать полученные результаты.
Есть проблема – есть и решение. Это корпоративные search-системы, работающие с различными источниками знаний, как на компьютере пользователя, так и в локальной сети. Их главная задача – осуществлять быстрый и точный поиск документов в больших объемах данных.
Индексация
В основе современных технологий лежат два основополагающих процесса: индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается первого, то любая поисковая программа создает свою область поиска. То есть обрабатывает документы и формирует индекс этих документов – организованную структуру, содержащую информацию об обработанных данных. В дальнейшем именно созданный индекс используется для работы – быстрого получения списка нужных документов согласно запросу. Дальнейшее хоть и отнюдь непросто в плане технологии, но зато вполне понятно обычному пользователю. Программа обрабатывает запрос по ключевому слову-фразе и выводит список документов, в которых эта ключевая фраза содержится. Так как информация содержится в структурированном индексе, то обработка запроса проходит значительно быстрее, чем в случае с прямым поиском – выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе.
Найденные документы программа выводит в результирующем списке согласно релевантности – соответствия документа тексту запроса. В различных технологиях используются различные методы поиска и определения релевантности документа: количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и так далее. На основе этих параметров определяется «вес» документа и, в зависимости от него тот или иной файл оказывается в списке результатов на определенной позиции.
Участники и диспозиция
Для search-теста было выбрано 5 программных продуктов: Google Desktop Search, Copernic Desktop Search, DtSearch 7.0, iSYS 7.0 и SearchInform 1.5.02. Для проведения скоростного марафона было собрано 20 гигабайт текстовой информации в форматах .doc, .txt и .html, содержащей подборку художественной литературы и различных новостей из сети Интернет. Тесты проводились на вполне современном офисном компьютере с процессором AMD Barton 2.5 MHz, 1 Гб оперативной памяти, 160-гигабайтным IDE жестким диском Seagate на 7200 оборотов в минуту и системой Windows XP.

dtSearch 7.0
Разработчик: dtsearch Corp.
Официальный сайт: www.dtsearch.com
Цена: $199
Размер дистрибутива: 23,1 Мб
Разработка компании dtSearch Corp. dtSearch Desktop со встроенным dtSearch Spider умеет индексировать и находить не только файлы на компьютере пользователя, но и веб-узлы (на заданную глубину), ресурсы локальной сети, а также использовать внешние индексы, созданные на других компьютерах. Как и следовало ожидать, dtSearch распознает различные кодировки, в том числе и кириллические, а также множество форматов файлов, такие как .doc, .xls, .rtf, .pdf, .html и прочие. Нужно отметить также возможность поиска в базах данных в общем и по содержимому конкретных полей в них в частности.
Кроме традиционного поиска на «естественном языке» или с помощью формальных запросов, в dtSearch есть еще несколько видов поиска: с учетом морфологии, нечеткий (подразумевающий возможные ошибки и опечатки), фонетический (с учетом сходных по звучанию слов) и синонимический. Но это все заявленные возможности. Хотя особых расхождений с продекларированными функциями обнаружено не было.
Тестовые 20 гигабайт информации dtSearch Desktop 7.0 проиндексировала за 6 часов 13 минут, создав для нужд последующего поиска индекс размером 7.9 Гб. Что касается непосредственно поиска документов, то накладок у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы (хоть и с небольшой паузой – 20 гигабайт все-таки) и по простому запросу в одно слово и при использовании в качестве ключевой фразы пары абзацев какого либо документа. Однако при поиске по фрагменту текста в несколько десятков слов система «подвисала» на некоторое время, прежде чем выдать результат.

Плюсы dtSearch Desktop 7.0:
Поиск с использованием морфологии
Поиск с использованием синонимов
Нечеткий поиск
Фонетический поиск
Поиск в базах данных (через ODBC)
Поддержка сообщений Outlook
Поддержка различных кодировок
Работа в локальной сети
Индексация веб-страниц на заданную глубину

Минусы dtSearch Desktop 7.0:
Отсутствие возможности подключения различных источников информации кроме СУБД и Outlook e-mail
Низкая скорость поиска по ключевой фразе, содержащей более 50 слов
iSYS 7.0
Разработчик: iSYS Search
Официальный сайт: www.isys-search.com
Цена: $570
Размер дистрибутива: 38,8 Мб
Компания ISYS существует уже 16 лет, и за это время приобрела более 10 000 потребителей своей продукции. С самого основания компании программные продукты ISYS ориентировались на бизнес-пользователей. В линейку ПО ISYS входят программы поиска, как на настольных компьютерах, так и в корпоративных сетях и в Интернете.
ISYS индексирует данные и позволяет искать документы используя операторы и ключевые фразы точно так же, как это происходит в случае с интернет-поисковиками. ISYS поддерживает несколько методов запросов (Command Line Query, Menu-Assisted Query, Natural Language Query); использует алгоритм релевантности документов и лингвистические особенности языка, позволяющие внедрить такие функции как синонимы, нечеткий поиск (поиск с ошибками) и так далее.
ISYS поддерживает 125 форматов файлов (включая документы Microsoft Office, WordPerfect, электронную почту, PDF, XML, базы даны и так далее) и 30 языков, среди которых даже китайский, японский и корейский.
Созданием индекса и обработкой 20 гигабайт информации ISYS 7.0 занималась 6 часов 13 минут, в конечном итоге показав неплохое время и размер созданного файла – 7.9 Гб.
Несколько усложненный для новичка метод поиска с различными вариантами запросов поначалу может показаться неудобным. Но при кропотливом изучении все становится на свои места. Дело в том, что программа отказывается просто так искать документы по «длинному», в несколько слов, запросу. Для этого в ней предусмотрены дополнительные методы. К плюсам программы можно отнести очень качественно сделанную систему авторубрикации документов. Сразу же после индексации iSYS разбила все обработанные документы по рубрикам и представила их в удобном виде.

Плюсы iSYS Desktop 7.0:
Поиск с использованием синонимов
Нечеткий поиск
Поддержка различных кодировок
Поддержка различных методов запроса
Эвристический анализ
Поддержка различных источников данных (SQL, FTP, TRIM Context, WORLDOX 2002)
Поиск информации более чем на 30 языках
Продуманная система авторубрикации данных
Работа в локальной сети
Минусы iSYS Desktop 7.0:
Отсутствие поддержки морфологии
Цена
Google Desktop Search + GDE Enterprise
Разработчик: Google
Официальный сайт: http://desktop.google.com/enterprise
Цена: бесплатно
Размер дистрибутива вместе с TweakGDS: 1,2 Мб
Бесплатная разработка компании Google предназначена для поиска информации на персональном компьютере пользователя, в сети Интернет и корпоративной сети предприятия.

Google Desktop Search Enterprise может похвастаться возможностью индексации и поиска документов пары десятков самых распространенных текстовых форматов, а также электронной почты, тэгов аудио- и видеофайлов и изображений. Есть один немаловажный момент: для того, чтобы указать программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search Enterprise индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. С 20 гигабайтами текстов Google Desktop Search справилась за 8 часов 17 минут. Размер созданного индекса равен 4,5 Гб. Скорость поиска – удовлетворительна и находится на одном уровне с уже признанными игроками рынка.
В отличие от, например, ISYS и dtSearch, Google Desktop Search Enterprise может похвастаться, наверное, самым дружественным пользователю интерфейсом. Но, по части администрирования и настройки работы в локальной сети она уступает конкурентам, причем, весьма ощутимо. Дело в том, что настроить сетевую работу так, как нужно в определенной ситуации, довольно непросто – система пытается все сделать самостоятельно.
Тонкая настройка достигается только при установке дополнительных компонентов. Это большой минус. Можно сказать, что как настольная система Google Desktop Search с компонентом gdetweak не имеет себе равных. Но вот о корпоративном применении можно пока забыть. Заявленный поиск документов, похожих по содержанию, работает из рук вон плохо, судя по всему, именно поэтому и не включен в «не глобальный» как настольный, так и сетевой вариант.

Плюсы Google Desktop Search:
Поиск с использованием морфологии
Поиск с использованием синонимов
Поддержка различных кодировок
Привычный веб-интерфейс
Работа в локальной сети (Enterprise версия)
Индексация электронной почты, тэгов аудио и видео файлов и изображений
Бесплатность
Минусы Google Desktop Search:
Необходимость установки большого количества дополнительных модулей
Copernic Desktop Search
Разработчик: Copernic
Официальный сайт: www.copernic.com
Цена: бесплатно
Размер дистрибутива: 2,56 Мб

Copernic Desktop Search позволяет искать различные файлы, сообщения электронной почты (поддерживается работа с Outlook Express 5.x/6.x, Outlook 2000/XP/2003, Windows Address Book), документы Word, Excel, PowerPoint, Acrobat PDF, музыкальные и видео файлы, графику и т.д. Причем, поиск может осуществляться как на локальном компьютере, так и в Интернете.
Встроенные средства просмотра различных файлов позволяют визуально увидеть результаты поиска. Например, если выделить в главном окне программы значок какого-либо html-документа, то в Copernic Desktop Search отобразится его содержание. После инсталляции программы на «Панели задач» появляется небольшое окошко, предназначенное для ввода поискового запроса и быстрой настройки этого поисковика. Отдельно стоит отметить высокую скорость работы программы и низкий уровень потребления ресурсов компьютера. Проиндексировать 20 гигабайт текста Copernic Desktop Search удалось за 10 часов 51 минуту. При этом размер созданного индекса составил 7 Гб.

Плюсы Copernic Desktop Search:
Поиск с использованием морфологии
Исключительно дружественный интерфейс
Индексация электронной почты, тэгов аудио- и видеофайлов и изображений
Работа с электронными сообщениями Microsoft Outlook и Microsoft Outlook Express
Бесплатность

Минусы Copernic Desktop Search:
Отсутствие встроенного просмотрщика документов
Отсутствие поддержки работы с сетью

SearchInform 1.5
Разработчик: «СофтИнформ Ltd.»
Официальный сайт: www.searchinform.com/site/ru
Цена: $199.95
Размер дистрибутива: 15 Мб
Система SearchInform Desktop 1.5 проиндексировала предоставленные данные в размере 20 гигабайт за рекордное время – 3 часа 17 минут. Да и размер созданного индекса оказался самым небольшим 4.4 Гб.
Поисковик компании «СофтИнформ» разработан на основе технологии SoftInform Search Technology – «поиска документов, похожих по содержанию». Данная технология основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста. Это позволяет в процессе поиска избежать предварительного подбора ключевых слов – поиск осуществляется по всему документу в целом. Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности.
Стоит также обратить внимание на небольшую, но полезную функцию SearchInform – Smart Indexing, которая позволяет в режиме реального времени отслеживать нагрузку на процессор компьютера и регулировать уровень потребления программой системных ресурсов при индексации.

Плюсы SearchInform Desktop 1.5:
Поиск с использованием морфологии
Поиск с использованием синонимов
Нечеткий поиск
Функция важных слов для конкретизации поиска
Индексация электронных сообщений Outlook и TheBat!
Поиск по атрибутам
Авторубрикация документов
Поддержка различных источников информации (СУБД, DMS, CRM и так далее)
Работа с сетью (Corporate версия) на основе наследования NTFS аутентификации Windows
Скорость поиска и индексирования
Поиск похожих по смыслу документов
Минусы SearchInform Desktop 1.5:
Проблемы с защищенными документами PDF

«Трактор» проиграл «Автомобилисту». Ну хоть Седлак забил 13 вагонов сошли с рельс на Транссибе Коллеги вступились за избившую школьника учительницу В Брянске отметили 150 День рождения почтовой открытки Пьяный парень решил пошутить над девушкой и выбросил ее с балкона

Лента новостей