Онлайн-руководство разработчика NetCat
Netcat 7 — нейросеть в вашем сайте!
Подробнее
Модуль «Поиск по сайту» 14.2.1Начало работы с модулем 14.2.2Язык запросов 14.2.3Способы хранения индекса 14.2.4Интерфейс модуля в панели управления сайтом 14.2.5Области индексирования 14.2.6Области HTML-страниц 14.2.7Области поиска на сайте 14.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 14.2.9Правила индексирования 14.2.10Постановка задачи переиндексирования в очередь 14.2.11Интеграция модуля в макеты дизайна сайта 14.2.12Простая форма поиска 14.2.13Расширенная форма поиска 14.2.14Вывод результатов поиска 14.2.15Стилизация списка подсказок 14.2.16Расширенные настройки 14.2.17Разработка расширений модуля 14.2.18Обзор архитектуры модуля 14.2.19Обработчики документов различных типов 14.2.20Текстовые фильтры 14.2.21Анализаторы текста 14.2.22Корректировщики запросов 14.2.23Подключение других поисковых систем 14.2.24Решение проблем с поиском 14.2.25Решение проблем с индексированием 14.2.26Справочник API

Анализаторы текста

Анализаторы текста (наследуют класс nc_search_language_analyzer) отвечают за приведение слов к базовой форме.

Морфологический анализ текста

По умолчанию для морфологического анализа русского и английского языков используется библиотека phpMorphy (http://phpmorphy.sf.net/).

Библиотека также имеет словари для украинского, эстонского, немецкого языков (не поставляются с NetCat). Для этих языков необходимо скачать соответствующие UTF-8 словари с сайта phpMorphy, поместить их в папку modules/search/lib/3rdparty/phpmorphy/dicts/, и добавить запись на вкладке «Настройки» — «Расширения» (интерфейс расширения — nc_search_language_analyzer, класс расширения — nc_search_language_analyzer_morphy, язык — Ukrainian, Estonian или German).

Примечание: словари phpMorphy для работы с модулем поиска должны иметь расширение с повторяющимся кодом языка вместо кода страны («uk_uk.bin», а не «uk_ua.bin», «et_et.bin» вместо «et_ee.bin»).

Стемминг

В комплекте поставки модуля поиска имеются стеммеры для русского и английского языков. Стеммеры представляют собой алгоритм, определяющий корень слова. Данный способ является гораздо менее точным, чем морфологический анализ, но требует меньше ресурсов сервера. Вы можете использовать стемминг вместо морфологического анализа в тех случаях, когда существует необходимость уменьшить нагрузку на процессор и время, необходимое для индексирования документов. Для использования стемминга вместо морфологического анализа:

  • Откройте вкладку «Настройки» — «Расширения» в панели управления модулем поиска.
  • Нажмите на кнопку «Изменить» напротив расширения с классом nc_search_language_analyzer_morphy для языка с кодом en.
  • В форме редактирования замените класс расширения с nc_search_language_analyzer_morphy на nc_search_language_analyzer_stemmer_en и сохраните настройки.
  • Проделайте ту же операцию для расширения с классом nc_search_language_analyzer_morphy для языка с кодом ru (класс стеммера — nc_search_language_analyzer_stemmer_ru).

 

Для создания собственного стеммера можно создать класс, наследующий nc_search_language_stemmer, в этом случае необходимо реализовать только метод stem(string $word).

Примечание: на вход анализатору (при настройках по умолчанию) попадают слова в верхнем регистре, в том же регистре должен быть результат выполнения обработки текста анализатором.

Описание проекта