Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 12.2.1Начало работы с модулем 12.2.2Язык запросов 12.2.3Способы хранения индекса 12.2.4Интерфейс модуля в панели управления сайтом 12.2.5Области индексирования 12.2.6Области HTML-страниц 12.2.7Области поиска на сайте 12.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 12.2.9Правила индексирования 12.2.10Постановка задачи переиндексирования в очередь 12.2.11Интеграция модуля в макеты дизайна сайта 12.2.12Простая форма поиска 12.2.13Расширенная форма поиска 12.2.14Вывод результатов поиска 12.2.15Стилизация списка подсказок 12.2.16Расширенные настройки 12.2.17Разработка расширений модуля 12.2.18Обзор архитектуры модуля 12.2.19Обработчики документов различных типов 12.2.20Текстовые фильтры 12.2.21Анализаторы текста 12.2.22Корректировщики запросов 12.2.23Подключение других поисковых систем 12.2.24Решение проблем с поиском 12.2.25Решение проблем с индексированием 12.2.26Справочник API

Модуль «Поиск по сайту»

Основные возможности модуля:


Поиск на сайте

  • Полнотекстовый поиск с учётом синонимов, стоп-слов, с ранжированием результатов по релевантности, сортировкой по дате изменения.
  • Мощный язык запросов с возможностью логических запросов, поиска фраз, поиска по шаблону и похожести, управления весом слов в запросе.
  • Полноценный (в отличие от стемминга) морфологический анализ текста на русском и английском языках.
  • Выпадающие подсказки в поле поиска для быстрого перехода к результатам поиска.
  • Исправление запросов, набранных в неправильной раскладке клавиатуры или с ошибками.
  • Возможность полностью изменить отображение поисковых форм и результатов поиска.
  • Возможность указать область поиска (поиск только в определённых разделах сайта).

Индексирование документов на сайте

  • Гибкое указание области для переиндексирования вплоть до отдельных страниц; исключение страниц по регулярному выражению.
  • Периодическое переиндексирование по расписанию и по запросу.
  • Гибкое управление индексируемыми областями HTML-страниц: возможность исключить из индекса части страниц.
  • Извлечение данных из HTML-документов по xpath-запросу и регулярным выражением с возможностью дальнейшего поиска и сортировки результатов по этим данным.
  • Присваивание различного веса словам, находящимся в разных областях документа (например, в заголовках или в тэгах META).
  • Поддержка доменных имён на национальных языках (IDN) и путей с нелатинскими буквами.
  • Многоязыковая поддержка: возможность подключения анализаторов и стеммеров для любых языков.
  • Расширяемость: возможность подключения различных поисковых систем, сервисов проверки орфографии, поиска по файлам различных типов.

Сбор информации для администратора сайта

  • Статистика обращений к поисковой системе.
  • Обнаружение ссылок на несуществующие документы (как на сайте, так и за его пределами).

Оптимизация сайта для внешних поисковых систем

  • Управление файлом robots.txt: возможность исключить разделы из результатов поиска внешних поисковых систем.
  • Автоматическое создание файла sitemap.xml: задание приоритета страниц в отдельных разделах сайта, частоты изменения страниц, даты последнего изменения.

Индексирование сайта — процесс, который может потребовать значительных ресурсов сервера; нагрузка растёт соразмерно объёму базы данных. Корпоративный сайт-визитка и развитой интернет портал запрашивают разные требования. Следует учитывать это при выборе тарифного плана хостинга.

Далее в разделе

Описание проекта