Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 13.2.1Начало работы с модулем 13.2.2Язык запросов 13.2.3Способы хранения индекса 13.2.4Интерфейс модуля в панели управления сайтом 13.2.5Области индексирования 13.2.6Области HTML-страниц 13.2.7Области поиска на сайте 13.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 13.2.9Правила индексирования 13.2.10Постановка задачи переиндексирования в очередь 13.2.11Интеграция модуля в макеты дизайна сайта 13.2.12Простая форма поиска 13.2.13Расширенная форма поиска 13.2.14Вывод результатов поиска 13.2.15Стилизация списка подсказок 13.2.16Расширенные настройки 13.2.17Разработка расширений модуля 13.2.18Обзор архитектуры модуля 13.2.19Обработчики документов различных типов 13.2.20Текстовые фильтры 13.2.21Анализаторы текста 13.2.22Корректировщики запросов 13.2.23Подключение других поисковых систем 13.2.24Решение проблем с поиском 13.2.25Решение проблем с индексированием 13.2.26Справочник API

Модуль «Поиск по сайту»

Основные возможности модуля:

 

Поиск на сайте

  • Полнотекстовый поиск с учётом синонимов, стоп-слов, с ранжированием результатов по релевантности, сортировкой по дате изменения.
  • Мощный язык запросов с возможностью логических запросов, поиска фраз, поиска по шаблону и похожести, управления весом слов в запросе.
  • Полноценный (в отличие от стемминга) морфологический анализ текста на русском и английском языках.
  • Выпадающие подсказки в поле поиска для быстрого перехода к результатам поиска.
  • Исправление запросов, набранных в неправильной раскладке клавиатуры или с ошибками.
  • Возможность полностью изменить отображение поисковых форм и результатов поиска.
  • Возможность указать область поиска (поиск только в определённых разделах сайта).
 

Индексирование документов на сайте

  • Гибкое указание области для переиндексирования вплоть до отдельных страниц; исключение страниц по регулярному выражению.
  • Периодическое переиндексирование по расписанию и по запросу.
  • Гибкое управление индексируемыми областями HTML-страниц: возможность исключить из индекса части страниц.
  • Извлечение данных из HTML-документов по xpath-запросу и регулярным выражением с возможностью дальнейшего поиска и сортировки результатов по этим данным.
  • Присваивание различного веса словам, находящимся в разных областях документа (например, в заголовках или в тэгах META).
  • Поддержка доменных имён на национальных языках (IDN) и путей с нелатинскими буквами.
  • Многоязыковая поддержка: возможность подключения анализаторов и стеммеров для любых языков.
  • Расширяемость: возможность подключения различных поисковых систем, сервисов проверки орфографии, поиска по файлам различных типов.
 

Сбор информации для администратора сайта

  • Статистика обращений к поисковой системе.
  • Обнаружение ссылок на несуществующие документы (как на сайте, так и за его пределами).
 

Оптимизация сайта для внешних поисковых систем

  • Управление файлом robots.txt: возможность исключить разделы из результатов поиска внешних поисковых систем.
  • Автоматическое создание файла sitemap.xml: задание приоритета страниц в отдельных разделах сайта, частоты изменения страниц, даты последнего изменения.

Индексирование сайта — процесс, который может потребовать значительных ресурсов сервера; нагрузка растёт соразмерно объёму базы данных. Корпоративный сайт-визитка и развитой интернет портал запрашивают разные требования. Следует учитывать это при выборе тарифного плана хостинга.

Для индексирования сайта на HTTPS потребуется включенное расширение OpenSSL для PHP.

Далее в разделе

Описание проекта