Онлайн-руководство разработчика NetCat
Модуль «Поиск по сайту» 12.2.1Начало работы с модулем 12.2.2Язык запросов 12.2.3Способы хранения индекса 12.2.4Интерфейс модуля в панели управления сайтом 12.2.5Области индексирования 12.2.6Области HTML-страниц 12.2.7Области поиска на сайте 12.2.8Индексирование по расписанию, запуск индексирования в фоновом режиме 12.2.9Правила индексирования 12.2.10Постановка задачи переиндексирования в очередь 12.2.11Интеграция модуля в макеты дизайна сайта 12.2.12Простая форма поиска 12.2.13Расширенная форма поиска 12.2.14Вывод результатов поиска 12.2.15Стилизация списка подсказок 12.2.16Расширенные настройки 12.2.17Разработка расширений модуля 12.2.18Обзор архитектуры модуля 12.2.19Обработчики документов различных типов 12.2.20Текстовые фильтры 12.2.21Анализаторы текста 12.2.22Корректировщики запросов 12.2.23Подключение других поисковых систем 12.2.24Решение проблем с поиском 12.2.25Решение проблем с индексированием 12.2.26Справочник API

Обработчики документов различных типов

Имеется возможность индексировать файлы различных типов. Обработчик документа должен реализовать интерфейс nc_search_document_parser:

public function load (nc_search_indexer_crawler_response $response)
Тип: void

После загрузки документа индексатором будет вызван метод $parser->load(). Обработчик создается во время сессии индексирования однократно для каждого из типов документа, переключение на следующий документ производится вызовом метода load(), поэтому не забудьте сбросить в этом методе относящиеся к предыдущему документу свойства, если таковые имеются.

В качестве параметра передается экземпляр класса nc_search_indexer_crawler_response, у которого доступны следующие методы:

  • $response->get_body()
    метод получения тела ответа HTTP (содержимого документа)
  • $response->get_header('название-заголовка-строчными-буквами')
    метод получения заголовка ответа HTTP
  • $response->get_url()
    метод получения адреса страницы
  • $response->get_content_type()
    метод получения типа документа

От обработчика зависит, что он будет делать с полученной информацией (например, может быть целесообразным использовать не содержимое ответа, а считать файл с локальной файловой системы).

public function should_index()
Тип: boolean

Обработчик должен вернуть TRUE, если загруженный документ подлежит индексированию. (Обработчик может принять решение о том, что документ не следует индексировать, например, исходя из каких-либо метаданных, имеющихся в документе.)

public function get_document()
Тип: nc_search_document

Метод должен вернуть экземпляр класса nc_search_document (далее — «документ»).

Каждый документ состоит из полей. Служба поиска сохраняет их в поисковом индексе и (или) в СУБД. У документа как минимум должны быть установлены значения полей title (заголовок документа) и content (содержимое):

$doc = new nc_search_document();
$doc->set_field_value('title', 'Заголовок');
$doc->set_field_value('content', 'Текст документа');

Документ может содержать и другие поля, которые будут использоваться при поиске — например, поля с бóльшим или меньшим весом:

$field = new nc_search_field(array(
    'name' => 'important_field', // имя поля
    'weight' => 3, // вес поля
));

$doc->add_field($field);
$doc->set_field_value('important_field', 'текст с весом 3');

public function extract_links()
Тип: array

Метод должен вернуть массив с гиперссылками, найденными в документе или пустой массив, если ссылок не найдено.

Образец скелета класса для индексирования PDF-документов:

<?php
// укажите путь до папки с модулем поиска (в данном примере предполагается,
// что класс находится в файле modules/default/function.inc.php):

require_once dirname(__FILE__) . "/../search/function.inc.php";

class my_pdf_parser implements nc_search_document_parser {
    protected $content;
    protected $file_name;

    public function load(nc_search_indexer_crawler_response $response) {
        $this->file_name = basename($response->get_url());
        // тут нужно каким-то образом получить текстовое содержимое документа:
        $this->content = pdf_get_content($response->get_body());
    }

    public function should_index() {
        return true;
    }

    public function extract_links() {
        return array();
    }

    public function get_document() {
        $doc = new nc_search_document();
        $doc->set_field_value('title', $this->file_name);
        $doc->set_field_value('content', $this->content);

        return $doc;
    }
}

После создания класса нужно добавить запись о нём на вкладке «Настройки» — «Расширения». Для примера выше (обработка PDF-файлов) значения будут следующими: интерфейс расширения — nc_search_document_parser, класс расширения — my_pdf_parser, MIME-тип —application/pdf. После этого все документы, которые ваш веб-сервер отдаёт с заголовком Content-type: application/pdf будут обрабатываться указанным расширением.

public function check_environment()
Тип: void

Метод вызывается в панели управления модулем для проверки соответствия конфигурации PHP требованиям данного обработчика документов. Если для вашего обработчика необходимо наличие каких-либо дополнительных расширений PHP или определённые настройки PHP, в данном методе вы можете проверить выполнение этих условий, и в случае неправильной конфигурации вывести предупреждение с помощью функции nc_print_status('Сообщение', 'error').

Описание проекта