Модуль поиска позволяет гибко указывать область для переиндексирования (вкладка «Настройки» — «Правила» в панели управления модулем).
Указание сайта:
site1
— сайт с идентификатором 1mysite.ru
— домен сайта (не указывайте протокол http!)allsites
— все сайты под управлением данной копии NetCatУказание раздела:
sub10*
— раздел с идентификатором 10 и все его потомки (разделы, объекты)sub10
— раздел с идентификатором 10 и страницы объектов, расположенные в нёмsub10.
— раздел с идентификатором 10, только главная страница разделаsubXX
можно указать путь к разделу, заканчивающийся на «/
» (также можно использовать модификаторы «.
», «*
»):/company/news/
/company/news/*
/company/news/.
Указание конкретной страницы — необходимо указать путь до страницы:
/company/about/history.html
Для исключения подобласти необходимо поставить знак «-
» перед её описанием:
-sub10
-/company/*
Можно указать любое количество подобластей через пробел, перенос строки или запятую:
/company/* /catalogue/* -sub15
Если необходимо исключить один или несколько уровней иерархии, разделы должны быть перечислены в порядке увеличения глубины их положения в дереве разделов:
/company/* -/company/staff/* /company/staff/director.html
В панели управления модулем («Настройки» — «Общие», раздел «Запретить индексирование страниц по регулярному выражению») можно указать глобальные (действующие для всех правил) шаблоны путей, по которым страницы будут исключены из процесса индексирования. Данные шаблоны являются регулярными выражениями и применяются к полному пути страницы, включая протокол (http) и доменное имя. Правила задаются без разделителей и модификаторов регулярных выражений.
Примеры глобальных правил:
[?&]template=59
— исключить все пути, содержащие ?template=59
или &template=59
^http://[^/]+/netcat/
— исключить все пути на всех сайтах, начинающиеся с /netcat/
\.rss$
— исключить все пути, заканчивающиеся на .rss
Внимание! Не забудьте экранировать спецсимволы регулярных выражений «.
», «?
». Прямой слеш «/
» экранировать не нужно.
Все страницы, пути которых попадают под правила исключения, не будут запрашиваться модулем в процессе индексирования. Правила исключения также применяются к путям на других сайтах, если включена опция проверки ссылок за пределами сайта.
Исключение страницы из области индексирования также означает, что с данной страницы не будут получены для проверки ссылки на другие страницы.
Страницы, на которые имеются ссылки с атрибутом rel="nofollow"
, не добавляются в очередь индексатора. Таким образом, если все ссылки на какую-либо страницу имеют данный атрибут, страница не будет проиндексирована.
На область поиска влияет настройка сайтов и разделов «Запретить индексирование» (вкладка «SEO» в настройках сайта и раздела). Все разделы, индексирование которых запрещено, не будут запрашиваться модулем в процессе переиндексирования.
Кроме того, если на HTML-странице имеется тэг <meta name="robots" content="noindex" />
(такой тэг добавляется автоматически для страниц, находящихся в запрещённых к индексированию разделах, но его можно добавить и самостоятельно), страница также не будет индексироваться.
По умолчанию индексируются страницы размером не более 5 Мб. Вы можете увеличить или уменьшить это значение в панели управлением модулем на вкладке «Настройки» — «Общие», пункт «Максимальный размер индексируемых страниц».