Регистрация
Регистрируясь, вы подтверждаете свое согласие с соглашением об использовании персональных данных.
Восстановление пароля

Странные url с лишними параметрами

16.04.2017, 14:42
Евгений

Зарегистрирован:
2017-04-16
Сообщений: 5

Здравствуйте.
В вебмастере яндекса вижу что бот ходит как по нормальным так и по несуществующим страницам. Например: site.ru/folder/folder2/ -это нормальная страница
а бывает заходит по site.ru/folder/folder2/site.ru/folder/folder2/
или такое site.ru/folder/folder2/рулонные/рим
чаще всего виде - amp - &amp - amp%3B
Понятно что таких страни и ссылок на сайте нет, никому в голову не придет такой адрес набирать!
Чаще всего сайт выдает 404Not Found, однако у меня есть пагинация и сортировка по тегам в одном разделе, там более 10т фоток и их необходимо сортировать. Нормальная страница там выглядит так:
site.ru/folder/folder2/?tag=оливковый или site.ru/folder/folder3/?tag=оливковый и т.д.
или site.ru/folder/folder2/?cur_cc=641&tag=оливковый&curPos=90
однако Яндекс пихает в "хвост" все что ему захочется и проверяет нет ли такой страницы.
В этом случае ответ сервера будет 200OK, но страница будет пустая т.к. такой сортировки нет на сайте.
Я бы удалил эти страницы в robots или htaccess, однако это нужно знать какие именно, а Яндекс каждый день придумывает все новые и новые сочетания, каракули и всякую белеберду в разных сочетаниях,
подставляет их как угодно и с чем угодно. Появляются что на сайте и ненужные дубли и куча пустых уродливых страниц.
Прошу у опытных разработчиков помочь мне решить эту проблему если это недочеты из-за CMS.
NetCat Extra версия 5.2. Спасибо.
20.04.2017, 12:00
Евгений

Зарегистрирован:
2017-04-16
Сообщений: 5

Похоже программисты netcat не такие уж и программисты (
20.04.2017, 14:17
VenZell
Карагодников Алексей Николаевич
VenZell

Зарегистрирован:
2014-07-25
Сообщений: 29

Здравствуйте. Краулер Яндекса не умеет сам выдумывать новые страницы.
Скорее всего, ссылки на них в том или ином виде представлены на страницах.
Поскольку вы не предоставили ссылки на свой сайт, вряд ли вам кто-то сможет помочь.
Напишите запрос в техническую поддержку со всеми подробностями.
20.04.2017, 19:03
Евгений

Зарегистрирован:
2017-04-16
Сообщений: 5

Спасибо и на этом.
Я скорее всего криворукий как программист, однако точно знаю, что таких ссылок как
/portfolio/design/?cur_cc=641&amp%3Bamp%3BcurPos=90&amp%3BcurPos=90&curPos=270
на сайте нет, есть только максимум /portfolio/design/?cur_cc=641&tag=Современный&curPos=90
которые означают что картинок в стиле Современный у меня несколько страниц и они вполне себе ЧПУ.
Проблема в том что сайт отдает ответ с кодом 200 на любые get параметры, даже которых нет, и я получаю дубли, которые вредят сайту!
Когда это обнаружилось мы кое-как / ломом заставили выдавать нормальные канонические ссылки
и использовали редирект но это не те меры, нужно сделать так чтобы ответ был 404 или что-то в этом духе. Сами мы не справимся и просим помочь или направить где копать.
Еще раз спасибо!!!
20.04.2017, 22:02
Евгений

Зарегистрирован:
2017-04-16
Сообщений: 5

мне подсказали что можно сделать только у меня мозгов своих не хватит:
сделать массив в котором будут указаны все get запросы, в моем случае это тэги
у меня они фиксированы, это же не поиск по сайту...
так вот, далее сделать функцию которая проверяет тег на соответствие, а если такого нет то на 404
думаю это самое адекватное решение
кто сможет реализовать пишите, об оплате тоже можем договориться
26.04.2017, 23:49
Евгений

Зарегистрирован:
2017-04-16
Сообщений: 5

Спасибо всем, додумались сами и написали защиту.
198 196 2017-04-26 23:49:55 14739
Описание проекта