|
|
16.04.2017, 14:42
|
|
Евгений
Зарегистрирован: 2017-04-16
Сообщений: 5
|
Здравствуйте.
В вебмастере яндекса вижу что бот ходит как по нормальным так и по несуществующим страницам. Например: site.ru/folder/folder2/ -это нормальная страница
а бывает заходит по site.ru/folder/folder2/site.ru/folder/folder2/
или такое site.ru/folder/folder2/ÑÑлоннÑе/Ñим
чаще всего виде - amp - & - amp%3B
Понятно что таких страни и ссылок на сайте нет, никому в голову не придет такой адрес набирать!
Чаще всего сайт выдает 404Not Found, однако у меня есть пагинация и сортировка по тегам в одном разделе, там более 10т фоток и их необходимо сортировать. Нормальная страница там выглядит так:
site.ru/folder/folder2/?tag=оливковый или site.ru/folder/folder3/?tag=оливковый и т.д.
или site.ru/folder/folder2/?cur_cc=641&tag=оливковый&curPos=90
однако Яндекс пихает в "хвост" все что ему захочется и проверяет нет ли такой страницы.
В этом случае ответ сервера будет 200OK, но страница будет пустая т.к. такой сортировки нет на сайте.
Я бы удалил эти страницы в robots или htaccess, однако это нужно знать какие именно, а Яндекс каждый день придумывает все новые и новые сочетания, каракули и всякую белеберду в разных сочетаниях,
подставляет их как угодно и с чем угодно. Появляются что на сайте и ненужные дубли и куча пустых уродливых страниц.
Прошу у опытных разработчиков помочь мне решить эту проблему если это недочеты из-за CMS.
NetCat Extra версия 5.2. Спасибо.
|
|
|
20.04.2017, 12:00
|
|
Евгений
Зарегистрирован: 2017-04-16
Сообщений: 5
|
Похоже программисты netcat не такие уж и программисты (
|
|
|
20.04.2017, 14:17
|
|
VenZell
Карагодников Алексей Николаевич
Зарегистрирован: 2014-07-25
Сообщений: 77
|
Здравствуйте. Краулер Яндекса не умеет сам выдумывать новые страницы.
Скорее всего, ссылки на них в том или ином виде представлены на страницах.
Поскольку вы не предоставили ссылки на свой сайт, вряд ли вам кто-то сможет помочь.
Напишите запрос в техническую поддержку со всеми подробностями.
|
|
|
20.04.2017, 19:03
|
|
Евгений
Зарегистрирован: 2017-04-16
Сообщений: 5
|
Спасибо и на этом.
Я скорее всего криворукий как программист, однако точно знаю, что таких ссылок как
/portfolio/design/?cur_cc=641&%3Bamp%3BcurPos=90&%3BcurPos=90&curPos=270
на сайте нет, есть только максимум /portfolio/design/?cur_cc=641&tag=Современный&curPos=90
которые означают что картинок в стиле Современный у меня несколько страниц и они вполне себе ЧПУ.
Проблема в том что сайт отдает ответ с кодом 200 на любые get параметры, даже которых нет, и я получаю дубли, которые вредят сайту!
Когда это обнаружилось мы кое-как / ломом заставили выдавать нормальные канонические ссылки
и использовали редирект но это не те меры, нужно сделать так чтобы ответ был 404 или что-то в этом духе. Сами мы не справимся и просим помочь или направить где копать.
Еще раз спасибо!!!
|
|
|
20.04.2017, 22:02
|
|
Евгений
Зарегистрирован: 2017-04-16
Сообщений: 5
|
мне подсказали что можно сделать только у меня мозгов своих не хватит:
сделать массив в котором будут указаны все get запросы, в моем случае это тэги
у меня они фиксированы, это же не поиск по сайту...
так вот, далее сделать функцию которая проверяет тег на соответствие, а если такого нет то на 404
думаю это самое адекватное решение
кто сможет реализовать пишите, об оплате тоже можем договориться
|
|
|
26.04.2017, 23:49
|
|
Евгений
Зарегистрирован: 2017-04-16
Сообщений: 5
|
Спасибо всем, додумались сами и написали защиту.
|
|
|
13.09.2019, 18:07
|
|
maxonline
Maxonline
Зарегистрирован: 2009-01-12
Сообщений: 45
|
Можете поделиться какое решение сделали? Буду благодарен
Тоже столкнулся с такой проблемой, что в индексе Яндекса много страниц-дублей с длинными странными урлами
Максим
|