JesCid (jescid) wrote in ru_seo,
JesCid
jescid
ru_seo

Это Яндекс?

Страницы некоего сайта уже более двух месяцев то вылетают, то вновь появляются в базе.

А вот, что ответили из Яндекса:
"Никаких санкций нет. Главная страница Вашего сайта была удалена из базы сегодня в силу того, что сервер отдавал, не указывал или не правильно указывал формат сообщения или указывал формат, который нами не индексируется. Пожалуйста, проверьте по логам почему такое могло произойти. На данный момент все указано верно -- Content-Type: text/html; charset=windows-1251. После переиндексации страницы, она должна вернуться в базу."

Как это сервер может вдруг в какой-то момент периодически выдавать не ту кодировку и не тот тип страницы? И как это я проверю по логам?
И что у них имеется ввиду под "сервер... не правильно указывал формат сообщения или указывал формат, который нами не индексируется"? Какое такое сообщение им указывал сервер?
Даже хостинг сменили - всё по-прежнему.

По логам я вижу только то, что их робот заходит, берёт HEAD как 0 (провайдера сменили - всё равно!):

213.180.198.130 - - [07/Dec/2005:02:06:37 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"
213.180.198.130 - - [08/Dec/2005:02:05:50 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"
213.180.193.53 - - [09/Dec/2005:02:01:36 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"
213.180.198.130 - - [09/Dec/2005:02:07:52 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"

- В течении недели. Главная в выдаче при том... (Что за буковка "С"? - что-то я не помню таковой раньше... Знаю только D,I,M,P,H...)

Подсветчик, при том, берёт главную совершенно нормально:
213.180.206.247 - - [09/Dec/2005:13:09:29 +0300] "GET / HTTP/1.1" 200 20537 "-" "Yandex/1.01.001 (compatible; Win16; M)"
(вчера)

Сегодня захожу с утра - берёт HEAD как 0:
213.180.193.53 - - [10/Dec/2005:01:55:23 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"
213.180.198.130 - - [10/Dec/2005:02:04:48 +0300] "HEAD / HTTP/1.0" 200 0 "-" "Yandex/2.01.000 (compatible; Win16; Dyatel; C)"

После чего взята нормально главная:
213.180.206.248 - - [10/Dec/2005:04:25:20 +0300] "GET / HTTP/1.1" 200 20537 "-" "Yandex/1.01.001 (compatible; Win16; I)"

Но главной опять нет в выдаче....

Провайдер (уже другой) пишет: "какое-то нарушение процедуры с их стороны произошло".
Так у меня это длится ровно с того момента, как они объявили про свой супер-пупер быстрый робот-индексатор!

Ковыряю дальше, вижу, что индексатор Yandex-а позднее периодически получает 304 (Not Modified) - и упорно заходит за ней каждый час.

213.180.206.248 - - [10/Dec/2005:08:48:59 +0300] "GET / HTTP/1.1" 304 - "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.206.248 - - [10/Dec/2005:10:14:11 +0300] "GET / HTTP/1.1" 304 - "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.206.248 - - [10/Dec/2005:11:21:11 +0300] "GET / HTTP/1.1" 304 - "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.206.248 - - [10/Dec/2005:12:27:28 +0300] "GET / HTTP/1.1" 304 - "-" "Yandex/1.01.001 (compatible; Win16; I)"
213.180.206.248 - - [10/Dec/2005:13:35:24 +0300] "GET / HTTP/1.1" 304 - "-" "Yandex/1.01.001 (compatible; Win16; I)"

И что - за это надо главную страницу выкидывать из базы? А потом, если вдруг опять 200 OK - снова страницу казать?
За 304 (это же только ответ Not Modified!!!), по идее, не надо лишь страницу заново скачивать.
То, что принудительно мы нигде сами не отдаём 304 - это совершенно точно. Или это и есть то самое - "сервер... не правильно указывал формат сообщения или указывал формат, который нами не индексируется"??

Иду смотреть другие сайты (у третьих провайдеров) - все аналогично - перидически отдаётся 0 в HEAD, но главные страницы как сидели, так и сидят.

Иду смотреть, что в логах на одном совершенно некоммерческом проекте: ни разу с января 2005 Yandex не запросил HEAD! Но и ни разу не получил 304... И проект совершенно нормально проиндексирован...

P.S. Одна засада - обсуждаемый сайт писался не мной. Вместо mod_rewrite там одни очень продвинутые товарищи (даже знаю откуда ;)) прикрутили парсинг URL таким вот "изящным" образом: ErrorDocument 404 /cgi-bin/index.pl
- но снаружи то любой желающий робот и юзер всё равно получают свои 200 ОК!
И сайт где-то до октября индексировался совершенно нормально.
Код проверен - никакой другой подставы у них там нет.
P.P.S. Пока что приходится, наверно, только вписать в .htaccess ещё и ErrorDocument 304 /cgi-bin/index.pl %/ - посмотрим, что будет... Зациклится? 8)
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 7 comments