Андрей Травин (volk) wrote in ru_seo,
Андрей Травин
volk
ru_seo

Category:

Инструкция для асессоров Яндекса

Общие правила

Базовой единицей оценки является оценка рел+. Релевантный ответ предоставляет решение пользовательской задачи (бывают запросы, для которых задача, по сути, одна, а бывают запросы, для которых существует спектр задач или которым соответствует несколько объектов поиска).

Если страница позволяет решить сразу несколько задач (для запросов с несколькими потребностями), информации гораздо больше, чем на среднего уровня релевантной странице, она лучше структурирована, - такой странице стоит поставить оценку полезный.
Когда наоборот, страница не полностью решает задачу, слишком сужает её или наоборот, расширяет, если страница посвящена малозначительному объекту - тогда оценка должна быть ниже, это рел- ответ.

Витальный ответ - это официальный ответ на вопрос, он несколько отличается от прочей шкалы. Для многих запросов витального ответа не может существовать в принципе, потому что нет официального владельца информации по теме. Обычно определить витальный довольно просто, но иногда бывают и более запутанные случаи.

Также в шкале присутствуют две близких по смыслу оценки нерел и не про то. Нерелевантный - это документ, который в целом соответствует теме запроса, но на него не отвечает. Не про то - это оценка для случаев, когда документ не просто не отвечает на запрос, но вообще относится к совершенно другой тематике.

Помимо релевантности есть ещё оценка спама. Для документов, где присутствуют признаки спама, надо поставить оценку "спам", остальные - "не спам".

Документам с оценкой рел+ и полезный также надо ставить срок устаревания (чаще всего - никогда, но некоторые документы релевантны запросу в момент оценки, а со временем теряют релевантность).

Философия оценки

Во время выполнения заданий у вас могут возникнуть разные вопросы по работе, например: в какой части инструкции искать правила к моему запросу? Как понять, где граница между релевантным и нерелевантным ответом? Может ли тут быть витальный ответ? Что делать, если задание в корне противоречит здравому смыслу? Как не скатиться в формализм и не забыть про здравый смысл? Как не потерять веру в человечество после всего этого?
В первую очередь важно понимать, что автоматизировать систему оценки невозможно, требуются именно человеческие оценки, а не ответ от робота. С другой стороны, оценки разных людей (экспертов) должны быть согласованы и проставлены по единой схеме, иначе вместо оценки получится сомнительного качества опрос общественного мнения.

Чтобы экспертные оценки обладали достаточным качеством, была разработана инструкция асессоров, которая постоянно обновляется и улучшается. Предусмотреть все возможные комбинации запрос-ответ невозможно, но самые распространённые варианты в ней описаны. Если ваш случай однозначно попадает в описание из инструкции, надо оценивать страницы из задания согласно этому описанию. Если же прямого ответа на свой вопрос в инструкции вы не нашли, нужно ориентироваться на здравый смысл.

Часто запросы бывают однозначные сами по себе, например [бесплатные новые игры винкс ТОЛЬКО БРОДИЛКИ винкс только про винкс и больше не чего только бродилки]. Логично предположить, что если ответ не содержит игр-бродилок про Winx, релевантность у него нулевая, так что формальный подход к запросам такого рода вполне уместен. Или [как раки относятся к своей прошлой любви?]: тут тоже подойдут только страницы, на которых рассматривается отношение людей, родившихся под знаком Рака, к своим бывшим вторым половинкам. Прочие знаки зодиака и иные психологические особенности Раков совершенно точно не соответствуют запросу. Предположение о том, что речь идёт о членистоногих животных, хотя и забавно, но лишено разумных оснований. Многие запросы сформулированы более общо и им соответствуют несколько типов ответов, например [мангалы из кирпича своими руками]. К такому запросу подойдут тексты (желательно с картинками) с описанием процесса или видеоуроки.

Определить, какая именно информация больше нужна помогает не только здравый смысл, но и статистика. Например, логично предположить, что если что-то можно скачать бесплатно, то предложение покупки этого объекта гораздо менее интересно людям, и статистика это подтверждает. Самые типичные запросы с несколькими разными релевантными ответами это запросы, которые состоят только из названия песни или фильма, имени известного человека или коллектива. Также иногда попадаются запросы, для которых существует несколько подходящих объектов. Без статистики определить, какие именно объекты релевантны, может быть довольно затруднительно. В таких случаях стоит ориентироваться на аннотацию.
Чтобы понять, может ли у запроса вообще быть витальный ответ, надо ответить на два вопроса: является ли запрос навигационным (то есть пользователю, скорее всего, нужна единственная страница), например [вконтакте], [скачать песню кино перемен с зайцев нет]? Если запрос навигационный, то та самая главная искомая страница будет витальной. Если нет, то важно понимать, есть и объекта поиска официальный источник или правообладатель? Если объект поиска - товар, объект авторского права (песня, книга, фильм, программа,..), закон или у объекта поиска существует официальный сайт, то витальный ответ в принципе возможен. Во всех прочих случаях витального ответа не бывает. Например, для запроса [погода в томске сегодня] не может быть витального, поскольку не существует производителя или правообладателя погоды. С другой стороны, для запроса [погода в томске сегодня гисметео] витальный существует, потому что это навигационный запрос, пользователя интересует не просто информация о погоде, но информация на определённом ресурсе.

Определить, какой ответ релевантный, а какой - нет, в общем случае несложно. Но иногда возникают непредвиденные ситуации. Предугадать всё заранее невозможно, поэтому если вы столкнулись с ситуацией, для которой нет явного правила, постарайтесь найти разумную аналогию из инструкции. Если и этого не получается, надо действовать исходя из здравого смысла. Важно удержать баланс между формальным подходом и субъективным мнением по ситуации. Иногда это не получается, но расстраиваться по этому поводу не стоит: работать со стопроцентной точностью невозможно, какие-то ошибки будут всегда.

Иногда непредвиденные сложности возникают в простых, казалось бы, ситуациях. Например, легко представить себе, какие картинки релевантны запросу [фото белой собаки], а какие - нет. Если на фотографии изображена белая собака - фото релевантно, а если, скажем, чёрная собака или белая кошка - то точно нет. Что делать, если собак несколько, а белая только одна? Ну это вроде несложно, релевантность ниже, чем в первом случае, но не ноль всё-таки, белая собака же есть. А что делать, если у собаки маленькое чёрное пятнышко на лапе? Она формально не совсем белая, но так ли это важно? А что делать, если она какая-то светлая, но не особо понятно, это всё ещё белая или это уже другой цвет? Крайние точки тут несложно обозначить: если собака - далматин, она уже не белая, а вполне пятнистая. Но одно маленькое пятно, например, не достаточно "портит" белую собаку. Но где провести границу? Считать площадь не белого? Может, учитывать местоположение пятен (например, пятно на лапе не важно, а на голове - важно) или их количество, а не площадь? В какой момент светлая шерсть перестаёт называться белой? Внимательный читатель уже наверняка понял, что все эти вопросы - верный путь себя запутать и поставить вообще бог знает что вместо адекватной оценки. В таких случаях надо полагаться на здравый смысл, а формализм только навредит.

В целом, стоит помнить, что правила в инструкции создавались на основе здравого смысла и известной статистики, причём в них описывается максимально общий подход, то есть правила написаны таким образом, чтобы составленная на их основании выдача поисковой системы удовлетворила потребности максимально возможного числа людей. Угодить совсем уж всем и сразу кажется невозможным, но мы очень стараемся подобраться к этому идеалу.
Поэтому оценивайте страницы, исходя из инструкции, но не доводите следование ей до абсурда.


Полностью здесь.

Однако еще фрагмент приведу


Что мы называем "порнографией”
Спор о том, что является порнографией, а что эротикой, старинный и бесплодный. Мы в него не встреваем. Порнографией мы считаем всё то, что не стоит видеть детям.
Не считаем порнографией мы научно-учебные и медицинские материалы, а также произведения изобразительного искусства. При этом стоит всё же придерживаться здорового консерватизма и работы, подобные, к примеру, работам классика Фотоискусства Роберта Мэпплторпа оценивать как порнографию в тех случаях, когда они того заслуживают.

Типы запросов

Что касается отношения к порнографии, то в этом аспекте запросы бывают "белые", "серые" и "чёрные".

"Белый" запрос не имеет отношения к порнографии, и в выдаче по такому запросу никакой порнографии быть не должно. Однако оптимизаторы порносайтов - люди изобретательные, и могут порой показать порнографию даже по запросу "экскаватор". Порно-ответ по "белым запросам" может быть формально релевантен (например, http://fotki.yandex.ru/users/elfim-vladimir/view/98865?paqe=4&page=4  по запросу "гифка пиво"), но должен получить отрицательную оценку, как в картинках, так и в релевантности.

"Серый" запрос - это запрос, по которому есть и заметный "нормальный", и заметный порно­интерес. Подробнее позиция изложена по ссылке. Формально порно-ответ на "серый" запрос будет хорошим и ожидаемым - но мы его всё равно показывать не хотим. Поэтому по запросу "cream pie" мы ищем только рецепты, по запросу "беременные"  медицинскую информацию, а по запросу "аниме" не хотим видеть хентай.

"Чёрный" запрос - это запрос, явно указывающий на поиск порнографии. Только по таким запросам она будет релевантна.

Примечания:

Иногда в силу разных случайностей к вам могут попасть запросы на нелегальную порнографию или экстремальные перверсии: детское порно, зоофилия, копрофилия, гуро-хентай и т.п. Вы не обязаны их оценивать. Само содержание такого запроса - достаточный аргумент для отказа.

Многие "чёрные" порнозапросы представляют собой не столько ясное указание на то, что ищет пользователь, сколько его, пользователя, эротические фантазии. При оценке подобных запросов считаем, что вся порнография - постановочная. Никаких "настоящих" съёмок скрытой камерой, изнасилований, инцестов, лишений девственности и т.д. и т.п. искать не нужно, достаточно того, что заявляется в подписи при ролике или фотосессии. "Шлюхи", "сучки", "развратницы" = "любые порноактрисы". Определения "жёсткая" или "извращённая" тоже можно игнорировать (например, по запросу "извращённое анальное порно" годится любое анальное порно). Действительно, есть много типов порнографии, и порой в запросе чётко указывается нужный тип. Как поступить, если релевантность ответа неочевидна? (релевантна ли грудь третьего размера по запросу "большие сиськи"?) В таких случаях считаем, что годится всё, кроме того, что откровенно нерелевантно (т.е. верим, что девушке, выданной по запросу "студентки", действительно двадцать лет - если она не явно ближе к сорока).

Шкала оценки

Порнозапросы мы оцениваем по такой же шкале, что и обычные, как в картинках, так и в релевантности.

В релевантности ресурс можно оценить как Полезный, если он предоставляет много бесплатного качественного контента и удобен в использовании (не замусорен рекламой). Не забывайте проверять документ на спам.

В релевантности сохраняются обычные правила относительно возможности скачать или посмотреть онлайн. Т.е. требования заплатить или зарегистрироваться снижают оценку. Однако на порносайтах есть ещё один, специфический способ затруднить доступ к видео онлайн: искусственное замедление воспроизведения. Пример: vuku.ru За такое оценку тоже нужно снизить.

Практика

Порнозапросы встречаются и в релевантности, и в картинках. В релевантности положительные оценки - Релевантный+ и Полезный, а в картинках - Релевантный+ и Релевантный-. Чтобы избежать путаницы, будем называть оценки "положительными" и "отрицательными".

Примеры конкретных запросов

По запросам «порно» или «ххх» положительную оценку получат фото, видеоролики, фильмы и прочие материалы, в которых содержится «непристойная, вульгарно-натуралистическая, циничная фиксация сцен полового акта и самоцельная детализированная демонстрация обнаженных гениталий»

Страницы с художественным эротическим содержанием по такому запросу оцениваем отрицательно (например http://xyu.ru/2007/08/15/podborka_khudozhestvenhvkh_foto_v_formate niu.html

По запросу «порнография» годятся те же документы что и по запросу «порно» и, кроме того, статьи с определением понятия:
http://ru.wikipedia.orq/wiki/%D0%9F%D0%BE%D1%80%D0%BD%D0%BE%D0%B3%D1%80%D0%B0 %D1 %84%D0%B8%D1 %8F Ню опять-таки оцениваем отрицательно.
По запросу «эротика» нужны документы с эротическими фото- и видеоматериалами. Примеры: http://monfoto.ru/krasivye-devushki-1.htm , http://www.proxxx.ru/photo/blondee/qallery_620/index.html  и легкому порно, например, http://xuk.ru/pussv.html Страницы с жёстким порноконтентом следует оценить отрицательно.

Запрос «секс» предполагает процесс, Т.е. пользователь хочет видеть фото и видео различных видов секса (вагинального, анального, орального), а также полезные статьи о сексе http://www.sexopedia.ru/   Фото обнажённых моделей "поло" оцениваем отрицательно Также отрицательную оценку получат фото/видео мастурбации и страницы сексшопов, предлагающих свою продукцию.

Аналогично оцениваем запросы про "изнасилования".
По запросу «стриптиз» нужны сайты клубов, фирм, предлагающих стриптиз шоу, а также страницы, посвященные технике стриптиза или содержащие видеоролики/фотогалереи стриптиза. http://striptizer.ru

По запросу «ню» или «пи» нужна только художественная эротика, а также статьи о жанре «ню».

Всё остальное получит отрицательную оценку.
http://www.nu-photos.com
Предложения проституток получают положительную оценку только по конкретным запросам. По всем остальным запросам («ню», «стриптиз», "секс", "порно" "ххх" и т.п.) они Нерелевантны.

По запросу "голые" во всех вариациях: считаем, что запрос = "без какой-либо части нижнего белья". При этом, в общем, не важно, что "видно", а что нет.

"Порнозвёзды" - любые порноактрисы, названные по имени.
(Релевантность)

P.S. админка асессора, старый 2010-го года вариант
Пояснение к документу
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 1 comment