Оценки асессоров: прибивают ли они гвоздями сайты к топу выдачи?

Частенько на страницах форума и в других отраслевых источниках я встречаю мнения оптимизаторов, что асессоры – это люди, которые размечают вручную поисковую выдачу, фактически «прибивая» сайты «гвоздями» к топу. И, при исследовании выдачи по тому или иному запросу, высказываются предположения, что хорошо ранжируемый документ попал туда и держится там исключительно благодаря хорошей асессорской оценке.

Попробуем разобраться, что на самом деле делают асессоры, и как они могут повлиять на ранжирование конкретного сайта по конкретному запросу.

Для формирования функции ранжирования в Яндексе используется машинное обучение. Алгоритм машинного обучения (в Яндексе он называется MatrixNet) должен получить на входе обучающую выборку. Эту обучающую выборку и составляют асессоры. Асессор получает для оценки случайным образом сформированный набор пар «запрос-документ». Каждую пару он должен оценить на соответствие документа запросу.

Какие бывают оценки?

Еще в 2007-м году на ежегодной конференции Optimization.Ru (носящей в оптимизаторской среде неофициальное название «Ашмановка») начальник отдела веб-поиска Яндекса Александр Садовский выступил с докладом «Релевантность глазами Яндекса» (презентация доклада), где среди прочего рассказал и об асессорах. В частности, он привел следующую классификацию оценок, которые асессор может поставить паре «запрос – документ»:

Ludkevich_3

  • витальный «должен» быть на первом месте (первоисточник информации, официальный сайт)
  • полезный­ исчерпывающий ответ на вопрос с дополнительной полезной информацией (вы бы добавили в закладки)
  • релевантный+ документ, полностью отвечающий на вопрос и удовлетворяющий потребность пользователя
  • релевантный- дает часть ответа (страница соответствует теме запроса, но не полностью отвечает ему, устарела и т.д.)
  • нерелевантный не отвечает на вопрос поисковый спам, технический мусор

На слайде 9 более позднего (датирован 15 октября 2011 г.) доклада руководителя группы асессоров Яндекса Ольги Мегорской «Качество поиска: экспертные оценки и исследование пользовательского поведения» представлены практически те же оценки, что свидетельствует о том, что шкала оценок весьма консервативна.

Ludkevich_2

То есть, на самом деле градаций оценок не так уж и много. Хорошие оценки – это «витальный», «полезный» и «релевантный+». Из пояснений к оценкам следует, что накрепко «прибить гвоздями» документ к первому месту одна из оценок действительно может. Это оценка «витальный». Документы, размеченные как витальные по отношению к запросу, получают огромный плюс к рассчитанному для них на общих основаниях значению релевантности, настолько огромный, что сдвинуть их с первого места невитальным документам невозможно. Однако далеко не по каждому запросу эту оценку может получить какой-либо из сайтов. Как правило, витальные ответы есть у запросов, которые подразумевают наличие официального сайта, например, запросы, связанные с брендами. Конечно, время от времени случаются и курьёзы.

Например, мне приходилось наблюдать, как по запросу [бухгалтерские услуги] одно время считался витальным ответом сайт некоего ООО «Бухгалтерские услуги». Но надо понимать, что подобные курьезы носят временный характер, и рассчитывать на неожиданную «халяву» по небрендовому запросу не приходится. Витальные документы можно увидеть в XML выдаче Яндекса. Они имеют специфическое значение атрибута name параметра categ, содержащее вхождение строки “UngroupVital”, например

<categ attrd« nameUngroupVital64.ru«/>

В общем, при желании сами сможете оценить, как невелико число запросов, содержащих подобные ответы.

Итак, что же будет в случае если конкретный документ получил по запросу хорошую оценку «полезный» или «релевантный+»? «Прибьются» ли такие документы к топу выдачи по этому запросу, как в случае с оценкой «витальный»?

Во-первых, по конкретному запросу, получить одинаково хорошую оценку может достаточно большое количество документов, гораздо больше, чем мест в топе поисковой выдачи. А асессоры никак не сравнивают между собой документы, получившие одинаковые оценки.

Во-вторых, размеченные асессорами пары «запрос-документ» (обучающая выборка) подаются на вход алгоритму машинного обучения MatrixNet. Для каждого документа вычисляются значения большого числа факторов (по последним заявлениям сотрудников Яндекса их сейчас уже порядка 800). То есть, по сути пара «запрос-документ» преобразуется в набор факторов ранжирования. В случае оценки «витальный» имеет значение адрес документа, который принудительно ставится на первое место, и последующие изменения документа уже никак не могут повлиять на его ранжирование по данному запросу. А вот в случае оценок «за релевантность» («полезный», «релевантный+», «релевантный–», «нерелевантный») во внимание принимается именно тот набор факторов, который имел место в момент оценки документа асессором. То есть, по сути, оценка «витальный» присваивается конкретному документу, находящему по конкретному адресу, а оценки «за релевантность» – конкретному набору значений факторов ранжирования. Который у документа может меняться со временем, однако в разметке асессора будет оставаться неизменным вплоть до того, момента, как данная пара «запрос-документ» попадет на оценку в следующий раз. Получается, при ранжировании документа будет учитываться все-таки несколько иной (в большей или меньшей степени) набор факторов, нежели тот, что попал в оценку.

Далее MatrixNet на основе обучающей выборки строит функцию ранжирования таким образом, чтобы метрика pfound принимала максимальное значение. Подробно о метрикое pfound тут.

По сути pfound – это оценка вероятности того, что пользователь, последовательно просматривая выдачу сверху вниз, найдет релевантный результат. Исходя из этой метрики совершенно не обязательно, чтобы абсолютно все наборы значений факторов ранжирования, получившие хорошую оценку («полезный» или «релевантный+») оказались в топе поисковой выдачи. Поэтому, даже если конкретный документ по конкретному запросу получил такую оценку, то ни о каком «прибивании гвоздями к топу» речи быть не может. Да, вероятность хорошего ранжирования по данному запросу документа с хорошей оценкой по нему повышается, но не более того.

В презентации доклада руководителя группы отдела качества веб-поиска Яндекса Кирилла Николаева, сделанного 30 ноября 2012 г. на минской конференции Optimization.by представлен расширенный набор оценок асессоров для коммерческих сайтов:

Ludkevich_1

К традиционным оценкам релевантности добавляются еще оценки (судя по всему, бинарные) «коммерческих» критериев качества сайта: доверие к сайту, удобство выбора, качество услуги и др. Несомненно, это вносит некоторое разнообразие в набор возможных оценок, которые может получить документ по коммерческому запросу. Однако все равно число документов, получивших одинаковые оценки, будет достаточно большим, и между собою такие документы опять же никак асессорами не сравниваются. То есть о «прибивании гвоздями» к определенной позиции даже в случае расширенной оценки все равно речи не идет.

В заключении хотелось отметить, что количество запросов, размечаемых асессорами, оценивается представителями Яндекса в десятки тысяч. А число запросов, задаваемых ежедневно – еще в 2010-м году оценивалось в 100 миллионов. Тем самым вероятность, что интересующий вас запрос прошел асессорскую оценку, как видите, весьма и весьма невелика. И в закономерностях ранжирования того или иного документа нужно искать что-то иное, нежели «прибивание гвоздями к топу» асессорами.