Содержание
Ключевой подход к ранжированию сайтов по коммерческим запросам.
(Ключевые принципы ранжирования коммерческих сайтов)
Аннотация
Современные поисковые системы достаточно хороши для того, чтобы соотносить популярные коммерческие запросы с релевантными выдачами. Однако наши исследования говорят о том, что поведение пользователей на одном коммерческом сайте, релевантном запросу, может быть отличным от поведения на другом таком же сайте. Таким образом, поисковые системы оказываются перед проблемой ранжирования результатов, которые одинаково релевантны с точки зрения традиционного подхода к ранжированию. Чтобы решить эту проблему, мы предлагаем рассмотреть дополнительные аспекты (факторы) релевантности, такие как надежность, удобство и простота использования, качество дизайна и качество обслуживания. Для того, чтобы позволить алгоритму ранжирования принять эти аспекты в счет, мы предложили ряд особенностей, определив качество страницы по обозначенным (предлагаемым) параметрам. Мы свели новые аспекты в единую метку, коммерческую релевантность, которая в совокупности представляет собой качество сайта. Мы экстраполировали метку коммерческой релевантности на все рассматриваемые наборы данных и по умолчанию использовали полученную сумму коммерческих и общих результатов вместо меток релевантности. Для оценки нашего метода мы создали DCG-метрику и провели чередующиеся офлайновые и онлайн эксперименты, которые показали, что данный алгоритм ранжирования, принимающий во внимание предложенные аспекты релевантности, наиболее соответствует предпочтениям пользователей.
Ключевые слова:
Обучение ранжированию, веб-поиск, критерий релевантности
1. Введение
Единственная цель поисковой системы при некоторых информационных запросах состоит в том, чтобы найти только самый релевантный запросу документ. В случае, когда выдача релевантных документов невелика, это наиболее подходящий, в соответствии с потребностью пользователя, вариант. Однако в настоящее время существует множество запросов пользователей, по которым поисковая система может выдать большое количество высоко релевантных результатов. Такие запросы сопряжены с выдачей возможных результатов на выбор, в отличие от поиска одного единственного результата. Эти группы пользовательских запросов включают в частности коммерческие запросы, где клиенты часто хотят сами выбрать наилучший вариант из множества предложенных.
Коммерческие запросы формируют высоко конкурентную среду, где высокие позиции в результатах поиска ведут к росту дохода. Поэтому, чтобы увеличить прибыль, владельцы коммерческих сайтов делают все, чтобы занять первые места в результатах поиска. Вебмастера оптимизируют текстовый контент и покупают входящие (внешние) ссылки, чтобы поисковой системы легче было обнаружить сайт и предложить его пользователю по коммерческому запросу. В результате, с точки зрения контента и качества основной ссылки, все сайты в топ-10 часто одинаковы релевантны. Кроме того, фокус группы также дают высокую оценку релевантности для многих конкурирующих сайтов, при этом их критерии оценки, в первую очередь, ориентированы на тематическую релевантность документов.* Таким образом, любое изменение позиций сайтов в топ-10 не ведет к изменению качества ранжирования в метрике.
*http://plg.uwaterloo.ca/∼trecweb/2012.html
Однако, бросая все силы на поисковую оптимизацию, многие вебмастера забывают об оптимизации, ориентированной на пользователя.[13] Поэтому степень удовлетворенности пользователей коммерческими сайтами может быть существенно разной. В частности дизайн, присутствие механизма обратной онлайн связи, отзывы о предлагаемых продуктах имеют значимое влияние на работу (поведение) клиента на сайте.
Эти наблюдения дают представление о том, что информация о качестве сайта имеет важное значение при ранжировании по коммерческим запросам, которые предполагают множество релевантных результатов, и может значительно улучшить и ранжирование, и удовлетворенность пользователей. Качество документа по коммерческому запросу при условии тематической релевантности называется коммерческой релевантностью.
Есть работы, в которых авторы предлагают подходы к оценке качества сайта и его интеграции в алгоритм ранжирования. Например, во многих работах критерии качества веб-страницы, с точки зрения пользовательского поведения, были описаны на основе данных интервью[1, 2, 11]. Формальные критерии, которые характеризуют удобство, доверие, дизайн и др. должны быть выстроены на основе значимости отдельных аспектов качества сайта для пользователей. К таким аспектам могут относиться длина текста, содержание грамотности, заголовки страниц, наглядность, наличие карт, информация о компании, легко запоминающиеся номера телефонов, бесплатная доставка.[7]
Есть некоторые работы, которые предполагают подходы к использованию дополнительных знаний о качестве сайта в рейтингах.[3] Например, агрегирование таких данных, как мнение фокус-группы и информация о кликах [4], или текстовая релевантность и время публикации. [6]
В нашей статье мы предлагаем новый качественно ориентированный подход к ранжированию, который включает в себя создание новых аспектов релевантности и использование особенностей, включающих в себя качество страницы по обозначенным параметрам. На основе нескольких аспектов качества мы формируем суммарный рейтинг, который называется коммерческой релевантностью. Для сравнения, мы экстраполируем коммерческие метки релевантности ко всему списку ранжирования. Для местно релевантных результатов поиска мы используем объединенную метку релевантности как суммарный результат тематического и коммерческого множества. По с равнению с методом ранжирования по умолчанию, наш метод значительно улучшает как оффлайн, так и он-лайн метрику.
Дальше наша статья построена следующим образом:
2. Шкала коммерческой релевантности
Для оценки качества сайта по коммерческому запросу можно использовать мнение фокус-группы или данные о кликах.[9]Мы решили использовать метки экспертов, потому что их данные менее «шумные» в отличие от данных кликов или панели инструментов.[14]
При использовании информации о кликах или данных панели инструментов, очень сложно определить, удовлетворен ли пользователь результатом поиска. Поведение пользователей с коммерческими намерениями может сильно различаться в зависимости от категории продукта, его цены и много другого (к примеру сравним доставку пиццы и покупку объектива к цифровой камере). С другой стороны, данные панели инструментов и информация о кликах могут принести некоторую полезную информацию, поэтому мы сделали их доступными для экспертов в процессе оценки.
Бывают ситуации, когда каждый из экспертов поставит метку качества разные параметры. Возможно, что кто-то знает сайт и доверяет ему, не смотря на ужасный дизайн и плохое юзабилити. Другой аудитор обратит свое внимание на обязательное наличие отзывов от пользователей и т.д. Для улучшения работы мы формализовали процесс оценки сайта, выделив основные компоненты качества. В то же время это позволило сделать более широкий охват экспертных мнений.
На основании данных многочисленных исследований [5, 11, 12], мы определили расширенный список аспектов коммерческой релевантности. Затем, в целях облегчения процесса оценки, мы выбрали четыре метки качества, которые, мы считаем, охватывают большую часть независимой информации о качестве. Это значит, что эти метки включают в себя наибольшую информацию о возможностях сайта. Перечень выбранных показателей качества выглядит следующим образом: надежность, удобство использования, качество дизайна и качества обслуживания.
Мы разработали подробную инструкцию по оценке качества сайта для экспертов. В соответствии с этими инструкциями, оценка состоит из двух этапов. Во-первых, оценщик должен определить, является ли результат поиска местно релевантным для данного запроса. Мы используем широкую 5-бальную шкалу оценки местной релевантности, включающую такие значения — нерелевантна, релевантна, высоко релевантна, полезно и очень важно. Оценка качества сайта является гораздо более сложным и трудоемким процессом, чем оценка местной релевантности (и особенно, чем получение качественной информации о кликах). От части это компенсируется тем, что в нашем методе результата поиска должен быть оценен только для релевантных.
Мы не рассматриваем документы с полезной и очень важной меткой, предполагая, что они часто являются единственной выдачей поиска для конкретного запроса. Как упоминалось ранее, мы ориентируемся только на запросы, которые подразумевают выбор между одинаково подходящими результатами.
На первом этапе оценки различные продукты и услуги, предоставляемые результатом поиска по коммерческому запросу, также оцениваются. Мы выделяем три вида ассортимента: маленький, стандартный и большой. Оценку (The variety score ) по запросу Q для документа D обозначим как V (q, d).
На втором этапе оценки определяем по всему сайту надежность, удобство использования, качество дизайна и качество обслуживания. Надежность и качество обслуживания по нашей шкале имеют четыре степени — спам, нормальное, хорошее и совершенное.
Сайт будет помечен как спам, если он не позволяет сделать покупку или получить нужную услугу (это подделка сайта). Сайты с меткой «нормально», это не плохой сайт, но не отличающийся от тысяч подобных коммерческих сайтов. Хорошие сайты предоставляют пользователям стандартный набор услуг и, наконец, отличные сайты
известные лидеры рынка. Надежность и качество обслуживания сайта обозначаются T (s) и S (s) соответственно. Обратите внимание, что эти оценки не зависят от конкретной пары запроса Q и D документа.
Юзабилити и дизайн имеют только три степени качества: плохое, хорошее, и совершенное. Оценка аспекта коммерческой релевантности обозначается через U( s) для юзабилити и D(s) для качества дизайна. Значение оценок от 0 до 1.
Для будущего использования качественной информации в процессе обучения ранжированию мы объединили четырехмерную метку в одну оценку коммерческой релевантности:
Rc (q, d, s) = V (q, d) · (2T (s) + U (s) + D(s) + 2S(s)), (1)
где Rc (Q, D, S) является оценкой коммерческой релевантности для конкретных
запросов Q и D документа с сайта s.
Значение надежности и качества обслуживания сайта вдвое больше значения других аспектов качества сайта. Это сделано по той причине, что эти критерии наиболее важны для удовлетворенности пользователей сайтом. Но не рассматрниваем эти параметры как единственно возможные.
3. Обучение ранжировать с учетом новых аспектов
Оценка коммерческой релевантности очень сложная задача, так как при фиксированных затратах выдача коммерческих результатов будет меньше выдачи тематических результатов. Мы не можем отказаться от соответствующих тематически релевантных результатов, не являющихся коммерчески релевантными. Это может привести к значительному снижению обучения ранжировать и, как следствие, может послужить причиной ухудшения качества функции ранжировать.
Таким образом, перед началом процесса обучения ранжировать мы должны экстрополировать метку коммерческой релевантности для всех данных обучения ранжировать. Подобная процедура экстрополяции состоит из двух этапов. Во-первых, мы готовим функцию ранжирования на небольшую выдачу, только для коммерчески релевантных результатов. Полученная функция ранжирования дает нам оценочную стоимость показателя коммерческой релевантности R (Q, D, S), которая обозначается (здесь формула).
Затем мы применяем функцию ранжирования от первого шага к полному набору данных с тематической релевантностью. Это возможно, потому что мы используем одну и ту же функцию для ранжирования обоих наборов данных. Поскольку только высоко релевантные результаты получат метку коммерчески релевантных, также метку коммерчески релевантных получат пары «запрос-результат», которые высоко релевантны в масштабе тематической релевантности. Другие пары «запрос-результат» в наборе данных обучения ранжирования получат нулевую оценку коммерческой релевантности.
Имея значения для оценки коммерческой релевантности для всех тематических релевантных результатов по коммерческим запросам, мы можем рассчитать единую релевантность:
где R (q, d) значение тематической релевантности, R (q, d, s) — значение единой релевантности и α весовой коэффициент.
С помощью единого значения релевантности мы ранжируем весь список результатов. Весовой коэффициент α подобран эмпирическим путем, он максимизирует значение коммерческой релевантности, но при этом не касается тематической релевантности. В итоге мы получаем функцию ранжирования, определенную значением единой релевантности, которое включает в себя значения и тематической, и коммерческой релевантности.
4. Особенности оценки качества сайта
Для лучшего определения новых меток релевантности, включающих и тематическую, и коммерческую релевантность, мы введем некоторые критерии, характерные для коммерческих сайтов. Они новые с той точки зрения, что практически бесполезны при определении тематической релевантности, так как метка тематической релевантности не несет в себе никакой информации о коммерческих качествах сайта. Но для аппроксимации новой коммерческой релевантности эти значения очень полезны, так как несут в себе информацию о качестве сайта.
Из многочисленных исследований на эту тему [3, 11, 12] мы выбрали некоторые перспективные возможности и добавили к ним свои. В Таблице 1 приведен список некоторых качественных критериев, используемых в наших исследованиях. Обратите внимание, что большинство из этих функций определяют возможности домена и представляют обобщенную информацию обо всех документах (данных) коммерческого сайта. Это подчеркивает то, что согласноУравнению 1, коммерческая релевантность зависит от качества сайта. Сравнение результатов ранжирования без применения приведенных критериев приведено в разделе Результаты.
Таблица 1
Подробная контактная информация |
Страница компании в социальных сетях |
Отсутствие рекламы |
Ассортимент продукции |
Подробное описание продуктов (услуг) |
Наличие службы доставки |
Служба поддержки ( электронная почта, телефон, отзывы клиентов) |
Он-лайн консультации |
Скидки |
Читаемое доменное имя |
Средняя длина URL |
Средняя длина заголовка страницы |
Соответствие заголовка страница ее содержанию |
Средня глубина пути URL |
5. Новые метрики для оценки сайта
Для оценки наших результатов мы разработали две, подобные NDCG, метрики, основанные на мнениях экспертов о качестве коммерческого сайта. Первая метрика представляет собой среднее (взвешенное) качество результатов поиска для конкретного набора коммерческих запросов. Ее (метрики) значение для запроса q определяется:
где Rc (q, di , si ) коммерческая релевантность для первого поискового результата по запросу q. Итоговое значение этой метрики для данного набора запросов среднее значение Goodness(q). среди всех запросов в этом наборе. Чем больше этот показатель, тем лучше результаты поисковой системы.
Вторая наша оффлайновая метрика представляет собой отношение низко качественных результатов к коммерческим запросам. Подобно первой метрики она определяется для всего набора данных как среднее значение зависимых от запроса результатов. Выражение запросо-зависимого значения определяется так:
где th — порог минимально приемлемого значения коммерческой релевантности уместностной для результатов поисковой системы. Чем меньший эта метрика, тем лучшие результаты поисковой системы.
Также мы используем известное A/B тестирования [10] и чередование [4] on-line экспериментов для оценки результатов. Мы уделяем особое внимание уровню отказов и кликов для каждого результата по запросу, а не только клики с длинной выдержкой времени. Мы считаем, что эти показатели являются наиболее ценными для коммерческих запросов.
6. Результаты и мнения
Мы предложили новую оценку результатов поиска по коммерческим запросам — коммерческую релевантность. Мы разработали несколько подходов к оценке качества сайта. Для будущего использования Для сравнения, нами был разработан метод экстрополяции дополнительной метки релевантности для ранжирования всех результатов поиска, что позволило нам не терять тематически релевантные результаты.
Мы разработали оффлайновую, подобную DCG, метрику и следили за ее изменением в ходе эксперимента по добавлению качественной информации в функцию ранжирования. На рисунке 1 показана зависимость Goodness нашей метрики в течение некоторого времени до и после изменения функции ранжирования.
Горизонтальная ось представляет значение времени, а вертикальная ось представляет собой относительное значение нашей метрики.
Рисунок 1. Goodness метрика увеличивается в течение эксперимента.
Видно, что метрика увеличилась почти на 30% по сравнению с начальным значением. Рисунок 2 представляет изменение нашей второй оффлайн метрики — вредность результатах поиска. Опять же, горизонтальная ось представляет значение времени, а вертикальная ось представляет собой относительное значение нашей метрики — некачественные результаты поисковой системы. Как и прежде, горизонтальная ось представляет значение времени, а вертикальная ось представляет собой относительное значение нашей метрики.
Рисунок 2. Некачественность метрики уменьшается в течение эксперимента.
Видно, что некачественность метрически уменьшилась почти на 70%. В то же время, классическая метрики NDCG, рассчитывающаяся только с использование метки тематической релевантности, в течение всего эксперимента осталась практически неизменной.
Мы сравнили наши результаты ранжирования с введением новых критериев коммерческой релевантности с другими результатами ранжирования. В результате видно, что метрика Goodness и метрика Некачественности улучшились на 20% после того, как мы учли новые критерии.
Наши он-лайн эксперименты показали, что пользователи на 1% чаще выбирали результаты нового ранжирования, а не ранжирования по умолчанию. Эксперименты A\B показали, что наше качественно ориентированное ранжирование способствует 5% снижению Отказов и увеличивает количество кликов по каждому запросу на 1,5%.
В будущем, работа включает в себя использование набора меток релевантности вместо одной агрегированной в процессе ранжирования. Другой же путь улучшения результатов поиска по коммерческим результатам будет в разработке новых критериев коммерческого ранжирования.
7. Авторы
Авторы выражают благодарность за помощь в обсуждении идей Павлу Сердюкову.
Ссылки
[1] A. B. Albuquerque and A. D. Belchior. E-commerce websites: a qualitative evaluation. In WWW 2002 Poster Session, May 2002.
[2] P. Alpar. Satisfaction with a web site. Electronic Business Engineering, 4, 1999.
[3] M. Bendersky, W. B. Croft, and Y. Diao. Quality-biased ranking of web documents. WSDM, February 2011.
[4] O. Chapelle, T. Joachims, F. Radlinski, and Y. Yue. Large-scale validation and analysis of interleaved search evaluation. ACM Transactions on Information Systems, 30(1), February 2012.
[5] V. Davidaviciene and J. Tolvaisas. Measuring quality of e-commerce web sites: Case of lithuania. Ekonomika ir Vadyba, 16, 2011.
[6] A. Dong and R. Z. et al. Time is of the essence: Improving recency ranking using twitter data. In WWW 2010 Proceedings, pages 331–340, April 2010.
[7] M. Ivory, R. Sinha, and M. Hearst. Empirically validated web page design metrics. In ACM CHI, April 2001.
[8] K. Jarvelin and J. Kekalainen. Cumulated gain-based evaluation of ir techniques. ACM Transactions on Information Systems, 20:422–446, 2002.
[9] T. Joachims. Optimizing search engines using clickthrough data. In SIGKDD’02 Proceedings, 2002.
[10] R. Kohavi, R. Longbotham, D. Sommerfield, and R. M. Henne. Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18:140–181, 2009.
[11] G. L. Lohse and P. Spiller. Quantifying the effect of user interface design features on cyberstore traffic and sales. In CHI 98 Conference Proceedings, pages 211–218, 1998.
[12] M. J. Metzger. Making sense of credibility on the web: Models for evaluating online information and recommendations for future research. Journal of the American Society for Information Science and Technology, 58(13):2078–2091, 2007.
[13] K. Nikolaev, E. Zudina, and A. Gorshkov. Combining anchor text categorization and graph analysis for paid link detection. In WWW 2009 Poster Session, April 2009.
[14] K. Svore, M. Volkovs, and C. Burges. Learning to rank with multiple objective functions. In WWW 2011 Proceedings, pages 367–376, March 2011.