Механический турок Амазон (Mechanical Turk): новый взгляд на поведенческие науки

image00

Одним из наиболее сложных и наиболее распространенных когнитивных искажений является так называемая предвзятая или же нерепрезентативная выборка (sampling bias).

В статистике нерепрезентативной выборкой называется выборка, отражающая характеристики лишь определенной части популяции, из которой она была отобрана.

Представьте, что в вазу опускают 20 желтых мячиков для настольного тенниса, а затем — 20 синих мячиков. Если немедленно достать из вазы 10 мячиков, может сложиться ошибочное мнение о том, что все мячики в вазе окрашены в синий цвет. Если перед тем как извлечь мячики, хорошенько встряхнуть вазу, выборка будет включать как желтые, так и синие объекты, что существенно снизит ее нерепрезентативность.

Точно так же, если для проведения исследования в области психологии человека отбирают только американских студентов, которые нуждаются в деньгах или — что еще хуже — были приглашены одними и теми же профессорами для участия в подобных экспериментах, может сложиться ложное представление о том, что большинству людей нравятся студенты американских вузов.

В работе под названием «Самые странные люди в мире» (The Wierdest People in the World) Джозеф Хенрик (Joseph Henrich) и Стивен Хайне (Steven Heine), преподаватели психологии университета Британской Колумбии, провели аудит исследований для участия в которых отбирали исключительно студентов американских вузов. Кроме всего прочего, каждый из них должен был принадлежать к обществу, которому присущи следующие характеристики: западное (Western), образованное (Educated), индустриально развитое (Industrialized), богатое (Rich) и демократическое (Democratic) — WEIRD.

«Анализ лучших журналов по психологии за период с 2003 по 2007 год показал, что 68% участников различных экспериментов были из США, а в общей сумме 96% участников были из западных индустриально развитых стран. Как выяснилось, структура каждой выборки в большинстве случаев указывала на страну пребывания самого исследователя, поскольку авторами 73% экспериментов были американцы, а в целом 99% экспериментов были проведены преподавателями вузов западных стран.

Это означает, что 96% выборок для психологических экспериментов включали представителей стран, население которых составляет всего 12% от населения планеты.

Типичный метод отбора участников эксперимента очень тяжело назвать репрезентативным. Анализ выпусков “Журнала психологии личности и социальной психологии” (The Journal of Personality and Social Psychology) за 2008 год показал, что участниками 67% экспериментов, проведенных американцами, были исключительно студенты факультетов психологии.

Иными словами, случайно выбранный американский студент в 4000 раз вероятнее окажется участником какого-то исследования, чем любой другой человек, не проживающий в западной индустриально развитой стране».

Затем ученые сравнили результаты исследований, участниками которых были студенты, принадлежащие к группе WEIRD, с аналогичными экспериментами для участия в которых отбирались люди из других социальных групп.

«Нами был проанализирован ряд характеристик каждой из групп испытуемых: визуальное восприятие, честность, пространственное мышление, самооценка, наследственность IQ, способность к кооперации, категоризации. Полученные результаты свидетельствуют о том, что членов обществ, соответствующих требованиям WEIRD, можно обнаружить даже среди наименее представленных популяций».

Проблема заключается в том, что привлечь студентов к участию в каких-либо экспериментах очень просто: во-первых, это дешево, во-вторых, они готовы «пожертвовать» собой ради науки — иными словами, студенты находятся сверху условной «вазы».

Выборка, сформированная из доступных для исследования респондентов, является разновидностью предвзятой выборки и называется «удобной» (convenience sampling).

Итак, каким же образом исследователи могут «встряхнуть вазу» и получить репрезентативную выборку? Многие ученые думают, что оптимизировать структуру выборки можно с помощью интернета, и все большее число из них уверены, что для этого используется краудсорсинговая платформа Amazon Mechanical Turk.

Что такое Механический турок?

Механический турок — это виртуальный рынок труда, созданный компанией Amazon в 2005 году. Данная платформа дает работодателям возможность предлагать разнообразные преимущественно простые задания широкому кругу пользователей. Как правило, плата за выполнение такого задания не превышает $1, а время, необходимое для его выполнения, — нескольких минут.

Изначально Механический турок был предназначен для внутреннего использования в Amazon, а именно для выполнения той работы, которая не представляет сложности для человека, но в то же время неподвластна компьютерам. Если говорить точнее, существуют определенные задания, с которыми человек без труда может справиться самостоятельно, однако все еще не в силах заставить компьютер сделать эту работу вместо себя.

«В ноябре 2005 года, уже имея миллионы товарных целевых страниц, компания Amazon столкнулась с проблемой распознания их дубликатов. С одной стороны это задание требовало написания запутанных громоздких алгоритмов, а с другой — отнимало всего несколько секунд у обычного человека. Если компьютер не может сделать работу, почему бы не нанять для ее выполнения людей, которые бы действовали как часть программы и выполняли небольшие дискретные задачи?

Людей, притворяющихся машинами, которые ведут себя как люди, Безос весьма удачно назвал “искусственным искусственным интеллектом” (artificial artificial intelligence)», — Эллен Кашинг (Ellen Cushing), статья «Рассвет виртуальной потогонной системы» для East Bay Express.

Механический турок интегрирует принятые работниками — «турками» — решения в автоматизированный процесс, позволяющий программе запрашивать их результаты. Таким образом, вместо сканирования двух изображений и сравнения полученных результатов, программе достаточно всего лишь спросить Механического турка, какой процент «турков» решил, что на картинках изображены одни и те же объекты.

Безос назвал свое изобретение в честь знаменитого «иллюзионного устройства», сконструированного Вольфганом фон Кемпеленом в 18 веке. «Механический турок» был представлен широкой публике как первый в мире шахматный автомат. Свое название он получил благодаря тюрбану и турецкой одежде, в которую была облачена восковая фигура гениального, как казалось тогда зрителям, шахматиста, способного обыграть самого Наполеона.

Так было до того времени, пока через 30 лет после смерти Кемпелена, автомат не был разоблачен Эдгаром По. Как оказалось, внутри «Турка» скрывался сильный шахматист, который двигал шахматные фигуры при помощи вмонтированных в них магнитов и металлических шариков, прикрепленных с внутренней стороны доски. После кончины второго владельца автомата, австрийского механика Мельцеля, «Механический турок» был передан в Китайский музей Филадельфии, где в 1854 году был уничтожен пожаром.

image01____

Механический турок, изобретенный компанией Amazon, может использоваться для совершенно разнообразных заданий: категоризации, верификации данных, расстановки тегов, написания транскрипций или переводов. Порносайты используют данную платформу для написания названий видеороликов, а многие другие сайты для того, чтобы отмечать нежелательный контент специальными «флажками».

Ну а вы, например, можете заплатить $200 за коллекцию из 10 000 рисунков овечек, которые смотрят влево. :)

«Рынок овечек — это коллекция из 10 000 рисунков, созданных работниками краудсорсинговой платформы Amazon Mechanical Turk. Каждый из работников заработал $0,02 за нарисованную им овечку, которая смотрит влево», — Аарон Коблин, автор проекта «Рынок овечек».

image02__

Краудсорсинг как природа человека

image05_

В 2008 году американский блоггер Энди Байо (Andy Baio) предложил работникам Механического турка по $0,5 за селфи с объяснением причины, по которой они стали «турками».

Механический турок был запущен в 2005 году, однако первые упоминания о нем в научной литературе появились лишь по прошествии нескольких лет. Затем медленно, но уверенно ученые начали осознавать, что люди, которые за несколько минут выполняют буквально непосильные для компьютера задания, могут быть участниками научных экспериментов.

Ученые отметили, что привлечение работников платформы к участию в разнообразных научных исследованиях даст возможность существенно повысить репрезентативность выборок и сэкономить немало денег, поскольку даже в сравнении со студентами работа «турков» стоит гораздо дешевле.

Самые первые исследования с участием «турков» проводились с целью сравнения «искусственного искусственного интеллекта» с искусственным интеллектом. Иными словами, сравнения способностей работников платформы с компьютерными программами.

Обработка естественного языка (Natural Language Processing, NLP) как одно из общих направлений искусственного интеллекта предполагает сравнение результативности программы с аналогичными способностями человека.

Рассмотрим для примера предложение «Я чувствую себя подавленно». Человек с легкостью охарактеризует это предложение как связанное с негативными эмоциями, в то время как анализ тональности текста программой будет строиться на сравнении соответствия каждого отдельно взятого слова с «пессимистическим» и «оптимистическим» словарями, ранее составленными человеком.

В 2008 году команда ученых Стенфордского университета провела исследование, в котором сравнила качество аннотаций, написанных «турками», с аннотациями, составленными специально приглашенными экспертами. Как оказалось, аннотации «турков» в большинстве случаев соответствовали всем стандартам. Статья, в которой были опубликованы результаты исследования, называлась «Дешево и быстро, но эффективно ли?».

В 2009 году исследователи компании Yahoo изучили реакцию «турков» на материальные стимулы. Ученые пришли к выводу, что привлечение работников Механического турка к участию в эксперименте значительно повысило репрезентативность полученных ими результатов (при возрастании материальных стимулов люди работают больше и быстрее, но при этом качество их работы не улучшается).

С тех пор ученые начали активно привлекать «турков» к участию в различных онлайн-опросах и строить свои гипотезы на основании полученных данных.

Тестирование «турков»

Несмотря на то, что «турки» являются дешевым способом сбора больших массивов данных, все же существуют несколько рисков, на которые стоит обратить внимание. Речь идет о внутреннем и внешнем несоответствии полученной информации.

Внутреннее несоответствие связано прежде всего с анонимностью участников. Поскольку исследователь не может контролировать, как «турки» отвечают на вопросы, нет никакой гарантии, что они хотя бы читают вопрос, прежде чем дать на него ответ. К тому же существует вероятность того, что некоторые из них участвуют в одном и том же эксперименте по несколько раз.

В исследовании «Оценивание виртуального рынка труда: Amazon’s Mechanical Turk» ученые проверили IP-адреса респондентов, участвовавших в одном из подобных опросов, и обнаружили всего 7 дубликатов, что составляет 2,5% от общего количества анкет (14 из 551).

По мнению авторов исследования, этот показатель не обязательно свидетельствует о повторном прохождении опроса. Вполне возможно, что одинаковые IP-адреса были просто присвоены разным пользователям. Также нельзя исключать вероятность того, что разные люди проходили опрос с одного и того же компьютера на работе или в каком-то кафе.

В то время, как личности «турков» в реальном мире остаются анонимными, каждый из них имеет свою онлайн-репутацию. После завершения задания работодатель оценивает работу «турка», и если она выполнена не на должном уровне, он имеет полное право отказать в оплате. Эта оценка влияет на дальнейшие перспективы работы «турка», поскольку многие задания доступны только тем пользователям, чей «рейтинг одобрения» превышает 95%.

Внешнее несоответствие в свою очередь связано с репрезентативностью выборки. Кто конкретно участвует в социологических исследованиях? Кто находится «внутри» Механического турка?

В большинстве своем пользователями Механического турка являются представители двух стран — США и Индии. Это связано прежде всего с тем, что американские и индийские «турки» могут получать денежные средства от компании в виде банковских переводов, в то время как работа представителей других стран оплачивается подарочными сертификатами Amazon.

image04_

Географическое распределение пользователей Механического турка

На сегодняшний день 46,8% пользователей Механического турка проживают в США, 34% — в Индии. Отношение американцев и индийцев к работе разительно отличается: американцы и представители других западных стран считают работу на платформе лишь неплохим способом скоротать время и, соответственно, зарабатывают гораздо меньше индийцев.

image08_

Синий маркер — «Заработок на MTurk не имеет для меня никакого значения».

Зеленый маркер — «Заработок на MTurk не влияет на мое материальное положение».

Фиолетовый маркер — «Заработок на MTurk является источником оплаты дополнительных расходов».

Оранжевый маркер — «Заработок на MTurk иногда помогает мне сводить концы с концами».

Красный маркер — «Заработок на MTurk всегда помогает мне сводить концы с концами».

image06_

Годовой доход пользователей Механического турка в США (верхняя диаграмма) и в Индии (нижняя диаграмма), 2010 год

В соответствии с этими данными, справедливая плата за работу на платформе должна составлять $0,1 в минуту или $6 в час. Средняя месячная заработная плата в Индии в 2012 году находилась в пределах $1006-3975. Значит, при ставке $0,1 в минуту индийский пользователь Механического турка мог заработать эту же сумму за несколько месяцев.

В исследовании «Amazon’s Mechanical Turk: новый источник доступных и достоверных данных?» ученые отстаивают позицию, согласно которой участие пользователей Механического турка в эксперименте не гарантирует репрезентативность результатов.

Тем не менее, даже если допустить, что это предположение верное, ученые могут разделить «турков» на чистые с демографической точки зрения выборки. Точно так же, как они устанавливают ограничения на возможность выполнения задания пользователем по его рейтингу одобрения, они могут допускать к прохождению социологических опросов жителей определенной страны.

Одним из способов снижения внешнего несоответствия данных является сравнение результатов общенациональных демографических опросов с аналогичными опросами, проведенными при участии пользователей Механического турка.

image07_

Авторы исследования «Оценивание виртуального рынка труда: Amazon’s Mechanical Turk» составили выборку из 551 американского пользователя Механического турка и сравнили результаты проведенного ими опроса с результатами опроса, проведенного Американским национальным центром электоральных исследований (ANESP).

Ученые отметили, что средний возраст опрошенных «турков» гораздо меньше в сравнении с респондентами других опросов, что не могло не повлиять на отклонения таких показателей как образование, семейное положение, средний доход.

image03_

Впрочем, в сравнении с «удобными выборками» — как в случае со студентами — преимущества Механического турка очевидны. Во-первых, средний возраст пользователей платформы гораздо выше, чем возраст студентов, а во-вторых, состояние и качественный состав случайно отобранных «турков» приближается к аналогичным показателям для отдельно взятой страны.

Вместо заключения

Итак, краудсорсинговая платформа Амазон Механический турок является отличным плацдармом для проведения разнообразных исследований. Основными ее преимуществами являются дешевизна и скорость проведения экспериментов (особенно если сравнивать их с лабораторными).

Вам не нужно искать и обучать ассистентов, арендовать помещения, платить студентам по $20, а потом несколько месяцев анализировать полученные результаты. Все, что вам необходимо для успешного научного исследования, это подключение к интернету. А для того, чтобы получить 10 000 анкет, потребуется всего $200 и пара-тройка дней… при условии, что ваш опрос не слишком скучный. :)

Механический турок открывает доступ к двум культурно, экономически и политически разным народам, которые являются активными пользователями платформы и прекрасно владеют английским, что значительно упрощает проведение международных исследований, основная цель которых заключается в сравнении проявления разнообразных эффектов. По словам ученых, именно это позволяет существенно снизить нерепрезентативность результатов научных исследований.

Высоких вам конверсий!

По материалам priceonomics.com