Основы интерпретации данных веб-аналитики — перевод ANALYTICS TALK

Каждый день мы говорим о данных – сессии, визиты, конверсия, страницы, посещения ит.д. Но иногда мы неправильно понимаем, как все эти метрики соотносятся друг с другом и откуда они берутся. Давайте разберёмся, как упорядочены данные в инструментах веб-аналитики.

Все данные, собранные системами веб-аналитики, можно представить в виде пирамиды из трёх основных блоков — пользователи, визиты и просмотры. Абсолютно не имеет значения, откуда эти данные получены — с веб-сайта, мобильного приложения или из торгового терминала.

2014-02-04_12-01-23

Данные веб-аналитики организованы в виде пирамиды из хитов, сессий и пользователей.

Иногда мы используем понятие «посетитель» вместо понятия «пользователь» и «посещение» вместо «сессии» — это всё синонимы. Развитие мобильных устройств и цифрового телевидения побудило нас ввести новые понятия в наш словарный запас.

Важно разобраться с каждым блоком пирамиды и тем, как они взаимодействует с остальной структурой, чтобы сформировать комплексное представление о наших текущих и потенциальных покупателях, а в конечном счёте все эти данные нужны для оценки эффективности управленческих решений и поиска новых возможностей развития бизнеса.

Давайте начнём с основания пирамиды – хитов, а затем постепенно рассмотрим содержание понятий «сессия» и «пользователь».

Хиты

Хит — это наиболее точный фрагмент данных в веб-аналитике. По своему содержанию хит — это запрос небольшого графический файл с сервера веб-аналитики. Вместе с каждым таким запросом передаются данные о действиях пользователя на веб-сайте или в мобильном приложении.

2014-02-04_09-39-11
Все данные передаются с помощью хитов. Большинство хитов – это запросы невидимых графических файлов.
Существует несколько разновидностей хитов в зависимости от используемой Вами системы веб-аналитики. Вот некоторые из наиболее распространенных хитов в Google Analytics:

Просмотр страницы/экрана

Хит «просмотр страницы» используется для веб-сайта, а «просмотры экрана» — для мобильного приложения. Как правило, эти хиты автоматически генерируются и позволяют измерять количество просмотров пользователями определённых фрагментов контента. Просмотры страниц — одна из основных метрик в веб-аналитике. Она используется для расчета многих других показателей, таких как число просмотров страниц за одно посещение и среднее время, проведённое на странице.

События 

События используются для измерения частоты совершения пользователями каких-либо действий с контентом. В отличие от количества просмотренных страниц, которые определяются автоматически, события необходимо задавать вручную. Вам, как правило, нужно самостоятельно определить действия пользователя, которые система веб-аналитики будет интерпретировать как событие. Такими действиями могут быть нажатие кнопки, переход по ссылке, просмотр экрана и т.д. Главное — чтобы пользователь взаимодействовал с контентом страницы или экрана, а не просто посетил страницу.

Транзакции

Когда пользователь совершает покупку, на сервер веб-аналитики может отправляться информация о транзакции, в том числе информация о продукте (артикул, цвет, складской номер и др.), а также информация о доставке, налоговых платежах ит.д. Вы должны вручную настроить систему отслеживания электронной торговли для получения необходимых данных.

Социальные взаимодействия

Данный хит происходит каждый раз, когда пользователь нажимает на кнопки retweet, +1 или Like. Если вы хотите знать, когда люди нажимают на кнопки социальных сетей, а затем использовать эту информацию, то необходимо вручную настроить данный вид треккинга.

Пользовательские тайминги

Пользовательские тайминги позволяют измерить время между различными действиями пользователя на сайте. Например, вы можете измерить время между моментом, когда страница загрузится, и когда пользователь нажмёт на определённую кнопку. Пользовательские тайминги могут быть реализованы с помощью установки дополнительного кода на сайт.
Все типы хитов отправляются в Google Analytics через треккинг-код. Структура и вид кода зависят от тех данных, которые вы отслеживаете. Если вы отслеживаете веб-сайт, то используется код на JavaScript, который называется analytics.js, который генерирует и отправляет хиты на сервер веб-аналитики. Если вы отслеживаете мобильные приложения, тогда хиты генерируются SDK (набором средств разработки либо под Android, либо под iOS). Если вы отслеживаете сенсорные торговые терминалы, тогда вам самим нужно генерировать хиты с помощью специального протокола измерений (measurement protocol).

Независимо от типа хита, он должен соответствовать определённым правилам: запрашивать невидимое изображение и передавать данные параметра через строку запроса.

http://www.google-analytics.com/collect?v=1&_v=j16&a=164718749&t=pageview&_s=1&dl=http%3A%2F%2Fcutroni.com%2F&ul=en-us&de=UTF-8&dt=Analytics%20Talk%20-%20Digital%20Analytics%20for%20Business&sd=24-bit&sr=1920x1080&vp=1308x417&je=1&fl=12.0%20r0&_utma=32856364.1751219558.1391525474.1391525475.1391525475.1&_utmz=32856364.1391525475.1.1.utmcsr%3D(direct)%7Cutmccn%3D(direct)%7Cutmcmd%3D(none)&_utmht=1391525534970&_u=cACC~&cid=1751219558.1391525474&tid=UA-91817-11&z=378275262

Для тех, кто хочет лучше понять, что здесь происходит: данные отправляются через запрос типа GET или POST. Это необходимо знать, потому что количество передаваемых данных по каждому протоколу ограничено: GET-запрос может передавать 2048 символов данных. POST-запрос теоретически может быть любой длины, но при отправке данных в Google Analytics количество символов ограничено примерно 8000 знаков.

Информация каждого хита преобразуется в основные параметры. Каждый хит передаёт информацию о всего лишь одном измерении отдельного показателя.

2014-02-05_09-14-38

Немного о мобильных телефонах…

Наборы средств разработки под мобильные платформы отправляют данные не в реальном времени, а могут хранить их в памяти устройства и отправлять отдельными пакетами. Эта функция называетсядиспетчеризацией, и она используется по нескольким причинам. Во-первых, мобильные устройства не всегда подключены к интернету, поэтому аналитика должна хранить хиты до тех пор, пока смартфон снова не подключится к Всемирной паутине и только после этого посылает хиты на сервер аналитики. Во-вторых, отправка хитов пакетами данных снижает энергопотребление. Не волнуйтесь, диспетчеризация не влияет на формирование информации о сессиях, о которых мы поговорим прямо сейчас.

Сессии

Сессии – это наборы данных хитов от одного пользователя, сгруппированные вместе. По умолчанию большинство аналитических систем, включая Google Analytics, будут группировать хиты вместе на основании активности пользователя. Когда инструменты веб-аналитики определяют, что пользователь больше не совершает действий на сайте, его сессия будет прервана; когда пользователь снова начнёт что-то делать – начнётся новая сессия.

Большинство систем веб-аналитики используют 30-минутный интервал неактивности для разделения сессий. Эти 30-минутные периоды называются тайм-аутами.

2014-02-03_18-16-53

Сессия – это набор хитов. Она заканчивается, когда не пользователь не совершал действий в течение 30 минут.

Google Analytics и большинство других инструментов веб-аналитики используют период между первым и последним хитом для того, чтобы рассчитать время, проведённое посетителями на сайте. Период между хитами также используется для расчёта других метрик, таких как время, проведённое на странице.

Большинство инструментов позволят вам самим установить время тайм-аута для лучшего соответствия целям вашего сайта. Например, если у вас на сайте большое количество видео, особенно длительностью более 30 минут, то вы можете изменить тайм-аут.

Почему?

Если пользователь смотрит видео дольше 60 минут (под просмотром я понимаю то, что он не совершает других действий на сайте), его сессия будет прервана через 30 минут после совершения последнего хита. Для того чтобы избежать этого, вам нужно увеличить тайм-аут.

Или лучше вообще отправлять дополнительные хиты во время просмотра пользователем видео. Подумайте об этом – больше хитов даёт больше информации о пользователе и позволяет лучше рассчитывать продолжительность сессии. Поверьте, вам стоит выделить 12 минут на чтение статьи how Google Analytics performs time calculations.

Теперь, когда мы знаем, что хиты группируются в сессии, давайте посмотрим, как сессии распределяются по пользователям.

Пользователи

2014-02-03_18-21-09

Сессии одного пользователя могут быть сгруппированы вместе до тех пор, пока каждый хит имеет один и тот же ID

Далее показано, как определяются пользователи на наиболее распространённых цифровых платформах.

Пользователи сайта

 

Для подсчёта количества пользователей сайта почти все инструменты веб-аналитики используютcookies. Cookies – небольшой фрагмент текста. Они содержат анонимный идентификатор. Каждый хит, который отправляется с сайта на сервер аналитики, содержит информацию о cookies.

2014-02-03_15-30-36

Когда отслеживаются данные с веб-сайта, системы аналитики обычно используют первую частьcookies, которая хранит анонимный id.

Теперь давайте поговорим о cookies

Google Analytics использует первую часть cookies, которая содержит название домена, создавшего её. Только этот домен может обращаться к первой части cookies. Таким образом, cookies, которая была поставлена пользователю на сайте cutroni.com, может быть использована только этим сайтом.

В Universal Analytics cookie называются _ga, а в предыдущей версии Google Analytics cookie назывались __utma.

В пользу использования первой части cookie говорит тот факт, что любой браузер может её устанавливать. Это очень надёжная технология.

Первая часть cookies позволяет с большой степенью вероятности определять, с какого сайта поступают данные о действиях пользователя. Однако когда пользователь покидает ваш первый сайт и переходит на ваш другой сайт, второй сайт не будет передавать данные о себе на первый сайт. В большинстве случаев, если правильно не настроить систему аналитики, сайт автоматически установит новые cookieпри посещении пользователем другого сайта.

2014-02-03_19-13-22

Системы аналитики используют первую часть cookie, чтобы хранить идентификатор пользователя.

Теперь у вас есть пользователь с двумя cookies. Это может привести к двойному учёту пользователей. К тому же, если мы хотим собрать действительно важные данные, такие как доход на одного абонента, этого будет сложно добиться, потому что мы не будем знать точного число посетителей наших сайтов.

С другой стороны, существуют сторонние cookie, которые могут быть получены другими доменами. Некоторые системы аналитики позволят вам использовать эту возможность.
Значимость таких cookie заключается в том, что инструменты аналитики смогут использовать их для отслеживания перемещений пользователей с одного домена на другой.

2014-02-03_19-17-26

Сторонние cookie могут быть использованы разными сайтами.

Однако сторонние cookies не могут быть созданы большинством браузеров, что приводит к невозможности получить корректные данные.

Google Analytics не использует сторонние cookie. Вы можете прочитать об использовании cookies вGoogle Analytics в руководстве разработчика developer documentation.

Так как же решить эту проблему? Как правильно определять пользователя, если ваш сайт размещён на нескольких доменах? В Google Analytics мы обычно используем функцию, которая называется CrossDomain Tracking. В данном посте я не буду на этом подробно останавливаться, но вы можете почитать об этом по следующей ссылке support documentation.

Пользователи мобильных устройств

Теперь давайте перейдём к мобильным платформам

Мобильный трекинг похож на трекинг веб-сайтов. Есть анонимный идентификатор, устанавливаемый на устройство. Идентификатор генерируется каждый раз, когда на устройство устанавливается приложение. Если пользователь удалит приложение, то и идентификатор тоже будет удалён. Но это правило не распространяется на обновление приложения: идентификатор при этом меняться не будет.

Самое большое различие между мобильными устройствами и веб-сайтами заключается в том, что на мобильных девайсах идентификаторы не хранятся в cookie, а вместо этого используется память мобильного устройства. Принцип действия таких идентификаторов мало чем отличается от cookie: с каждым хитом мобильные устройства отправляют идентификатор пользователя на сервер аналитики, а он в свою очередь использует их для расчёта таких метрик, как уникальный пользователь.

С измерением данных приложений связана одна сложность. Многие приложение являются не просто приложениями, а гибридами приложения и сайта, т.е. используют браузер во фрейме. Это часто мешает корректному сбору данных, приводит к дублированию информации.

В этом случае мы имеем две технологии с двумя разными идентификаторами: приложение передаёт данные о пользователе на основе своего ID, а веб-сайт использует cookie, когда загружается страница в браузере.

2014-02-04_10-28-41

Мобильное приложение, в который встроен браузер, может отправлять дублирующие хиты на сервер аналитики.

Существует несколько путей решения этой проблемы, но это достаточно сложная тема, которой можно посвятить отдельный блог.
Так, теперь мы знаем о мобильных пользователях и пользователях веб-сайта. А что же с сенсорными торговыми терминалами?

Другие цифровые сенсорные устройства

В современном мире пользователь может взаимодействовать с цифровым контентом на различных устройствах (компьютер, мобильный телефон, терминал, ТВ-приставки ит.д.). И по этой причине многие данные об одном и том же человеке дублируются и мешают корректному измерению числа пользователей.

Одной из особенностей Universal Analytics является возможность отслеживать пользователей, использующих разные девайсы, в т.ч. сенсорные торговые терминалы. Это стало возможным благодаря использованию технологии, которая получила название протокол измерений (measurement protocol).

Как это работает на практике?

Протокол измерений также собирает хиты. Это те же хиты, которые были описаны выше. Разница лишь в том, что необходимо вручную задать их структуру. Таким образом, если вы хотите реализовать аналитику на торговом терминале, то необходимо будет написать гораздо больше кода, чтобы создать хиты, которые впоследствии будут отправляться в Google Analytics.

Но что происходит с идентификацией пользователей, когда используется протокол измерений?

Когда вы создаёте хиты, вы должны вставить в него идентификатор пользователя. Затем GoogleAnalytics будет использовать этот идентификатор как уникальный номер, когда начнёт обрабатывать данные.

2014-02-04_11-23-57

Для определения пользователей, которые переключаются на другие девайсы, такие как сенсорные торговые терминалы, вам нужно вставить ваш собственный идентификатор и сгенерировать собственные хиты.

В отличие от веб-сайтов и мобильных приложений, в терминалах нет cookie или базы данных для храненияидентификатора. Таким образом, ID не сохраняется ни в хитах, ни в сессиях. Вы должны вручную вставить идентификатор в каждый хит в каждой сессии. Именно ваш код должен обеспечивать генерацию и хранение идентификатора.

На этом можно закончить. Получился достаточно хороший обзор данных цифровой аналитики.