Многоканальная атрибуция глазами Calltouch / Хабр

Многоканальная атрибуция глазами Calltouch / Хабр Аналитика

Описание модели

Прежде чем мы приступим к описанию многоканальной модели атрибуции, нам бы хотелось сослаться на замечательные

Сергея Брыля, и

, в которых автор использовал красоту и функциональность марковских цепей для описания многоканальной атрибуции. В рамках данной статьи мы более подробно описали основные моменты, связанные с расчетом вероятности конверсии в рамках марковских процессов, а также предложили эффективный метод вычисления вероятности конверсии – на основании стохастических матриц.

Мы предложим две альтернативных интерпретации многоканальной модели атрибуции: графовую и матричную. Первая позволит наглядно описать модель, в то время как вторая позволяет эффективно вычислять требуемые характеристики. Мы покажем, что оба описания на самом деле представляют один и тот же случайный процесс, который называется марковским, а соответствующая процессу модель – марковской цепью.

Что такое модель атрибуции

Модель атрибуции – это правило распределения ценности разных источников трафика по их вкладу в конверсии. С ее помощью можно: 

  • определить, какие каналы привели посетителей на страницу, подтолкнули их к заказу товара или услуги;
  • отследить изменения в настройках кампании, их влияние на эффективность размещения рекламы; 
  • грамотно настроить рекламную кампанию;
  • снизить расходы и увеличить доход. 

Молодым компаниям атрибуция помогает найти каналы, чтобы заявить о себе и своей продукции. Опытным предпринимателям этот инструмент необходим для отсечения неэффективных каналов продаж.

Есть много способов, как определить и отсечь неэффективные рекламные площадки. Например, подключение коллтрекинга от Calltouch. Технология позволяет определить источники звонков клиентов, оптимизировать рекламную кампанию и вложения в продвижение продукции.

Введение

В последние годы инструментарий современного интернет-маркетолога расширяется все более и более быстрыми темпами. Сегодня помимо поисковой оптимизации (

$SEO$

) и контекстной рекламы Яндекс Директ и

$Google:Adwords$

в практический обиход вошли

$e-mail$

каналы, социальные сети,

$Instagram$

, ремаркетинг/ретаргетинг и т. д. Поэтому перед маркетологом встает задача выбора тех рекламных каналов, которые будут наиболее эффективны для конкретного проекта. Calltouch решил поговорить о том, что помимо сложности выбора оптимальных рекламных каналов, достаточно сложным становится вопрос комплексной оценки эффективности того или иного канала для последующего распределения рекламного бюджета между ними. Колонка старшего менеджера по продукту Calltouch Федора Иванова

По оценке Calltouch cложность эта связана в первую очередь с тем, что пользователь со своей стороны обладает по сути тем же самым инструментарием, что и маркетолог: он может прийти на сайт как по прямой ссылке, так и по переходу из соцсетей, из рекламной выдачи Яндекса и. т. д. Более того, прежде чем совершить на сайте целевое действие (конверсию) пользователь может неоднократно посещать сайт из разных «точек входа»: первый раз он перешел на сайт, кликнув по рекламному объявлению ($CPC$$Direct$$C$$Social$

Таким образом, при оценке эффективности рекламных каналов маркетологу прежде всего необходимо ответить на вопрос: как оценить вклад того или иного источника на формирование конверсии на сайте? По-другому этот вопрос можно сформировать так: что случится с конверсией на сайте, если исключить тот или иной маркетинговый канал?

First click model

В данной модели

$100%$

вес отдается первому источнику в последовательности и

$0%$

всем остальным. В нашем случае максимальный вес получит источник

$Direct.$

Если модель

$LCM$

“максимизирует” вес последнего канала, который «побуждает к действию», то

$FCM$

модель отдает предпочтение каналу, который начинает цепочку, т. е. «пробуждает интерес» пользователя к сайту. Данная модель также используется на практике, хотя и значительно реже, чем

$LCM.$

Last click model

Данная модель ввиду своей простоты и интуитивной «корректности» получила наибольшее распространение на практике. В самом общем случае в рамках

$LCM$

модели все

$100%$

веса конверсии отдаются последнему каналу в многоканальной последовательности, который предшествовал факту наступления целевого действия. В нашем случае классическая

$LCM$

модель даст вес

$100%$

каналу

$Direct$

всем остальным каналам.

На практике встречаются различные разновидности $LCM$
Многоканальная атрибуция глазами Calltouch / Хабр

Linear model


Линейную модель (

$LM$

), а также ее обобщения и улучшения (модель временного спада и на основе позиции) объединяет прежде всего то, что в ее рамках все каналы получают свой ненулевой вес. Различие между моделями заключается только в способе распределения веса между всеми каналами. В случае

$LM$

все каналы получают одинаковый вес (то есть их вклады в формирование конверсии) считаются равнозначными. В нашем случае каналы

$AdWords:CPC,$

будут иметь вес

$100/5=20$

Position type model


Модель атрибуции

$PTM$

является комбинацией из трех моделей:

$LCM,$

В ее рамках по максимальную долю (как правило по

$40%$

) получают первое и последнее взаимодействия в цепочке, а остальные (как правило

$20%$

) равномерно (как в линейной модели) распределяются между промежуточными каналами. В нашем примере каналы

$AdWords:CPC$

получат по

$40%$

веса, а

$Social,$

Time decay


Модель атрибуции

$TDM$

) базируется на предположении, что вклад канала тем больше, чем “ближе” к конверсии он находится, таким образом, вес канала является монотонно возрастающей функцией от его позиции в цепочке. По

можно ознакомиться с формулой расчета веса канала.

Влияние атрибуции на оптимизацию

Атрибуция напрямую влияет на распределение конверсий в рекламных кампаниях. Чтобы правильно оценить возможности рекламы, следует вычислить главный переход на веб-ресурс во всей цепочке: определить ту ключевую фразу, которая эффективно воздействует на целевую аудиторию. Смена модели атрибуции приводит к перерасчету ставок по ключам и пересмотру расходов рекламодателя. 

Образно это выглядит так:

  1. Вы меняете модель атрибуции.
  2. Система перераспределяет конверсии и переоценивает эффективность ключей.
  3. Вы делаете перерасчет ставок и оптимизируете рекламную кампанию.

Графовая модель

Граф

— абстрактный математический объект, представляющий собой множество вершин графа и набор рёбер, то есть соединений между парами вершин. Например, за множество вершин можно взять множество аэропортов, обслуживаемых некоторой авиакомпанией, а за множество рёбер взять регулярные рейсы этой авиакомпании между городами.

Граф называется ориентированным, если каждое из его ребер имеет направление, т. е. по сути представляет из себя вектор: для ребра точно указано, из какой вершины оно исходит, и в какой заканчивается.

Граф называется взвешенным, если каждому его ребру приписано некоторое числовое значение, называемое весом. Типичным примером взвешенного ориентированного графа является сеть автомобильных дорог между городами (вершинами графа), где под весом ребра (дороги) мы понимаем ее протяженность.

Для того, чтобы представить множество цепочек в виде графа, нам необходимо зафиксировать два множества: множество вершин $V$$E$


В качестве

$E$

будем выбирать пары соединенных между собой элементов из

Дополнительный анализ:  Мировой опыт систем дистрибуции предприятиями-производителями продовольственных товаров – тема научной статьи по экономике и бизнесу читайте бесплатно текст научно-исследовательской работы в электронной библиотеке КиберЛенинка

$V$

. Для рассмотренных выше элементарных цепочек имеем:

Ввиду того, что во множестве $E$
Многоканальная атрибуция глазами Calltouch / Хабр

Данный граф уже более пригоден для анализа. Наша следующая цель – это преобразование веса ребра к вероятностной нотации. Заменим вес ребра, соединяющий две вершины, вероятностью перехода из одной вершины в другую.

В частности, рассмотрим вершину $c_1$$c_2,:CV,:N$$c_1$$1 11 2=14$$11$$c_2$$2$$N$$CV$$P(c_1,c_2),:P(c_1,N),:P(c_1,CV)$$c_1$$c_2,:CV,:N$

Легко заменить, что

$P(c_1,CV)$

— это вероятность конверсии источника

$c_1$

в классической модели

$LCM.$

Становится очевидно, что модель

$LCM$

не учитывает большой объем статистических данных, которые мы можем собрать, анализируя пользовательские сессии. Если произвести расчеты для всех оставшихся вершин, то наш граф будет преобразован к виду:

На основании данной модели можно рассчитать полную вероятность конверсии для определенного канала. Для расчета используется следующая рекурсивная формула:

Смысл этой формулы в том, что для того, чтобы рассчитать полную вероятность конверсии некоторой вершины, требуется выбрать все вершины, достижимые из данной, затем рассчитать вероятности перехода в эти вершины из исходной, а затем для каждой достижимой вершины снова рассчитать полную вероятность конверсии.

$c_i$

, но отсутствует ребро, которое соединяет

$c_j$

. В противном случае указанная выше формула задает систему линейных уравнений, количество неизвестных в которой равно количеству «возвратных» ребер в графе.

Например, рассчитаем полную вероятность конверсии $P_{full}(c_1,CV)$$c_1$$c_1$$c_2,:CV,:N$$N$$CV$$CV$$CV$

В свою очередь из

$c_2$

можно вернуться в

$c_1$

или же перейти в

$c_3,:CV,:N$

, а значит:

тогда


Для удобства обозначим

$P_{full}(c_1,CV)=x$

, тогда получим следующее линейное уравнение:

Теперь рассчитаем

$P_{full}(c_3,CV)$

. Из источника

$c_3$

можно перейти только в

$CV$

или

$N$

. Тогда


Окончательно имеем следующее уравнение:

Откуда

Основным достоинством указанной выше модели является ее наглядность, в то время к очевидным недостаткам (что видно даже на простом примере) следует отнести высокую вычислительную сложность для случая большого числа источников трафика. Более того, если в качестве источников использовать различные ключевые слова, то объем вычислений увеличивается на порядки, что сделает все последующие расчеты нереализуемыми. Помимо этого, если допустить возможность переходов в графе вида:

$...rightarrow c_irightarrow c_irightarrow ... $

(то есть разрешить петли), то система уравнений становится нелинейной, что заметно усложняет нахождение требуемых вероятностей. В следующем разделе мы перейдем к рассмотрению матричной модели и покажем эффективные методы вычисления формул полной вероятности.

Как выбрать модель атрибуции?

Выбор модели атрибуции – важнейший этап в оценке эффективности рекламы. В зависимости от модели аналитик может получать абсолютно противоположные выводы о рентабельности того или иного канала. Особенно явно это наблюдается в тематиках, где процесс принятия решения занимает достаточно много времени (например, в сфере недвижимости или в автомобильной тематике).

Возникает естественный вопрос: какую модель атрибуции следует принимать за эталон? К сожалению, однозначного ответа на этот вопрос не существует. Только глубокий анализ поведения пользователей на сайте (пользовательских сессий) позволит принять взвешенное решение о выборе той или иной методике привязки конверсий к источнику трафика.

Как правило выбор останавливается на модели $LCM,$$LCM$$PTM$

Отдельно стоит отметить, что модель атрибуции является важнейшим фактором, который стоит учитывать при оптимизации контекстной рекламы. Выбор модели напрямую влияет на статистику, которая используется для расчета ставок. Если же считать, что каждая ключевая фраза – это отдельный рекламный канал, то можно существенно обогатить статистику, которая поступает на вход оптимизатора, кроме того, анализ последовательных переходов пользователя между ключевыми словами позволит увеличить эффективность оптимизации. Обсуждению этой темы будет посвящена отдельная глава данной работы.

Прежде чем перейти к описанию подхода, используемого нами для анализа многоканальных последовательностей, приведем «шуточный» пример, который с одной стороны покажет ограниченность классических моделей атрибуции, а с другой стороны позволит сформировать те основные вопросы, на которые следует найти ответ.

Допустим, целью является C=«увезти девушку к себе домой, чтобы посмотреть кино» .

Предположим, что мы имеем следующую цепочку действий (по сути каналов), которые привели к желаемой цели:

Познакомиться с девушкой → Пригласить в кино → Подарить цветы → Гулять вместе в парке → Проводить до дома → Пригласить на свидание в ресторан → Подарить цветы → Угостить ужином → Угостить коктейлем → Угостить еще одним коктейлем →… и еще одним → рассказать анекдот → C

Если мы имеем дело с моделью $LCM,$$FCM,$$LM$$PTM$$TDM$

Как мы видим, ни одна из классических моделей не может адекватно описать рассмотренную выше ситуацию и тем более не позволит правильно ответить на вопрос, какой же канал (действие) оказалось наиболее важным на самом деле.

Теперь сформулируем основные вопросы, на которые бы хотелось получить ответы от модели атрибуции:

Для правильного ответа на большинство поставленных вопросов нам недостаточно рассмотреть только одну последовательность. Требуется собрать некоторую статистику, которая бы с одной стороны позволяла прогнозировать поведение пользователей, а с другой – позволяла бы оценить вероятность конверсии на сайте для каждой из точек взаимодействия.

Рассматриваемая нами модель изначально разрабатывалась для совокупной оценки многоканальных последовательностей, предполагая, что каналы являются взаимо-зависимыми. Она позволяет ответить на большинство из сформулированных выше вопросов. Кроме того, мы покажем, как описанные нами методы позволят прогнозировать коэффициент конверсии по каждой ключевой фразе, что является необходимым элементом в оптимизации ставок в контекстной рекламе.

Прежде всего опишем тот формат данных, с которым работает наша модель.

Как правильно выбрать модель атрибуции

Чтобы грамотно анализировать весь трафик и принимать правильные решения, нужно выбрать подходящую модель атрибуции для вашего бизнеса. Иначе есть риск потери важного связующего звена, которое приводит к конверсиям. Чтобы принять правильное решение, необходимо ответить на следующие вопросы:

  • Какие конверсии считаются приоритетными при составлении анализа?
  • Сколько шагов необходимо клиентам для совершения конверсии?
  • Какие товары и услуги предоставляет компания: временные или постоянные?
  • Какова ваша цель: привлечь новых клиентов или активно работать с постоянными покупателями?
  • Сколько времени потребуется пользователю для принятия решения о совершении конверсии?
  • Компания, о которой идет речь, популярна или только вышла на рынок?
  • В арсенале фирмы достаточно статистических данных о конверсиях или погружение в аналитику находится только на начальном этапе?
  • Какова конкуренция в выбранной сфере?

Изучите отчеты системы веб-аналитики, сравните действующие модели в режиме реального времени, учитывайте особенности своей клиентуры и полученный опыт в ходе ведения бизнеса.

Чтобы сэкономить время на сбор статистических данных, подключите сквозную аналитику от Calltouch. Сервис автоматически собирает информацию с разных рекламных площадок и формирует детальные отчеты.

Как сменить модель атрибуции

В Google атрибуция изменяется на этапе импорта конверсий либо после этого процесса. Чтобы провести замену, необходимо:

  1. Зайти в раздел настроек.
  2. Выбрать раздел отслеживаний.
  3. Перейти в раздел конверсий.
  4. Выбрать наиболее подходящий цикл.

Чтобы изменить атрибуцию в Яндексе, следует зайти в параметры отчета и выбрать подходящий алгоритм. Стандартные настройки не дают возможности проводить учет взаимодействия с сайтами, поэтому они не могут быть эффективными при оценке трафика.

Дополнительный анализ:  Прогнозы на футбол на сегодня и завтра | NB-Bet

Матричная модель

В предыдущей главе мы рассмотрели графовую модель мультиканальной атрибуции. Для того, чтобы преобразовать ее к более удобному для вычислений виду, вновь рассмотрим набор из

$k$

каналов

$c_1,c_2,...c_k$

и двух дополнительных «псевдоканалов»

$CV$

. Напомню, что в графовой модели они играли роль вершин.

По наблюдаемым последовательностям, составленным для каждого из пользователей, мы можем без труда рассчитать вероятности перехода (иначе говоря, условные вероятности) $P(c_i,c_j),:P(c_i,CV),:P(c_i,N)$$P(N,c_i)=P(CV,c_i)=0$$P(N,N)=P(CV,CV)=1$$(k 2)times(k 2)$$P(c_i,c_j),:P(c_i,CV),:P(c_i,N),:P(N,c_i),:P(CV,c_i):$
и $P(N,N),:P(CV,CV)$

В частности, для рассматриваемого выше примера мы получим:

Легко заметить, что для любой $i$$H$

Матрица, для которой выполнено данное условие, называется стохастической. Известно, что произвольная стохастическая матрица определяет некоторый случайный процесс, называемый марковским. Дадим такому процессу более формальное (хотя и не строгое с математической точки зрения) определение.

Марковским процессом называется такой случайный процесс с некоторым числом состояний, что вероятность перехода в следующее состояние зависит только от того текущего состояния, в котором находится система.

Таким образом, рассматриваемый нами процесс переходов между различными маркетинговыми каналами можно считать марковским процессом, определяемым матрицей переходных вероятностей $H$


В нашей прикладной задаче оценки вероятности конверсии каждого из каналов, нам требуется ответить на частный случай первого вопроса:

Какова полная вероятность перейти из состояния (канала) $c_i$ в $CV$$CV$$N$для расчета данной вероятности необходимо возвести матрицу в бесконечную степень и взять значение, стоящее на позиции$(i,k 1)$

Можно строго доказать, что для случая, когда из состояний

$CV$

невозможны переходы ни в какое другое состояние, этот предел существует. Конечно, на практике мы не можем оперировать с «бесконечной» степенью матрицы. Однако вместо «бесконечности» как правило достаточно взять достаточно большую степень двойки. Удобство возведения матрицы в степень

$2^t$

заключается в том, что требуется произвести ровно умножений матрицы

$H$

на себя.

В самом деле, пусть, например, $t=8$$H^{2^8}=H^{256}$


Покажем на нашем примере скорость «сходимости» предела к нужной нам вероятности:

Как видно из таблицы, уже для $H^8$$P_{full}(c_1,CV)$$H^{16}$$H^{32}$$H^{64}$$H^8$$3$

Модели атрибуции

Модель атрибуции – это способ распределения «веса» конверсии между каналами. В зависимости от выбора модели атрибуции будет рассчитан вес канала (источника), который условно можно считать тем вкладом, который данный источник внес в формирование конверсии.

Как уже было отмечено, основное отличие моделей атрибуции между собой – это способ расчета веса канала в последовательности. Рассмотрим каждую модель более подробно. Для наглядности предположим, что мы имеем следующую многоканальную последовательность:

Модели атрибуции яндекс. директа

В Директе нет собственных настроек моделей атрибуции: он работает совместно с Метрикой. Для распределения конверсий система использует атрибуции из ее отчетов. В отличие от Метрики, Директ строит отчеты на основе кликов по объявлениям, а не по визитам на сайт.

Модели атрибуции яндекс.метрики

Яндекс.Метрика использует четыре модели, которые можно применять в разных отчетах.

Последний переход. Для каждого визита на сайт система определяет источник перехода в конкретный момент. История визитов пользователей здесь не учитывается. Последний переход нужен для проведения технического анализа веб-сайта. Например, для поиска страниц без кода счетчика с использованием анализа внутренних переходов.

Последний значимый переход. В Яндекс Метрике все переходы делятся на:

  • значимые (визиты на сайт по рекламным ссылкам, через системы поиска и партнерские ссылки);
  • незначимые (визиты на сайт с сохраненных страниц и внутренние переходы).

К конверсии приводят значимые переходы, поэтому ценность конверсии определяется по последнему значимому переходу.

Последний переход из Директа. В этой модели из всех значимых переходов система рассматривает только визит на сайт из Директа. Если пользователь перешел на веб-ресурс через объявление в Директе, именно этот переход будет источником конверсии.

Первый переход. Источником конверсии считается первый переход, который был совершен за последние полгода (значимый или незначимый). Этот алгоритм нужен при длинном цикле принятия решения, которое приведет к конверсии.

От оценки каналов к оптимизации


Построенная аналитическая модель позволяет решить 3 основные задачи:

При проектировании оптимизатора конверсий, который позволяет управлять ставками в контекстной рекламе на основе их эффективности так, чтобы достигать требуемых

$KPI$

(ключевых показателей эффективности), требуется оценивать коэффициент конверсии

$CR$

для каждой ключевой фразы. Как нами отмечалось, выбор той или иной модели атрибуции конверсий напрямую влияет на расчет коэффициента конверсии не только на уровне рекламного канала, но и на уровне ключевой фразы. Традиционно оптимизаторы работают с моделью

$LCM$

или ее модификациями. Ранее мы показали ограниченную способность

$LCM$

предсказывать коэффициент конверсии (как правило она занижает его, так как учитывает только прямую связь кейворд конверсия, не анализируя промежуточные переходы).

Представленная модель атрибуции конверсий избавлена от этих недостатков, хотя для вычисления вероятностей требует значительно больше вычислительных ресурсов. Гибкость описанного подхода заключается еще и в том, что в качестве «канала» мы можем использовать любой неотъемлемый атрибут сессии.

В частности, рассмотрим параметр $URL$$URL$$UTM-$$UTM$метки – это параметры (переменные) содержащие дополнительные данные, которые добавляются к $URL$$UTM$$Calltouch$

Оценка изменения базовых метрик при отключении канала

Ответив на вопрос, как изменится количество конверсий при удалении из всех цепочек того или иного канала

$c_i$

возникает вполне естественный вопрос о том, как изменится значение таких базовых метрик, используемых при анализе эффективности рекламы, как:


Ответить на данные вопросы, не привлекая дополнительные допущения, достаточно сложно. Наша базовая аксиома состоит в том, что

при удалении канала$c_i$из некоторой цепочки$R_j$данная цепочка прерывается

. Более точно формулировка выглядит так: если цепочка до удаления канала имела вид:

то после удаления канала

$c_i$

цепочка будет модифицирована в:


Данное допущение означает, что если убрать канал, который был использован пользователем для взаимодействия с сайтом, то дальнейшего взаимодействия пользователя с данным сайтом не будет.

Для оценки базовых метрик нам также необходимо добавить в параметры сессий пользователей такой показатель как «стоимость перехода». Eго можно интерпретировать как стоимость, которую платит рекламодатель, за клик пользователя по данному каналу, если канал бесплатен (как например прямой переход), то будем считать, что стоимость перехода равна $0.$$SEO$$c_i$$R_j$$V_j(c_i)$$V(R_j)$$R_j$

При этом общие расходы на канал

$c_i$

равны:


Oбщие расходы на привлечение пользователей на сайт при использовании каналов

$c_1,c_2,..., c_k$

равны:

Двойственность формулы объясняется разными способами вычисления общих расходов: в первом случае мы суммируем расходы на каждую из цепочек по всем

$G$

цепочкам, а во втором – суммируем расходы на канал по всем

$k$

каналам.

Для оценки новых расходов после удаления из всех цепочек канала $c_i$$V_{new}=V_{old}-sumlimits_{j:c_iin R_j}{V(R_j)},$$V_{new}$$c_i$$V_{old}$$R_j$$c_i$


Очевидно, что

а значит

Последнее неравенство означает, что удаление любого канала $c_i$$Loss(c_i)$$EC(c_i)$

Теперь, после того, как мы научились оценивать изменение расходов после удаления канала

$c_i$

, мы можем оценить новую стоимость конверсии, которая бы имела место в случае отсутствия канала:


Если положить, что до удаления канала мы имели прежнюю стоимость конверсии:

и целью удаления канала стоит снижение стоимости конверсии, то решающее правило может быть следующим:

Дополнительный анализ:  Апофеоз безумия - spydell — ЖЖ

То есть если удаление канала приводит к снижению стоимости конверсии (при разумном снижении их количества), то его можно исключить из цепочек и перестать тратить на него бюджет.

Кроме того, можно оценить стоимость «недополученных конверсий» при удалении канала:

поэтому вместо правила

$CPA_{new}-CPA_{old}<0$

можно воспользоваться другим: если выполняется соотношение

$CPA_{loss}

то удаление канала

$c_i$

приведет к снижению общей стоимости конверсии на сайте.

Теперь приступим к описанию основной модели, требуемой для расчета вероятности конверсии канала.

Пользовательские сессии

Предположим, что за некоторый анализируемый нами промежуток времени

$T$

, на сайт было совершено

$M$

переходов, то есть мы располагаем данными об

$M$

пользовательских сессиях. Каждая

$i$

сессия

$S_i$

обладает фиксированным набором параметров (атрибутов сессии)

$P$

. Для нашего анализа нам потребуется, чтобы следующее множество атрибутов входило во множество всех атрибутов сессии:

где:


Далее для простоты мы будем полагать, что промежуток времени

$[TimeS; TimeF]$

находится внутри анализируемого периода

$T$

, поэтому мы уберем атрибуты

$TimeS,:TimeF$

из рассматриваемого множества параметров. Также следует отметить, что параметр

$URL$

требуется только для того, чтобы осуществить переход от уровня каналов до уровня ключевых фраз (при условии наличия разметки в

$URL$

), что пригодится для оптимизации ставок, но не обязательно для оценки влияния каналов на конверсию. Под каналом мы понимает источник трафика, к которым можно отнести:


Для простоты изложения будем кодировать рекламные каналы следующим образом:

$c_1,:c_2,:...,:c_k$

, считая, что их количество ограничено величиной

$k$$M$$Sigma={S_1,S_2,...,S_M}$$Gleq M$$clientID$$Sigma$$G$

где

$U_i$

множество сессий (отсортированных по возрастанию даты окончания) с одинаковым

$clientID$

, т. е. множество упорядоченных в хронологическом порядке сессий, инициированных одним и тем же пользователем. Учитывая наше предположение о том, что

$[TimeS; TimeF]subset T$

, то на основании данных в

$U_i$

мы можем сопоставить с каждым

$i$

пользователем следующую цепочку каналов:

где

$L_i=|U_i|$

— количество элементов (по сути количество переходов пользователя на сайт) во множестве

$U_i$

. Представленная выше цепочка переходов представляет из себя последовательность источников трафика, которые использовал

$i$

пользователь в процессе взаимодействия с сайтом.

Введем два дополнительных «псевдоканала» $CV$$N$


Кроме того, дополнительно обратим внимание на ситуацию, когда мы имеем дело с цепочками вида:

Последовательности с такой структурой не могут возникнуть согласно сформулированным выше правилам, но тем не менее могут иметь место в ряде случаев, например в звонящих тематиках, когда помимо указанных выше параметров сессии мы имеем уникальную связку:

В этом случае первый звонок в указанной выше цепочки будет уникальным звонком, а все последующие – повторными звонками абонента с заданным $clientID$$CV$$N$$N$$CV$$c_1,:c_2,:c_3$$CV$$N:$

Cледующий шаг, необходимый для построения мультиканальной модели атрибуции заключается в том, чтобы преобразовать последовательности таким образом, чтобы событие

$CV$

, как и

$N$

, могло встречаться только строго в конце последовательности (такие последовательности будем называть элементарными). Для этого будем «расщеплять» исходные цепочки так, чтобы в их конце всегда стояли

$CV$

или

$N$

Продемонстрируем эту методику на примере типичных последовательностей:

В результате расщепления все цепочки стали «элементарными», и теперь мы можем приступить к описанию модели. Однако прежде чем перейти к этому шагу, мы уже на данном этапе можем ответить на вопрос: как оценить влияние канала на конверсию на сайте.

Примеры применения разных моделей атрибуции

Примеры показывают, что в каждой бизнес-сфере действуют свои модели атрибуции.

Пример №1.

Владелец салона красоты создает официальный сайт, где размещает информацию об услугах и специальных предложениях. Постоянный поток клиентов – результат качественного обслуживания, работы «сарафанного радио» и рекомендаций довольных посетителей.

Перед владельцем салона стоит задача привлечения новых клиентов с помощью интернет-рекламы. Он запускает кампанию, использует для аналитики конверсий Гугл Рекламу. Оптимальное решение – алгоритм первого клика. Без него люди бы вообще не узнали о существовании этого салона.

Пример №2.

Владелец онлайн-магазина туристического снаряжения заинтересован в притоке клиентов вне сезона. При анализе конверсий важную роль играет канал, который повлиял на покупателя и его желание приобрести товар. Здесь подходит атрибуция по последнему непрямому клику.

Пример №3.

Рассмотрим случай с продажей квартир от застройщика. Это довольно ответственное решение, требующее больших вкладов. Покупатель изучает информацию о застройщике, жилищных комплексах, условиях ипотеки. Все каналы здесь будут иметь приоритетное значение, поэтому целесообразно использовать линейную атрибуцию.

Расчет влияния каналов на конверсию

Рассмотрим множество из

$G$

последовательностей (будем считать, что все они уже являются элементарными, то есть оканчиваются на

$CV$

или

$N$

. Предположим, что из последовательностей

$X$

оканчиваются на

$CV$

. Обозначим влияние канала

$c_i$

на конверсию на сайте за промежуток времени

$T$

через

$I(c_i)$

, а элементарную

$j$

цепочку через

$R_j$

. Величину влияния

$I(c_i)$

канала

$c_i$

на конверсию будем считать как количество «недополученных» конверсий в случае удаления канала

$c_i$

из всех конверсионных цепочек, где он присутствует, отнесенное к общему количеству конверсий

$X$


Очевидно, что для любого

$c_i$

величина

$I(c_i)$

удовлетворяет следующему неравенству:

причем

$I(c_i)=0$

тогда и только тогда, когда канал

$c_i$

не входит ни в одну «конверсионную» последовательность, и

$I(c_i)=1$

в том и только том случае, если удаление

$c_i$

приведет к потере всех конверсий на сайте. Таким образом, легко оценить новое число конверсий, которое получится после удаления канала

$c_i$


Рассчитаем влияния каналов

$c_1$

для нашего примера. Всего мы наблюдаем

$8$

конверсий (конверсионных цепочек) из

$13$

элементарных цепочек

$R_j$

. Канал

$c_1$

участвует во всех конверсионных цепочках, а значит его влияние на конверсию равно

$1$

. Далее, канал

$c_2$

присутствует в

$7$

конверсионных цепочках, а значит

$I(c_2)=7/8.$

Наконец,

$c_3$

входит в состав одной конверсионной цепочки, тогда

$I(c_3)=1/8.$$I_n(c_i)$

В этом случае, очевидно

Формула для расчета влияния канала на конверсию может быть легко модифицирована на случай, когда требуется оценить влияние одного канала на другой. В частности, если стоит задача выяснить, как влияет канал

$c_i$

, то можно воспользоваться следующим рассуждением: сессия пользователя, инициированная каналом

$c_i$

приводит к сессии с каналом

$c_j$

столько раз, сколько существует цепочек

$R_f$

, таких что в них

$c_i$

предшествует

$c_j$

. Тогда если обозначить через

$I(c_i,c_j)$

величину такого влияния, то:


В общем случае функция

$I(c_i,c_j)$

не является симметричной:

$I(c_i,c_j)≠I(c_j,c_i).$

Последовательности

$R_f$

, такие что в них одновременно

$c_i$

предшествует

$c_j$

предшествует

$c_i$

(т. е. образуются циклы) также можно учитывать в знаменателе формулы. Введенная ранее нормировка естественным образом обобщается и на только что описанный более общий случай:

Заключение

В работе дан обзор используемых в настоящий момент классических моделей атрибуции конверсий. Кроме того описана модель мультиканальной атрибуции, основанная на марковских процессах (цепях), которая позволяет комплексно оценить как вероятность конверсии для каждого рекламного канала, так и рассчитать влияние канала на конверсию на сайте. Продемонстированы подходы, позволяющие адаптировать построенную модель для оптимизации ставок в контекстной рекламе.

Выводы

Атрибуция – важный параметр, который помогает проанализировать эффективность рекламных кампаний, принять грамотные управленческие решения и улучшить результаты рекламы. При выборе модели нужно учитывать специфику бизнеса – для каждой сферы подходит конкретная модель атрибуции.

Оцените статью
Аналитик-эксперт
Добавить комментарий