Как менеджер по развитию X5 Retail Group стал аналитиком данных

Как менеджер по развитию X5 Retail Group стал аналитиком данных Аналитика

X5 открыла в мфти кафедру промышленного анализа данных в ритейле

X5 Retail Group открыла кафедру промышленного анализа данных в ритейле и запустила магистерскую программу на базе физтех-школы прикладной математики и информатики в Московском физико-техническом институте. Х5 стала первым продуктовым ритейлером, открывшим собственную кафедру для системной работы с данными на базе крупнейшей научной школы.

Сотрудничество между МФТИ и Х5 будет долгосрочным, ежегодно в рамках совместной магистерской программы будет выпускаться 20 высококвалифицированных специалистов. Преподавателями кафедры будут и сотрудники Х5, и научный состав МФТИ. Обучение на кафедре будет бесплатным, а всем студентам будет выплачиваться повышенная стипендия от X5. На время обучения на кафедре предполагается стажировка или трудоустройство студентов в X5 Технологии за конкурентную заработную плату.

Программа организуется с целью подготовки специалистов, способных ставить и решать новые задачи в области анализа данных применительно к потребностям ритейла, извлекать полезную информацию из больших массивов данных и создавать модули ее трансформации/агрегации/визуализации, осуществлять предсказательное моделирование временных рядов и создавать системы принятия решений для подразделений торговых сетей, HR, финансового планирования, рисков и аудита. Специалисты будут владеть современными технологиями разработки программного обеспечения, принципами построения и инструментарием работы с хранилищами больших данных, методами прикладной статистики (в том числе робастными, байесовскими, и методами теории эксперимента), познакомятся с прикладными задачами ритейла (динамическое ценообразование, предсказание спроса, uplift-моделирование, управление онлайн-маркетингом и т.д.). Программа будет содержать в себе как теоретические, так и проектно-ориентированные курсы и использовать самые современные методы анализа данных и технологии.

«Со дня основания в МФТИ заложен принцип совместной реализации образовательных программ и исследовательских проектов с ведущими научными и производственными центрами. Сегодня, следуя за изменениями в науке и технологиях нашими партнёрами становятся не только институты РАН или крупные промышленные предприятия, но и ведущие бизнес-корпорации. Поэтому закономерно, что сегодня мы открываем базовую кафедру компании X5, которая представляет высокотехнологичный бизнес в ритейл-секторе. Мы ждём, что коллеги из бизнес-единицы X5 Технологии через призму своих компетенций включатся в работу кафедры и наполнение учебного плана новой магистерской программы «Промышленный анализ данных в ритейле». Уверен, это позволит её выпускникам найти себя в решении сложных задач, связанных с анализом данных и внедрением технологий искусственного интеллекта», — отметил Николай Кудрявцев, ректор МФТИ, член-корреспондент РАН.

«В рамках реализации новой стратегии Х5 и активной цифровой трансформации операционных процессов, всё более острым для нас становится вопрос привлечения высококвалифицированных технических специалистов. Мы становимся data-driven компанией, чьи решения основаны на аналитике больших данных, а процессы – автоматизированы. В нашей команде много выпускников МФТИ, и мы на практике видим, как соединение уникальных научных знаний, таланта и передовых бизнес-моделей могут влиять на улучшение жизни и потребительского опыта миллионов наших клиентов. Открытие кафедры X5 в МФТИ – логичный этап развития нашей системной работы с технологиями, в рамках которой мы готовы делиться уникальными разработками команды Х5Tech и открывать карьерные возможности для талантливых студентов», – комментирует Антон Мироненков, управляющий директор Х5 Технологии, заведующий кафедрой «Промышленный анализ данных в ритейле».

Отбор на магистерскую программу «Промышленный анализ данных в ритейле» начнётся летом 2021 года в рамках приёмной кампании МФТИ. Для поступления необходимо знание алгоритмических языков и программирования, основ математического анализа, математической статистики, прикладной линейной алгебры, математических основ машинного обучения, теории вероятностей, случайных процессов, теории и практики реляционных баз данных и т.д.

Бизнес-единица Х5 Технологии была образована в сентябре 2020 года. Ключевая задача данного направления – создание комплексных цифровых решений для бизнеса компании и торговых сетей с высокой эффективностью и влиянием на финансовые показатели. Объединенная команда Х5 Технологии превышает 2700 действующих специалистов.

Зачем ритейлеру еще одно big data решение: специфика проекта

Еще в 2022 году компания X5 Retail Group начала выстраивать комплексный data-driven подход к бизнесу, чтобы оперативно и даже заблаговременно принимать управленческие решения на основе данных. Для этого было решено создать глобальную аналитическую платформу, которая будет агрегировать все корпоративные данные, автоматизируя задачи Data Governance и отвечая на вопросы менеджеров и аналитиков компании.

При этом пользоваться такой Big Data системой будут более 2000 аналитиков, задавая около 800 конкурентных запросов одновременно. Следовательно, отказоустойчивость и способность выдерживать высокие нагрузки без потери скорости и качества работы стали главными требованиями к СУБД.

Дополнительный анализ:  Онлайн-курс "Методы глубинной психологии"

Этим требованиям соответствует массивно-параллельная архитектура (Massive Parallel Processing, MPP), суть которой физическом разделении памяти локальных узлов, объединённых в кластер. При том, что системы такого класса потребляют много ресурсов ЦП, памяти и места на жестком диске, они обладают рядом уникальных достоинств.

Наиболее значимыми преимуществами MPP-СУБД считаются быстрота обработки даже огромного объема данных за счет распараллеливания операций, простота горизонтального масштабирования и отказоустойчивость [2]. Поэтому ИТ-специалисты X5 Retail Group стали смотреть в сторону MPP-систем, среди которых очень популярна open-source СУБД Greenplum.

Ее коммерческим дистрибутивом с профессиональной технической поддержкой от отечественной компании Аренадата является Arenadata DB (ADB). Так в ноябре 2022 года ритейлер начал проект по внедрению ADB в качестве распределенной СУБД для хранения и аналитической обработки больших данных. Примечательно, что это был первый опыт промышленного использования Greenplum среди российского ритейла [1].

Как это было: техническая сторона проекта по внедрению arenadata db

В X5 Retail Group уже работает кластер Hadoop, поэтому требовалось организовать взаимодействие ADB c существующей Big Data инфраструктурой. Такая бесшовная интеграция реализована с помощью Java-фреймворка PXF, позволяющего Greenplum параллельно обмениваться данными со сторонними системами за счет самостоятельно написанных коннекторов.

Напомним, PXF появился в рассматриваемой MPP-СУБД еще в 2022 году в версии 5. Этот фреймворк представляет собой отдельный процесс на сервере, который общается с сегментами Greenplum через REST API с одной стороны, а с другой использует сторонние Java-клиенты и библиотеки.

Таким образом можно организовать обмен данными между Apache HDFS, Hbase и Hive с внешними СУБД через JDBC. Это позволяет строить на базе Greenplum гибкие и производительные платформы обработки больших данных по типу Лямбда-архитектуры: хранить самую свежую информацию, например, в Oracle, а архивные – в Hadoop.

Сперва X5 Retail Group строил конфигурацию кластера Arenadata DB на минимальной технической инфраструктуре вычислительных мощностей с возможностью дальнейшего масштабирования при росте нагрузки. Однако, на практике компания столкнулась со следующими проблемами[4]:

  • неоптимальное распределение сегментов, что негативно сказалось на производительности кластера при его расширении. Это вообще характерно для MPP-систем из-за зеркальной топологии, которая обеспечивает отказоустойчивость. 6-я версия, вышедшая в конце 2022 года, позволяет побороть этот недостаток с помощью алгоритма consistent hashing, который разрешает перераспределять только часть блоков при добавлении новых узлов в кластер, ускоряя фоновое перераспределение таблиц [5].
  • разграничение ресурсов кластера по нагрузке на дисковую подсистему. Это можно решить разделением хранилища данных на сегменты, например, один — только для Greenplum, другой — общий. Так было сделано в компании КРОК, которая предоставляет ADB по SaaS-модели [6].

Тем не менее, даже при перечисленных сложностях Arenadata DB позволила X5 Retail Group построить аналитический слой детальных данных с описанной моделью, бизнес-владельцами доменов, словарем данных и привязкой к другим функциям Data Governance. В результате ритейлер получил надёжный сервис, доступный любому аналитику компании, чтобы принимать быстрые решения на основе Big Data [4].

Примечательно, что этот проект вошел в число победителей профессионального ИТ-конкурса GlobalCio «Проект года-2022» в номинации «Выбор экспертов», наряду с другими системами на базе ADB и Arenadata Hadoop, о чем мы писали здесь[7].

Greenplum, Hadoop, PXF
Обмен данными между Greenplum и Hadoop с помощью PXF-фреймворка

Пройти образовательные курсы и стать профессионалом по ADH и ADB поможет наш лицензированный учебный центр повышения квалификации “Школа Больших Данных” – единственный авторизованный партнер компании Arenadata по сертификации специалистов и обучению в Москве:

Источники

Чем занимается дата-инженер x5 retail group? – блог skillfactory

Рассказ о профессии дата-инженера: автоматизация, организация хранилища данных и лайфхаки по борьбе с рутиной

Максим Керемет работает в Х5 Retail Group: он обрабатывает данные для дата-сайентистов и аналитиков. По мнению Максима, дата-инженер — одна из самых сконцентрированных на программировании профессий, связанных с данными.

Профессии, которые начинаются со слова data, подразумевают работу с данными, машинным обучением, искусственным интеллектом. Их главная цель — достать из данных знания, как частный случай — предсказания (это задачи машинного обучения), чтобы потом на их основе построить экспериментальные модели, которые будут помогать бизнесу.

Дата-инженер занимается первичной работой с данными: собирает, очищает от ошибок и повторов, организует, выстраивает весь процесс их получения и хранения (пайплайн). Часто его заказчик внутри компании — дата-сайентист. Дата-инженер передает ему подготовленные данные, а дата-сайентист использует их для построения моделей.

У такого специалиста есть четкое понимание того, как писать структурированный, чистый и масштабируемый код. В объемном коде я могу навести порядок, написав сервис (программу): по сути, создать папку, в которой лежат файлы, логически разделенные на блоки (рабочие и сопутствующие скрипты, файлы с конфигурациями, версии моделей).

Дополнительный анализ:  Как пользоваться кругом Иттена: ТОП-5 примеров работы

Иногда в обязанности дата-инженера входит строить архитектуру хранилищ данных — это базы данных с таблицами, в которых данные разбиты по смыслу. Базы могут быть, например, реляционными — где данные четко связаны друг с другом; тогда для их управления нужен SQL. Бывают распределенные базы — в этом случае данные находятся на разных компьютерах и извлекать их можно с помощью фреймворка Spark.

Нужно хорошо владеть инструментами автоматизации. Часто скрипты нужно запускать в определенной последовательности или не запускать следующий, пока один не отработает. Эти задачи выполняют программы-шедуллеры (от англ. schedule — расписание), например Apache Airflow: он дергает скрипты по расписанию и помогает автоматизировать последовательность действий.

Умение применять модели на генеральной совокупности хоть и не часто требуется в компаниях, но будет плюсом. Дата-сайентисты проверяют гипотезы на части пользователей, и пишут код в исследовательском стиле, что не задумываясь о производительности и масштабировании. Очень часто такой код не совпадает с тем, как он будет работать на всех клиентах. Но бизнесу нужно ежедневно обновлять предсказания по бОльшему количеству пользователей нежели чем выборка с которой работает дата-сайентист, поэтому дата-инженеру обязательно надо уметь масштабировать результаты этих экспериментов.

Кроме того, дата-инженер может провести простую аналитику данных, например построить дашборд (информационная панель, которая показывает краткие сведения о ключевых показателях эффективности) в Power BI или Tableau или наладить запуск какого-то скрипта в определенном регламенте, например ежедневный расчет к 9 утра.

У меня непрофильное образование. Обычно дата-сайентисты и дата-инженеры приходят из технических специальностей или из математических вузов. Я учился в РЭУ им. Плеханова по направлению «Экономика, финансы и кредит», а потом закончил магистратуру в Швеции по менеджменту в сфере интеллектуальной собственности. После этого стандартно, как и многие выпускники финансовых вузов, вышел в большую четверку (четыре крупных консалтинговых компании: PricewaterhouseCoopers, Ernst and Young, Deloitte и KPMG) и быстро понял, что это не мое.

Пошел работать в Adidas стандартным аналитиком, который в Excel делает отчеты. В какой-то момент мне надоело, что все периодически лагает и падает, поэтому я начал искать инструменты и наткнулся на Python, с помощью которого можно автоматизировать процедуры. Отчет, который я делал руками час-полтора, если ничего не упадет, с помощью Python собирался не больше 15 минут. Я предложил начальнику автоматизировать другие процессы, но он отказал. Тогда я понял, что нужно искать другое место.

Курс

Python для анализа данных

Python требуется в 84% вакансиях при устройстве на должность аналитика и почти во всех вакансиях, связанных с Data Science.

Что дает прохождение курса?

Я подавался на все вакансии начального уровня, в которых нужны Python, автоматизация, аналитика. Начинал с позиции джуниор-аналитика в Mail.ru, потом в первый раз устроился в Х5 Python-разработчиком.

Затем в отделе продуктовой аналитики в ВКонтакте я впервые поработал как дата-инженер. Я собирал продуктовые данные: таблицы, в которых уже агрегированы данные, метрики, показатели статистики.

Помимо этого отдел занимается построением дашбордов, исследованиями пользователей, так что в моей работе были и элементы продуктовой аналитики. Там было много ad hoc (ситуативный способ решения, который подходит только для одной задачи и не может быть универсальным) аналитики, которую нужно делать каждый день, при этом ее объемы никогда не уменьшались.

Из-за этого я ушел из ВК и вернулся в Х5 на другой проект.

Я работаю в команде CVM (customer value management), которая занимается лояльностью в «Пятерочке». Мы настраиваем коммуникацию с клиентом. Например, на чеках, которые вы получаете на кассе, есть предложения о том, что вам дадут скидку, если вы придете в магазин на следующей неделе и купите товаров на определенную сумму. Иногда может прилететь смс: «Сегодня скидка на сметану, приходи к нам».

Чеки — это сырые источники, из которых можно сформировать признаки, описывающие покупательский паттерн человека. Они описывают поведение человека в магазине: например, сколько он потратил в той или иной категории, когда последний раз был в магазине, сколько раз был в магазине за последнюю неделю. На основе этих признаков строятся модели, которые предсказывают поведение людей с картой лояльности. Чтобы модели работали не просто в исследовательских целях, нужно проскорить (оценить) миллионы людей, которые ходили к нам в течение года.

Во-первых, я строю хранилище этих признаков. То есть занимаюсь процессами предобработки и очистки данных, обновляю и пересчитываю их, чтобы пользователи инструмента или данных — аналитики или дата-сайентисты — могли работать с ними без проблем. В дальнейшем накопленные признаки пригодятся для новых моделей и бизнес-идей, а ребятам не придется работать с сырыми данными.

Дополнительный анализ:  Анализ финансовой отчетности 2021 (инструкция и показатели)

Во-вторых, я вывожу модели в продакшн. Например, дата-сайентист делает модель следующего визита, которая предсказывает, придет ли к нам человек, или другие модели, которые предсказывают, что он купит, какую категорию ему предложить. На одной выборке из 100–200 тысяч человек ее строят, а потом на другой выборке проверяют. Если масштабировать успешное решение на весь массив — 30–40 миллионов активных пользователей, — то можно увеличить прибыль компании за счет коммуникации с гостями (SMS с выгодным предложением), которые придут и купят товар.

Я забираю эту модель у дата-сайентиста, пишу улучшенный код, который будет выдавать такие же результаты, и масштабирую на большее количество признаков. Если все слаженно работает, нужно оптимизировать процесс: чтобы не скорить миллионы людей последовательно, можно разбить всё количество на равные части, параллельно их оценить и результаты оформить в компактную таблицу. Это и быстрее, и удобнее, и ресурсов тратится меньше.

Нынешние задачи мне по душе, они среднесрочные, на несколько месяцев, не нужно постоянно делать результат каждую неделю. Но в итоге у тебя есть компетенция и проект, который ты можешь описать.

Я начинал с курсов по Python, потом меня заинтересовали алгоритмические задачи. Их не всегда можно напрямую применить в бизнес-среде, но они хорошо развивают и работу с базовыми структурами языка.

Если вы работаете аналитиком или выполняете рутинные задачи в Excel и хотите автоматизировать их, то стать дата-инженером — вполне закономерный вариант. Между автоматизацией рутины и сбором данных не большая разница. Это разные сферы, но автоматизация позволяет сокращать объемы ручной работы, которые есть и там, и там.

Курс

Data Engineering

Вы не просто изучите алгоритмы, а еще и научитесь использовать их в решении реальных бизнес-задач. После курса вы сможете сразу применять навыки в деле.

Узнать подробности

Мой рабочий день ничем не отличается от классического дня программиста: посещаю рабочие встречи и пишу код. Это довольно монотонное занятие: ты рефакторишь (рефакторинг — упрощение исходного кода, чтобы он стал понятнее), думаешь, пишешь документацию, описываешь код, все время сидишь перед компьютером.

Сейчас я использую технику Помодоро: не отрываюсь от задачи на протяжении получаса, а потом делаю перерыв и занимаюсь домашними или организационными делами. Несмотря на то что это довольно рутинная вещь, с такой организацией труда я как будто играю в игру, прокачиваю своего героя в упорядочении хаоса своей жизни.

Техника Помодоро метод тайм-менеджмента для увеличения продуктивности и концентрации. Время делится на отрезки 25 минут непрерывной работы и 5 минут отдыха. Для работы нужно составить список приоритетных задач и последовательно, не отвлекаясь, их выполнять за время «помидорки». Если задача объемная, следует разбить ее на подзадачи и выполнять все постепенно. Через четыре таких сета нужно сделать долгий перерыв на 15–20 минут. Традиционно отрезки отслеживают с помощью кухонного таймера в виде помидора, но сейчас есть иприложения.

В прежней сфере рутина меня грузила. Отчеты ради отчетов — это совсем не то, чем я хотел заниматься. А программирование меня захватило. Для себя я нашел объяснение: в детстве я много играл в Lego, а программирование — по сути, синтаксическое Lego. Ты пишешь блоки кода, сочетаешь их, ищешь ошибки, исправляешь их, и вдруг код и бизнес-логика работают. В конце проекта остается не только продукт, но и приятное ощущение от того, что ты прошел этот местами тернистый, но увлекательный путь.

Приведу аналогию со спортом. Я занимаюсь джиу-джитсу, и мой тренер всегда говорит: «Просто появляйтесь на тренировке». Чтобы чему-то научиться, нужно время. Нельзя срезать путь, быстрее набраться опыта, потому что опыт — это количество времени, проведенное за попытками решить те или иные задачи, простые или сложные и составные. Все, что нужно, — просто методично проходить курсы. Если что-то не получается — отложить, перейти к следующему заданию, курсу, почитать, погуглить, спросить у ментора фидбек.

Программирование — в принципе про систематическое совершение огромного количества ошибок и их решение. Чем дальше, тем ошибок меньше, они становятся более явными. Если ты ступил на эту дорогу, то нужны только время и терпение.

Оцените статью
Аналитик-эксперт
Добавить комментарий

Adblock
detector