Аналитика Big Data — реалии и перспективы в России и мире / Блог компании Group / Хабр

Аналитика Big Data — реалии и перспективы в России и мире / Блог компании  Group / Хабр Аналитика

Что делает аналитик данных

Как правило, Data Analyst работает с информационными массивами, самостоятельно выполняя при этом целый набор операций:

  • сбор данных;
  • подготовка данных к анализу (выборка, очистка, сортировка);
  • поиск закономерностей в информационных наборах;
  • визуализация данных для быстрого понимания имеющихся результатов и будущих тенденций;
  • формулирование гипотез по улучшению конкретных бизнес-метрик за счет изменения других показателей.

Все эти задачи необходимы для достижения главной цели аналитика данных – извлечение из массивов информации сведений, ценных бизнесу для принятия оптимальных управленческих решений.

В некоторых компаниях в обязанности аналитика данных также входит их моделирование, т.е. разработка и тестирование моделей машинного обучения (Machine Learning). Однако, в большинстве случаев, Machine Learning является областью ответственности исследователя или ученого по данным (Data Scientist).

Также стоит отметить, что иногда Data Analyst занимается анализом бизнес-процессов и очень плотно работает с другими ИТ-специалистами при описании потоков и хранилищ корпоративной информации. Таким образом, в область ответственности аналитика данных также входят задачи BusinessIntelligence (BI) и оптимизации производственных процессов.

Data Ananlyst, аналитик данныхб Data Science, Data Mining, Big Dtat, Business Intelligence
Профессиональный портрет аналитика данных

Профессиональные компетенции аналитика данных: что должен знать dataanalyst

Исходя из вышеописанных задач, можно определить следующие области знаний, необходимые для аналитика данных:

  • информационные технологии – методы и средства интеллектуального анализа данных (Data Mining) – языки программирования (R, Python и пр.) и SQL-подобные языки для написания запросов к нереляционным и реляционным базам данных, а также BI-системы, ETL-хранилища и витрины данных типа Tableau, Power BI, QlikView и т.д., а также основы инфраструктуры Apache Hadoop;
  • математика (статистика, теория вероятностей, дискретная математика);
  • системный анализ, управление качеством, проектный менеджмент и методы анализа бизнес-процессов (подходы бережливого производства, SWOT, ABC, PDCA, IDEF, EPC, BPMN, ССП и пр.).

Кроме того, весьма полезны будут прикладные знания и практический опыт, специфичные для предметной области, в которой работает Data Analyst. Например, основы бухучета пригодятся для аналитика данных в банке, а методы маркетинга помогут при анализе информации о потребностях клиентов или оценке новых рынков.

что должен знать аналитик данных data analyst
Области знаний для аналитика данных

Специфика BigData добавляет к этим базовым компетенциям Data Analyst еще навыки работы с озерами данных (Data Lakes), понимание вопросов информационной безопасности и управления данными (Data Governance), а также владение типовыми сценариями цифровизации (цифровой трансформации) и применения технологий больших данных в различных предметных областях (use-cases).

Все это и множество других практических знаний для аналитика данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

Аналитик данных и data scientist: в чем отличие?

На первый взгляд профессии аналитик данных и data scientist могут быть похожи, да и во многих компаниях обязанности этих двух специалистов часто пересекаются. Центр непрерывного образования ФКН поговорил с Сергеем Юдиным, руководителем группы качества discovery-сценария в поиске Яндекса, об особенностях работы в каждой из профессий. В интервью Сергей рассказал о необходимых навыках и перспективах профессий и о том, как сделать беспрецедентным преимуществом свой предыдущий опыт. 

Чем ты занимаешься?

Я руковожу группой качества discovery-сценария в поиске Яндекса. Мы занимаемся разработкой поисковых рекомендаций. В этом проекте я уже около двух лет, а в самом Яндексе работаю больше четырёх с половиной. Все мои проекты так или иначе были связаны с аналитикой данных и машинным обучением. 

Поисковые рекомендации — это запросы, которые в поисковой выдаче помогают пользователю с его задачей, в нужный момент подсказывая, что еще полезного и интересного можно спросить или как уточнить свой запрос.

Наша задача складывается из большого количества составляющих: машинного обучения, аналитики и анализа действий пользователей. Мы стараемся понять, как данные о том, что люди ищут в Яндексе, превратить в полезный продукт.

Есть две специальности: аналитик данных и data scientist. Расскажи, чем занимаются те и другие.

Во-первых, и те, и другие работают с данными и решают очень похожие задачи. Но если говорить про аналитика, то это определение намного шире, чем data scientist. При этом, если мы говорим именно про data-аналитиков, то стоит упомянуть, что они работают с определёнными типами продуктов. Например, когда у нас есть некоторые пользователи и действия в лог-файлах, которые можно агрегировать и изучать. 

Data scientist’ы тоже встречаются там, где есть данные, но важное и необходимое условие появления в команде data scientist’а — это наукоёмкая задача вокруг данных. Необязательно должны быть пользователи, но данные — обязаны быть. 

Возьмем, например, такое интересное место, как адронный коллайдер. Там очень много данных, которые нужно анализировать и обрабатывать наукоёмкими методами. Типичный data-аналитик в таком месте с его классическими скиллами скорее не нужен, а вот data scientist там пригодится. 

Между этими двумя профессиями нет чёткой грани, это скорее спектр. В Яндексе аналитик-разработчик зачастую является тем же самым data scientist’ом, если он работает с методами математической статистики, машинного обучения или оптимизации. Но аналитик — это очень прикладная специальность. Основная задача любого аналитика данных — получить из этих данных пользу для бизнеса, продукта или людей. 

А data scientist в первую очередь scientist, то есть ученый, который должен заниматься исследованиями. Зачастую в классическом понимании data science — это наука о данных, а раз это наука, то можно сказать, что KPI такого человека — это продвижение науки вперёд, например, через написание статей. Data-scientist’ы придумывают новые методы, их применение и рассказывают об этом миру. 

Дополнительный анализ:  Гаджеты - - Новости высоких технологий.

Я использую не общепринятую терминологию, как на рынке труда, а некое словарное определение профессии, которое можно очень сильно расширять. Когда я говорю про то, что задача data scientist’а писать статьи — это, естественно, некоторая полярность. Интереснее рассмотреть именно полярности, потому что в реальности есть множество людей, которые одновременно занимаются и задачами аналитика, и тем, что можно назвать data science. 

Что ты понимаешь под «наукоемкими методами»?

В практическом применении широкую известность имеют методы машинного обучения. Существует множество прикладных алгоритмов обработки данных. При работе с данными иногда появляются задачи, которые можно назвать научными: они формализованы, для них приняты некоторые допущения, и в таком виде задачу можно решить явно. К примеру, можно доказать, что некоторым алгоритмом задача решается оптимальным образом. 

Наукоёмкие методы — это те методы, за которыми стоит некое нетривиальное доказательство, и они работают. Часть из них воспроизводимы на практике и имеют практическую пользу, а некоторые оказываются слишком модельными. В теории метод работает, но на практике он не применим, просто потому. что те допущения, вокруг которых доказывалась математическая или компьютерная задача, не воспроизводимы в реальности. 

Можно сказать, что в одному углу стоят как раз исключительно теоретические задачи, не используемые на практике. А в другом — задачи обработки данных, за которыми не стоит особой науки: можно просто взять данные, сгруппировать, посчитать среднее, отсортировать и сделать аналитический вывод.  Где-то на стыке и лежат те самые методы, которые называют «наукоёмкими».

Можешь на конкретных примерах рассказать, чем занимаются аналитики?

Аналитик — это тот человек, который может смотреть на данные шире, строить и проверять гипотезы. Задача аналитиков — нести практическую пользу и искать новые знания в данных. Люди анализировали данные еще до возникновения компьютеров.

Так, например, японский инженер и статистик Генити Тагути еще в 1940-х годах разработал концепцию «инжиниринг качества». В рамках этой идеи он статистическими методами анализировал данные производства, проводил эксперименты и значительно уменьшал издержки, повышая при этом качество продукции. Впоследствии его методы были реализованы в оптимизации производства Ford Motor Company.

Приведу один пример задачи аналитика из своей практики. В Яндексе провели эксперимент, добавив в поисковую выдачу новые элементы — картинки в сниппетах. При этом пользователи стали иногда реже кликать и решать свои задачи, метрики ухудшились. Можно было выдвинуть десяток гипотез, почему так произошло. 

У нас были логи действия пользователей в этом эксперименте: история запросов, клики и другие взаимодействия. Задача аналитика в данном случае — разобраться в том, что произошло. Правда ли новый элемент ухудшает качество выдачи? В нашем случае выяснилось, что пользователи стали реже кликать именно в тот момент, когда на выдаче был всего лишь один элемент с картинкой. Мы предположили, что одна картинка отпугивает пользователей, потому что выглядит чужеродной. Когда в выдаче картинок несколько пользователям проще визуально её воспринимать.

Мы проверили эту гипотезу, и на данных она подтвердилась. В итоге удалось сделать понятный продуктовый вывод: если элемент один, то его лучше отключить, и показывать только в том случае, когда этих элементов несколько. Пользователи были довольны, так как страница выглядела гармонично.

Какими навыками должны обладать аналитик?

В первую очередь это «умение работать с данными». Любые инструменты, которые этому способствуют, начиная от обработки данных в таких программах как Excel, заканчивая любым языком программирования, который позволяет проводить более сложную обработку и автоматизировать процессы. 

Кроме инструментария нужно ещё понимание. То, что в резюме подразумевается под «аналитическим складом ума». Во-первых, это присутствие логики, умение строить выводы. Во-вторых, это способность генерировать гипотезы и умение проверить свои выводы. И последнее, рациональное мышление – отсутствие когнитивных искажений или понимание того, как эти когнитивные искажения работают, и умение им противостоять. 

Простой пример когнитивного искажения – эффект привязки. Когда-то два учёных Амос Тверски и Даниэль Канеман провели эксперимент: испытуемых в двух группах просили оценить долю африканских стран в ООН. Только в первой группе вопрос задавали следующим образом: «Доля африканских стран в ООН больше или меньше 65%?» И второй вопрос: «Сколько на самом деле процентов составляет доля африканских стран?». Второй группе задавали аналогичные вопросы, только в первом вместо 65% подставляли 10%. Несмотря на то что второй вопрос не отличался, а группы были случайными, результаты статистически очень сильно различались. Медианный ответ в первой группе составлял 45%, а у второй группы – 25%. Ответ на второй вопрос испытуемые давали под сильным влиянием от формулировки первого. 

Это и есть когнитивное искажение. В работе с данными часто встречаются подобные проблемы, и аналитику всегда нужно проверять, не является ли вывод натянутым. 

А какими навыками должен обладать хороший data scientist?

Любой data scientist – это аналитик, но не любой аналитик – data scientist, поэтому всё, что мы сейчас сказали, к data scientist’у точно относится. В дополнение, это, конечно же углублённые математическая подготовка и понимание статистических методов, а также всё, что связано с работой этих алгоритмов на практике. Методы компьютерного анализа данных построены на линейной алгебре, математической статистике и компьютерных науках. Должно присутствовать базовое понимание каждой из этих областей. 

Дополнительный анализ:  Профессия HR-аналитик: описание, суть, какая зарплата

Данные всегда относятся к конкретной области. В зависимости от того, в какой индустрии человек работает, он должен разбираться в этой сфере. Это могут быть медицинские данные, данные адронного коллайдера или лог-файлы интернет-сервиса. В первом случае нужно всё-таки понимать в медицине, в случае адронного коллайдера – понимать в физике, а в случае интернет-сервисов речь идёт уже о некоторой пользовательской аналитике: нужно понимать, как люди могут себя вести, и какие паттерны поведения могут присутствовать. 

В каких компаниях могут работать такие специалисты?

Аналитики могут работать в любой сфере, связанной с интернет-сервисами, приложениями или мобильной разработкой. Везде, где есть данные, пусть их совсем немного, нужны такие специалисты. 

Data scientist’ов ищут для решения крупных задач связанных с данными. У таких задач обязательно должно быть одно из свойств: либо бизнес-смысл, либо научная ценность, а также место для применения сложных методов, например, алгоритмов оптимизации машинного обучения. 

Также для того, чтобы применение сложных методов себя оправдало, должна быть дополнительная прибыль. Применение таких методов зачастую стоит дорого, но оно может окупиться.

К примеру, у маленького магазина действительно может быть много транзакций. Но в данном случае применять сложные методы нет необходимости. Достаточно просто посмотреть, какие товары хорошо покупают, и сделать базовую аналитику. А для сети с тысячью магазинов увеличение чека даже на 0,1% может окупиться и оправдать внедрение сложного метода обработки данных. 

В случае научной ценности важна выгода не столько с точки зрения денег, а с точки зрения понимания устройства этого мира. Если мы говорим про исследование космоса или микро-частиц, то применение сложных методов может окупаться за счёт того, что мы узнаем об этом мире больше.

Насколько перспективны эти профессии?

Потребность как в data-аналитиках, так и в data scientist’ах, растет не арифметически, а геометрически. Впрочем, как и количество данных компаний, мощность и стоимость некоторых кластеров, в которых можно применять сложные методы и хранить данные. Пока что тенденция такова, что геометрический рост продолжится ближайшие несколько лет. 

Другое дело, что есть перекос в сторону специалистов с некоторым опытом, чем с джуниор-уровнем. Компании в поисках тех специалистов, которые уже сталкивались с аналогичными задачами и умеют их решать. 

Но и специалистам без опыта не стоит сильно переживать. Компании готовы учить работников, поэтому иногда бывает достаточно показать, что кандидат готов осваивать новые знания. Важно не просто прослушивать курсы, а показать, что ты можешь быстро освоиться в методах, и доказать, что ты научился их применять. Таким образом ты покажешь, что от тебя можно ждать больших результатов и через несколько лет. 

Есть множество специалистов, которые могут быть новичками именно в профессии аналитика, но у них есть некоторый смежный опыт, и они готовы из этого смежного опыта извлекать выгоду. Например, человек, занимающийся медициной, идёт в аналитику данных в области медицины. Он новичок в анализе данных, но его бэкграунд может быть решающим в таком случае: он будет преуспевающим специалистом, вырастет через год и принесет столько пользы, сколько другой опытный data scientist никогда не принёс бы на этой позиции. 

Специалистов, у которых есть опыт и в смежной области и в сложной аналитике, еще меньше, а потребность в них – все больше. Количество данных стремительно растет в узкоспециализированных областях. Поэтому всем начинающим специалистам будет полезно сразу определиться со смежной областью и начинать развивать в ней свои навыки.

Можно войти в профессию с нуля?

Да, про это и был в какой-то мере ответ на прошлый вопрос. Никто не рождается профессионалом. Вопрос можно сформулировать так: какой бэкграунд поможет войти в профессию и какова сложность этого входа?

Для аналитиков она меньше, чем для data scientist’ов. Аналитик может начать решать задачи уже с базовыми знаниями. Для некоторых сложностью может стать то, что до устройства на полный рабочий день возможно придётся пройти стажировку, позаниматься своими собственными pet project’ами и загореться этой индустрией. Настолько загореться, чтобы быть готовым даже самостоятельно, в качестве хобби искать данные и их исследовать. Вот в таком случае с нуля точно можно войти в профессию. 

Надо набивать руку на написание кода до выхода на первое место работы, потому что программирование – это третий иностранный язык, который нужно знать. Те же самые pet project’ы или соревнования могут этому очень сильно поспособствовать. 

С какими сложностями можно столкнуться в работе?

В этой профессии, даже если ты работаешь уже несколько лет, можно быстро отстать, если перестать учиться. Осваивать новое придется постоянно –– и подходы, и инструментарии, потому что мир вокруг нас быстро меняются. К этому нужно быть готовым.

Аналитик никогда не знает, с какой конкретно сложностью он столкнется в задаче, а непонимание в этой области усугубляет проблему. Например, если при исследовании поведения пользователей в эксперименте, у аналитика обнаруживаются провалы в знании математической статистики, то сделать выводы по данным может быть очень сложно, не говоря уж о построении гипотез. 

Дополнительный анализ:  аналитик в - Перевод на английский - примеры русский | Reverso Context

Другая сложность – это коммуникация. Профессия аналитика и data scientist неотрывно связаны с общением с людьми. Data scientist может работать в вакууме с отдельной задачей, которую он будет решать полгода, а потом представить результат. Но зачастую и у людей, занимающихся, например, практическими применениями алгоритмов, возникает потребность общаться с той частью, у которой они будут брать данные. Сейчас есть тенденция разделения на тех, кто исследует что-то и проверяет гипотезы, и тех, кто это потом встраивает. И нужно объяснить, как это всё встроить и разработать.

Аналитику обязательно придется много общаться с другими сотрудниками: доказывать свою точку зрения, убеждать, качественно аргументировать своё мнение и слушать оппонента. Однако не менее важно уметь менять своё мнение, если оно оказалось неправильным. Проверяя гипотезы, нужно уметь смотреть на данные с холодной головой. 

Подводя итог, какие ключевые различия между аналитиком данных и data scientist’ом?

Аналитик данных – человек, который из данных получает практическую пользу. Data scientist – это человек, который умеет применять сложные методы обработки данных и понимает, как они устроены. Во многих компаниях эти профессии очень сильно пересекаются. 

Если задаться целью освоить конкретную профессию, то в зависимости от бэкграунда можно пойти или в аналитику, или в data science. Если у вас технико-математический бэкграунд, то попробуйте себя в практическом применении тех методов, которые вы уже знаете, и теорем, которые вы уже доказывали. Если ваш бэкграунд больше из конкретной отрасли, то стоит начать с аналитики данных, и постепенно, в зависимости от потребности и от вашего интереса, наметить вектор дальнейшего развития. Сложные методы могут быть и не нужны в той области, которая вам будет интересна. 

Освоить обе профессии с нуля можно в центре непрерывного образования факультета компьютерных наук

Изучить базы данных и язык SQL, язык Python, его применения для сбора, визуализации и анализа данных, статистику и машинное обучение, а также аналитические и продуктовые подходы для работы над реальными задачами можно на программе профессиональной переподготовки «Аналитик данных».
На программе «Специалист по Data Science» вы погрузитесь в современный анализ данных и машинное обучение: от изучения программирования и базовых разделов математики до глубинного обучения, прикладной статистики и работы с большими данными.

Как проходит онлайн-обучение дата-аналитике

Я учился на 11 онлайн-курсах по дата-аналитике. Один из них проходил напрямую у создателя — Высшей школы бизнес-информатики. Остальные нашел на образовательных платформах «Курсера», «Стэпик», «Скиллбокс», «Дата-кэмп» и «Яндекс-практикум».

На всех платформах я выбирал отдельные курсы. Только на «Дата-кэмпе» оплатил сразу годовую подписку и мог проходить по ней любые курсы.

У каждого курса на «Стэпике» было не только описание с планом, но и отзывы с оценками. Так мне было легче понять, стоит ли вообще его проходить. Каталоги курсов на других платформах были устроены аналогично

Кто преподавал. Курс в Высшей школе бизнеса вели преподаватели самой школы, а в «Яндекс-практикуме» — аналитики «Яндекса». На других платформах курсы создали преподаватели университетов, колледжей и бизнес-школ и сотрудники крупных успешных компаний.

«Скиллбокс» сам набирает команду преподавателей. На курсе «Профессия Data Scientist: анализ данных» лекции читали сотрудники «Рамблера», «Профи-ру», Сбера и самого «Скиллбокса».

В Высшей школе бизнес-информатики преподавали директора крупных компаний. Но курс по аналитике это не спасло, мне он не понравился. Расскажу про это дальше в статье

Формат занятий. Курсы включали в себя теорию в виде лекций — текстовых или в формате видео. И практику — тесты и домашние задания. Смотреть лекции и сдавать тесты я мог в любое время, хоть ночью. Главное — успевать все делать в пределах модуля. На «Яндекс-практикуме» модуль длился 2 недели, на остальных платформах — неделю.

За тесты мне начисляли баллы. Потом из них складывалась итоговая оценка. В основном тесты проверяли преподаватели, только на Data Science Professional Certificate на «Курсере» это делали такие же студенты, как и я. Мне это не понравилось.

Так выглядел тренажер «Яндекс-практикума». Аналогичный был на «Дата-кэмпе»

Качество. Некоторые курсы были очень качественно сделанными, с хорошим планом занятий и интересными практическими заданиями. Например, на «Курсере» мне понравился курс «Основы программирования на Python». Другие курсы были непродуманными: они не казались цельными, потому что из раза в раз менялся формат лекций. Таким был курс «Профессия Data Scientist: анализ данных» на «Скиллбоксе».

Сертификаты. Если я проходил обучение до конца, то получал электронный сертификат. В нем было мое имя, название курса и итоговая оценка. Потом я прикрепил все сертификаты к резюме.

Сертификат курса IBM, который я прошел на «Курсере»

Я оценю полезность каждого курса по шкале от 1 до 10 баллов, где 1 — совсем бесполезно, а 10 — очень полезно, интересно и применимо в новой работе.

Как я выбирал направление

Я искал область, где можно начать с нуля в 30 лет и где даже на старте доход будет от 80 000—100 000 Р на руки. Выбирал между веб-разработкой, гейм-разработкой и анализом данных. Читал о них на «Хабре» и смотрел требования и зарплаты в вакансиях в интернете.

Еще в гейм-разработке меня смутило то, что в вакансиях много требований даже для новичков. И без профильного высшего образования эти знания получить трудно.

Это требования в вакансии гейм-разработчика. Как минимум нужно отличное знание и владение C#, а я с ним никогда не имел дело

Что такое аналитика. Аналитики исследуют разные данные, фильтруют их и прогнозируют. А компании смотрят на этот анализ и решают, как им дальше развиваться и какие новые продукты создавать.

Меня интересовали два направления аналитики — дата-сайенс и бизнес-аналитика, то есть BI. Дата-аналитики работают с данными, которые помогают развивать бизнес компании. Например, анализируют транзакции клиентов в банке. Потом банк формирует для этих клиентов заманчивые предложения.

Бизнес-аналитики анализируют структуру организации и ее внутреннюю деятельность. Советуют, что улучшить, чтобы компания развивалась, и разрабатывают программы, которые ускоряют бизнес-процессы.

Почему я выбрал дата-аналитику. О дата-аналитике мне подробно рассказал друг: он как раз заканчивал магистратуру по дата-сайенс в Высшей школе экономики. Он сказал, что это перспективное направление и аналитики востребованы во всем мире.

Чтобы заняться аналитикой с нуля, нужно хорошо разбираться в математике и статистике. А я забыл их со времен университета. Зато из языков программирования нужны были только Python и SQL. Я стал читать о них, нашел примеры кода — языки показались мне простыми и доступными.

Меня расстраивал только доход: в некоторых вакансиях предлагали всего 40 000—60 000 Р. А на одну позицию искали стажера-аналитика Python и вовсе на 25 000 Р. Но я понимал, что если сменю специальность, то поначалу придется просесть в деньгах. Зато перспективы роста у меня будут лучше, чем в продажах.

Меня успокоило, что опытные Python-разработчики могут рассчитывать на более высокий доход
Оцените статью
Аналитик-эксперт
Добавить комментарий

Adblock
detector