Аналитик Big Data: кто это, что делает, где учиться, зарплата

Аналитик Big Data: кто это, что делает, где учиться, зарплата Аналитика

Что должен знать data engineer

  • Структуры и алгоритмы данных;

  • Особенности хранения информации в SQL и NoSQL базах данных. Наиболее распространённые: MySQL, PostgreSQL, MongoDB, Oracle, HP Vertica, Amazon Redshift;

  • ETL-системы (BM WebSphere DataStage; Informatica PowerCenter; Oracle Data Integrator; SAP Data Services; SAS Data Integration Server);

  • Облачные сервисы для больших данных Amazon Web Services, Google Cloud Platform, Microsoft Azure;

  • Кластеры больших данных на базе Apache и SQL-движки для анализа данных;

  • Желательно знать языки программирования (Python, Scala, Java).

Стек умений и навыков инженера больших данных частично пересекается с дата-сайентистом, но в проектах они, скорее, дополняют друг друга.

Data Engineer сильнее в программировании, чем дата-сайентист. А тот, в свою очередь, сильнее в статистике. Сайентист способен разработать модель-прототип обработки данных, а инженер — качественно воплотить её в реальность и превратить код в продукт, который затем будет решать конкретные задачи.

Инженеру не нужны знания в Business Intelligence, а вот опыт разработки программного обеспечения и администрирования кластеров придётся как раз кстати.

Но, несмотря на то что Data Engineer и Data Scientist должны работать в команде, у них бывают конфликты. Ведь сайентист — это по сути потребитель данных, которые предоставляет инженер. И грамотно налаженная коммуникация между ними — залог успешности проекта в целом.

Где учиться, чтобы взяли на работу

Если вы не передумали погружаться в Big Data, и готовы разбираться в теме: поищите подходящие программы на Coursera, послушайте, что рассказывают в Школе анализа данных от Яндекс и рассмотрите курсы от Open Data Science.

Также сейчас ведут онлайн-курсы многие зарубежные университеты: например, введение в big data от Калифорнийского Berkeley или введение в data science от Массачусетского института технологий. Этот вариант подойдет, если ваш английский выше технического. Есть магистерские программы и в российских ВУЗах.

«Мы берем людей после таких курсов. Их большой плюс в том, что они уже понимают специфику отрасли, – говорит Андрей Плющенко, руководитель группы анализа данных в Eastwind. – На собеседовании я обычно задаю базовые вопросы по machine learning. Например, что такое классификация, регрессия и кластеризация? Или: что сделать, чтобы не переобучиться? Есть и вопросы с подвохом, но даже если человек на них не ответил – не значит, что его не возьмут. Намного важнее, чтобы специалист понимал, что сейчас он на старте, и был готов к прокачке.Почему глупо требовать большой опыт в этой области? На Урале сильная математическая и программистская школа, а вот применить свои знания ребятам, которые решили стать аналитиками данных – почти негде. Даже Яндекс сократил своих местных дата сайнтистов. Поэтому многие уезжают в Москву, более амбициозные – за рубеж. В Екатеринбурге мы – одни из немногих, у кого есть полноценный аналитический отдел».

Big data: что это и где применяется? – блог skillfactory

Почему все вокруг говорят про большие данные? Какие именно данные считаются большими? Где их искать и зачем они нужны? Объясняем простыми словами вместе с экспертом SkillFactory — ведущим автором трека по машинному обучению в DS Акселераторе, а также старшим аналитиком в «Кинопоиске» Александром Кондрашкиным.

Big Data (большие данные) — огромные наборы разнообразных данных. Огромные, потому что их объемы такие, что простой компьютер не справится с их обработкой, а разнообразные — потому что эти данные разного формата, неструктурированные и содержат ошибки. Большие данные быстро накапливаются и используются для разных целей.

Big Data — это не обычная база данных, даже если она очень большая. Вот отличия:

Не большие данныеБольшие данные
База записей о тысячах работников корпорации. Информация в такой базе имеет заранее известные характеристики и свойства, ее можно представить в виде таблицы, как в Excel.Журнал действий сотрудников. Например, все данные, которые создает во время работы колл-центр, где работает 500 человек.
Информация об именах, возрасте и семейном положении всех 2,5 миллиардов пользователей Facebook — это всего лишь очень большая база данных.Переходы по ссылкам, отправленные и полученные сообщения, лайки и репосты, движения мыши или касания экранов смартфонов всех пользователей Facebook.
Архив записей городских камер видеонаблюдения.Данные системы видеофиксации нарушений правил дорожного движения с информацией о дорожной ситуации и номерах автомобилей нарушителей; информация о пассажирах метро, полученная с помощью системы распознавания лиц, и о том, кто из них числится в розыске.

Объем информации в мире увеличивается ежесекундно, и то, что считали большими данными десятилетие назад, теперь умещается на жесткий диск домашнего компьютера.

60 лет назад жесткий диск на 5 мегабайт был в два раза больше холодильника и весил около тонны. Современный жесткий диск в любом компьютере вмещает до полутора десятков терабайт (1 терабайт равен 1 млн мегабайт) и по размерам меньше обычной книги.

В 2021 году большие данные измеряют в петабайтах. Один петабайт равен миллиону гигабайт. Трехчасовой фильм в формате 4K «весит» 60‒90 гигабайт, а весь YouTube — 5 петабайт или 67 тысяч таких фильмов. 1 млн петабайт — это 1 зеттабайт.

Курс

Data Scientist

Cтаньте дата-сайентистом и приручите большие данные. Вы  научитесь выявлять закономерности в данных и создавать модели для решения реальных бизнес-задач на практике. Скидка 5% по промокоду BLOG.

Узнать больше

Источники сбора больших данных делятся на три типа:

Все, что человек делает в сети, — источник социальных больших данных. Каждую секунду пользователи загружают в Instagram 1 тыс. фото и отправляют более 3 млн электронных писем. Ежесекундный личный вклад каждого человека — в среднем 1,7 мегабайта.

Другие примеры социальных источников Big Data — статистики стран и городов, данные о перемещениях людей, регистрации смертей и рождений и медицинские записи.

Большие данные также генерируются машинами, датчиками и «интернетом вещей». Информацию получают от смартфонов, умных колонок, лампочек и систем умного дома, видеокамер на улицах, метеоспутников.

Транзакционные данные возникают при покупках, переводах денег, поставках товаров и операциях с банкоматами.

Читайте также: Чем занимается дата-инженер в X5 retail Group?

Массивы Big Data настолько большие, что простой Excel с ними не справится. Поэтому для работы с ними используют специальное ПО.

Его называют «‎горизонтально масштабируемым‎‎»‎, потому что оно распределяет задачи между несколькими компьютерами, одновременно обрабатывающими информацию. Чем больше машин задействовано в работе, тем выше производительность процесса.

Такое ПО основано на MapReduce, модели параллельных вычислений. Модель работает так:

MapReduce — не конкретная программа, а скорее алгоритм, с помощью которого можно решить большинство задач обработки больших данных.

Примеры ПО, которое основывается на MapReduce:

Специалисты по большим данным используют оба инструмента: Hadoop для создания инфраструктуры данных и Spark для обработки потоковой информации в реальном времени.

Читайте также: Отзыв о профессии Data Scientist, рассказ о карьерном пути и советы для новичков

Большие данные нужны в маркетинге, перевозках, автомобилестроении, здравоохранении, науке, сельском хозяйстве и других сферах, в которых можно собрать и обработать нужные массивы информации.

Бизнесу большие данные нужны, чтобы:

Анализ больших данных позволяет не только систематизировать информацию, но и находить неочевидные причинно-следственные связи.

Онлайн-маркетплейс Amazon запустил систему рекомендаций товаров, работающую на машинном обучении. Она учитывает не только поведение и предыдущие покупки пользователя, но и время года, ближайшие праздники и остальные факторы. После того как эта система заработала, рекомендации начали генерировать 35% всех продаж сервиса.

В супермаркетах «Лента» с помощью больших данных анализируют информацию о покупках и предлагают персонализированные скидки на товары. К примеру, говорят в компании, система по данным о покупках может понять, что клиент изменил подход к питанию, и начнет предлагать ему подходящие продукты.

Американская сеть Kroger использует большие данные для персонализации скидочных купонов, которые получают покупатели по электронной почте. После того как их сделали индивидуальными, подходящими конкретным покупателям, доля покупок только по ним выросла с 3,7 до 70%.

Крупные компании, в том числе российские, стали прибегать к помощи роботов-рекрутеров, чтобы на начальном этапе поиска сотрудника отсеять тех, кто не заинтересован в вакансии или не подходит под нее. Так, компания Stafory разработала робота Веру, которая сортирует резюме, делает первичный обзвон и выделяет заинтересованных кандидатов. PepsiCo заполнила 10% нужных вакансий только с помощью робота.

Банки активно используют большие данные. Например, они помогают защищать клиентов от мошенников. Именно с помощью этих технологий обнаруживают аномалии в поведении пользователя, нетипичные для него покупки или переводы. Уже в 2021 году Visa с помощью анализа данных ежегодно предотвращала мошенничества на $2 млрд.

Дополнительный анализ:  Грузинский язык: интересные факты для начинающих

В 2020 году у автоконцерна Toyota возникла проблема: нужно было понять причину большого числа аварий по вине водителей, перепутавших педали газа и тормоза. Компания собрала данные со своих автомобилей, подключенных к интернету, и на их основе определила, как именно люди нажимают на педали.

Оказалось, что сила и скорость давления различаются в зависимости от того, хочет человек затормозить или ускориться. Теперь компания разрабатывает систему, которая будет определять манеру давления на педали во время движения и сбросит скорость автомобиля, если водитель давит на педаль газа, но делает это так, будто хочет затормозить.

Американские ученые научились с помощью больших данных определять, как распространяется депрессия. Исследователь Мунмун Де Чаудхури и ее коллеги загрузили в прогностическую модель сообщения из Twitter, Facebook и Reddit с геометками. Сообщения отбирали по словам, которые могут указывать на депрессивное и подавленное состояние. Расчеты совпали с официальными данными.

Большие данные просто необходимы госструктурам. С их помощью ведется не только статистика, но и слежка за гражданами. Подобные системы есть во многих странах:  известен сервис PRISM, которыми пользуются ФБР и ЦРУ для сбора персональных данных из соцсетей и продуктов Microsoft, Google и Apple. В России информацию о пользователях и телефонных звонках собирает система СОРМ.

Социальные большие данные помогают группировать пользователей по интересам и персонализировать для них рекламу. Людей ранжируют по возрасту, полу, интересам и месту проживания. Те, кто живут в одном регионе, бывают в одних и тех же местах, смотрят видео и читают статьи на похожие темы, скорее всего, заинтересуются одними и теми же товарами.

При этом регулярно происходят скандалы, связанные с использованием больших данных в маркетинге. Так, в 2021 году стриминговую платформу Netflix обвинили в расизме из-за того, что она показывает пользователям разные постеры фильмов и сериалов в зависимости от их пола и национальности.

Читайте также: Личный опыт: «Я была маркетологом, а стала аналитиком»

С помощью анализа больших данных в медиа измеряют аудиторию. В этом случае Big Data может даже повлиять на политику редакции. Так, издание Huffington Post использует систему, которая в режиме реального времени показывает статистику посещений, комментариев и других действий пользователей, а также готовит аналитические отчеты.

Система в Huffington Post оценивает, насколько эффективно заголовки привлекают внимание читателя, разрабатывает методы доставки контента определенным категориям пользователей. Например, выяснилось, что родители чаще читают статьи со смартфона и поздно вечером в будни, после того как уложили детей спать, а по выходным они обычно заняты, — в итоге контент для родителей публикуется на сайте в удобное для них время.

Использование больших данных помогает оптимизировать перевозки, сделать доставку быстрее и дешевле. В компании DHL работа с большими данными коснулась так называемой проблемы последней мили, когда необходимость проехать через дворы и найти парковку перед тем, как отдать заказ, съедает в общей сложности 28% от стоимости доставки. В компании стали анализировать «последние мили» с помощью информации с GPS и данных о дорожной обстановке. В результате удалось сократить затраты на топливо и время доставки груза.

Внутри компании большие данные помогают отслеживать качество работы сотрудников, соблюдение контрольных сроков, правильность их действий. Для анализа используют машинные данные, например со сканеров посылок в отделениях, и социальные — отзывы посетителей отделения в приложении, на сайтах и в соцсетях.

До 2021 года не было технологии нейросетей на мобильных устройствах, это даже считали невозможным. Прорыв в этой области (в том числе благодаря российскому стартапу Prisma) позволяет нам сегодня пользоваться огромным количеством фильтров, стилей и разных эффектов на фотографиях и видео.

Сервис Airbnb с помощью Big Data изменил поведение пользователей. Однажды выяснилось, что посетители сайта по аренде недвижимости из Азии слишком быстро его покидают и не возвращаются. Оказалось, что они переходят с главной страницы на «Места поблизости» и уходят смотреть фотографии без дальнейшего бронирования.

Компания детально проанализировала поведение пользователей и заменила ссылки в разделе «Места поблизости» на самые популярные направления для путешествий в азиатских странах. В итоге конверсия в бронирования из этой части планеты выросла на 10%.

Три основные профессии в больших данных: дата-инженер, дата-сайентист, аналитик данных.

Дата-сайентисты специализируются на анализе Big Data. Они ищут закономерности, строят модели и на их основе прогнозируют будущие события.

Например, исследователь больших данных может использовать статистику по снятиям денег в банкоматах, чтобы разработать математическую модель для предсказания спроса на наличные. Эта система подскажет инкассаторам, сколько денег и когда привезти в конкретный банкомат.

Чтобы освоить эту профессию, необходимо понимание основ математического анализа и знание языков программирования, например Python или R, а также умение работать с SQL-базами данных.

Курс

Data Scientist

Научитесь выявлять закономерности в данных и создавать модели для решения бизнес-задач. Вы освоите Python и SQL, познакомитесь с машинным обучением и определитесь со специализацией: Machine Learning, Computer Vision или разработчик Natural Language Processing.  Скидка 5% по промокоду BLOG.

Узнать больше

Аналитик данных использует тот же набор инструментов, что и дата-сайентист, но для других целей. Его задачи — делать описательный анализ, интерпретировать и представлять данные в удобной для восприятия форме. Он обрабатывает данные и выдает результат, составляя аналитические отчеты, статистику и прогнозы.

С Big Data также работают и другие специалисты, для которых это не основная сфера работы:

Курс

Аналитик данных

Освойте все инструменты, необходимые junior-аналитику и получите востребованную профессию за 6 месяцев. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Дата-инженер занимается технической стороной вопроса и первый работает с информацией: организует ее сбор, хранение и первоначальную обработку.

Дата-инженеры помогают исследователям, создавая ПО и алгоритмы для автоматизации задач. Без таких инструментов большие данные были бы бесполезны, так как их объемы невозможно обработать. Для этой профессии важно знание Python и SQL, уметь работать с фреймворками, например со Spark.

Курс

Data Engineer

Курс подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Александр Кондрашкин о других профессиях, в которых может понадобиться Big Data: «Где-то может и product-менеджер сам сходить в Hadoop-кластер и посчитать что-то несложное, если обладает такими навыками. Наверняка есть множество backend-разработчиков и DevOps-инженеров, которые настраивают хранение и сбор данных от пользователей».

Востребованность больших данных растет: по исследованиям 2020 года, даже при пессимистичном сценарии объем рынка Big Data в России к 2024 году вырастет с 45 млрд до 65 млрд рублей, а при хорошем развитии событий — до 230 млрд.

Компании все чаще прибегают к анализу больших данных, так как те, кто этого не делает, замечают упущенную выгоду: The Bell приводит пример корпорации Caterpillar. В 2021 году ее дистрибьюторы ежегодно упускали от $9 до $18 млрд прибыли только из-за того, что не внедряли технологии обработки Big Data. Теперь 3,5 млн единиц техники компании оборудованы датчиками, которые собирают информацию о ее состоянии и степени износа ключевых деталей, что позволяет лучше управлять затратами на техобслуживание.

Вместе с популярностью больших данных растет запрос и на тех, кто может эффективно с ними работать. В середине 2020 года Академия больших данных MADE от Mail.ru Group и HeadHunterпровели исследование и выяснили, что специалисты по анализу данных уже являются одними из самых востребованных на рынке труда в России. За четыре года число вакансий в этой области увеличилось почти в 10 раз.

Более трети вакансий для специалистов по анализу данных (38%) приходится на IT-компании, финансовый сектор (29%) и сферу услуг для бизнеса (9%). В сфере машинного обучения IT-компании публикуют 55% вакансий на рынке, 10% приходит из финансового сектора и 9% — из сферы услуг.

Проще будет начать, если у вас уже есть понимание алгоритмов и хорошее знание математики. Оксана Дереза была филологом и для нее главной трудностью в Data Science оказалось вспомнить математику и разобраться в алгоритмах, но она много занималась и теперь анализирует данные в исследовательском институте. 

Но если знаний нет, то на курсе SkillFactory «Data Science с нуля» вы получите достаточную математическую подготовку, чтобы работать с большими данными. За год вы научитесь получать данные из веб-источников или по API, визуализировать данные с помощью Pandas и Matplotlib, применять методы математического анализа, линейной алгебры, статистики и теории вероятности для обработки данных и многое другое.

Чтобы стать аналитиком данных, вам пригодится знание Python и SQL — эти навыки очень популярны в вакансиях компаний по поиску соответствующей позиции. На курсе «Аналитик данных» вы получите базу знаний основных инструментов аналитики (от Google-таблиц до Python и Power BI) и закрепите их на тренажерах.

Дополнительный анализ:  Технологии ритейла в 2020-х |

Важно определиться со сферой, в которой вы хотите работать. Студентка SkillFactory Екатерина Карпова, рассказывает, что после обучения ей была важна не должность, а сфера (финтех), поэтому она сначала устроилась консультантом в банк «Тинькофф», а теперь работает там аналитиком. 

Курс

Data Scientist

Специалисты Data Science нужны во всех сферах бизнеса — получите востребованную профессию и станьте одним из них. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

В питер — за перспективами

Весной 2021 года я решился на переезд в Санкт-Петербург, где возможностей, конечно, побольше, чем в Красноярске. На тот момент у меня было уже три года опыта в рекламном агентстве. За месяц до отлета я предупредил руководство, что ухожу, подготовил себе замену, разработал должностные инструкции и передал все дела.

В Питере я практически сразу нашел компанию, где я могу стать аналитиком с базовыми навыками программирования. Это было бутиковое рекламное агентство закрытого типа. На собеседовании они смотрели на мои рабочие навыки и на то, как я усваиваю новую информацию и взаимодействую с коллективом.

К сожалению, примерно через год компания объявила о скором закрытии. Отдел аналитики распустили, и до середины июня я ходил по собеседованиям. После одного из них меня взяли на испытательный срок.

Знаний Python, SQL и Power BI хватило, чтобы справился с тестовым заданием. Еще были вопросы на рабочую логику — тут пригодился опыт аналитика.

Я увидел, что буду работать с адекватными и спокойными людьми. Руководитель сам в прошлом был рекламным аналитиком в агентстве, и мы отлично поняли друг друга.

Еще понравилось, что со мной не торговались по зарплате. На рынке аналитики, особенно в рекламе, не всегда адекватно оценивают твой труд. Многие пытаются сбивать цену фразами типа «Вы же готовы к даунгрейду в первое время?». Как человек с опытом, я сразу понимаю, что «первое время» затянется. А здесь мне позволили самому доказать, сколько я могу сделать и заработать.

Какие компании занимаются большими данными

Первыми с большими данными, либо с «биг дата», начали работать сотовые операторы и поисковые системы. У поисковиков становилось все больше и больше запросов, а текст тяжелее, чем цифры. На работу с абзацем текста уходит больше времени, чем с финансовой транзакцией.

Чуть позже подключились различные финансовые организации и ритейл. Сами транзакции у них не такие объемные, но большие данные появляются за счет того, что транзакций очень много.

Количество данных растет вообще у всех. Например, у банков и раньше было много данных, но для них не всегда требовались принципы работы, как с большими. Затем банки стали больше работать с данными клиентов. Стали придумывать более гибкие вклады, кредиты, разные тарифы, стали плотнее анализировать транзакции. Для этого уже требовались быстрые способы работы.

Сейчас банки хотят анализировать не только внутреннюю информацию, но и стороннюю. Они хотят получать большие данные от того же ритейла, хотят знать, на что человек тратит деньги. На основе этой информации они пытаются делать коммерческие предложения.

Сейчас вся информация связывается между собой. Ритейлу, банкам, операторам связи и даже поисковикам — всем теперь интересны данные друг друга.

Какие профессии есть в сфере больших данных

Две основные профессии — это аналитики и дата-инженеры. 

Аналитик прежде всего работает с информацией. Его интересуют табличные данные, он занимается моделями. В его обязанности входит агрегация, очистка, дополнение и визуализация данных. То есть, аналитик в биг дата — это связующее звено между информацией в сыром виде и бизнесом.

У аналитика есть два основных направления работы. Первое — он может преобразовывать полученную информацию, делать выводы и представлять ее в понятном виде.

Второе — аналитики разрабатывают приложения, которые будет работать и выдавать результат автоматически. Например, делать прогноз по рынку ценных бумаг каждый день. 

Дата инженер — это более низкоуровневая специальность. Это человек, который должен обеспечить хранение, обработку и доставку информации аналитику. Но там, где идет поставка и очистка — их обязанности могут пересекаться

Bigdata-инженеру достается вся черная работа. Если отказали системы, или из кластера пропал один из серверов — подключается он. Это очень ответственная и стрессовая работа. Система может отключиться и в выходные, и в нерабочее время, и инженер должен оперативно предпринять меры.

Это две основные профессии, но есть и другие. Они появляются, когда к задачам, связанным с искусственным интеллектом, добавляются алгоритмы параллельных вычислений. Например, NLP-инженер. Это программист, который занимается обработкой естественного языка, особенно в случаях, когда надо не просто найти слова, а уловить смысл текста. Такие инженеры пишут программы для чат-ботов и диалоговых систем, голосовых помощников и автоматизированных колл-центров.

Есть ситуации, когда надо проклассифицировать миллиарды картинок, сделать модерацию, отсеять лишнее и найти похожее. Эти профессии больше пересекаются с компьютерным зрением. 

Кто такой big data engineer

Задачи, которые выполняет инженер больших данных, входят в цикл разработки машинного обучения. Его работа тесно связана с аналитикой данных и data science.

Главная задача Data engineer — построить систему хранения данных, очистить и отформатировать их, а также настроить процесс обновления и приёма данных для дальнейшей работы с ними. Помимо этого, инженер данных занимается непосредственным созданием моделей обработки информации и машинного обучения.

Инженер данных востребован в самых разных сферах: e-commerce, финансах, туризме, строительстве — в любом бизнесе, где есть поток разнообразных данных и потребность их анализировать.

К примеру, при разработке «умного» дома. Создание подобной системы требует считывания и обработки данных с IoT-сенсоров в режиме реального времени. Необходимо, чтобы данные обрабатывались с максимальной быстротой и минимальной задержкой. И даже при падении системы данные должны продолжать накапливаться, а затем и обрабатываться. Разработка системы, которая удовлетворяет этим требованиям, и есть задача инженера данных.

С технической стороны, наиболее частыми задачами инженера данных можно считать:

Разработка процессов конвейерной обработки данных. Это одна из основных задач BDE в любом проекте. Именно создание структуры процессов обработки и их реализация в контексте конкретной задачи. Эти процессы позволяют с максимальной эффективностью осуществлять ETL (extract, transform, load) — изъятие данных, их трансформирование и загрузку в другую систему для последующей обработки.

Хранение данных. Разработка механизма хранения и доступа к данным — еще одна частая задача дата-инженеров. Нужно подобрать наиболее соответствующий тип баз данных — реляционные или нереляционные, а затем настроить сами процессы.

Обработка данных. Процессы структурирования, изменения типа, очищения данных и поиска аномалий во всех этих алгоритмах. Предварительная обработка может быть частью либо системы машинного обучения, либо системы конвейерной обработки данных.

Разработка инфраструктуры данных. Дата-инженер принимает участие в развёртывании и настройке существующих решений, определении необходимых ресурсных мощностей для программ и систем, построении систем сбора метрик и логов. 

В иерархии работы над данными инженер отвечает за три нижние ступеньки: сбор, обработку и трансформацию данных. 

Кто такой аналитик данных

Неверные решения при разработке нового продукта или функции сервиса могут стоить компании репутации и денег. Чтобы этого не произошло, компании обращаются к аналитику данных. Он собирает, обрабатывает, изучает и интерпретирует данные: проводит А/B-тесты, строит модели и проверяет, как пользователи и клиенты реагируют на нововведения. Это стоит дешевле и снижает риски бизнеса.

Такие специалисты особенно востребованы в data-driven компаниях — то есть тех, которые ориентируются в решениях на big data и аналитику данных.

Например, специалисты по данным Netflix вычислили популярность сериала «Карточный домик» с помощью аналитики: зрителям оригинального британского «Карточного домика» также нравились фильмы Финчера и (или) картины, где играл Спейси. Netflix объединили Дэвида Финчера (один из режиссеров House of Cards), политические интриги и Спейси в одном проекте.

Последние новости, актуальные события и нетворкинг в AgroTech-комьюнити — AgroCode Hub.Присоединяйся!

Личные качества

Хороший аналитик данных — это не только метрики и отчеты. Вне зависимости от профиля, классный специалист должен обладать гибкими навыками, которые нужны для продуктивной работы:

  • Системное мышление и логика. Важно уметь анализировать, синтезировать, сравнивать и делать выводы из порой неочевидных закономерностей. Аналитик должен понимать, из каких предпосылок он исходит в своих суждениях, и проверять их корректность.
  • Внимание к деталям, методичность и рациональный скептицизм. Все результаты анализа должны быть проверены, перепроверены и обоснованы. Лучше уточнить непонятные детали и усомниться даже в самом авторитетном мнении, чем запустить ненужный продукт.
  • Вежливость, навыки общения и повествования. Аналитики общаются со специалистами из разных направлений: бизнес, ИТ, бухгалтерия и безопасность. Важно сохранять конструктивный и вежливый подход, не поддаваться на провокации и лоббировать интересы своего отдела.
  • Терпение. Пригодится при очередном письме «концепция изменилась, давайте посчитаем заново».
  • Прагматизм и деловой подход. Важно концентрироваться на тех вопросах, которые позволят улучшить показатели работы компании: увеличить доходы, сократить затраты, оптимизировать процессы.
  • Стремление учиться. Хороший аналитик любит узнавать новое и расширять свой кругозор.
Дополнительный анализ:  Самые опасные змеи убийцы - Интересное в сети! — LiveJournal

Плюсы и минусы профессии инженера больших данных

Плюсы:

Минусы

  • Большое многообразие инструментов и фреймворков. Действительно очень большое — и при подготовке к выполнению задачи приходится серьёзно анализировать преимущества и недостатки в каждом конкретном случае. А для этого нужно довольно глубоко знать возможности каждого из них. Да-да, именно каждого, а не одного или нескольких. 

    Уже сейчас есть целых шесть платформ, которые распространены в большинстве проектов.

    Spark — популярный инструмент с богатой экосистемой и либами, для распределенных вычислений, который может использоваться для пакетных и потоковых приложений.
    Flink — альтернатива Spark с унифицированным подходом к потоковым/пакетным вычислениям, получила широкую известность в сообществе разработчиков данных.
    Kafka — сейчас уже полноценная потоковая платформа, способная выполнять аналитику в реальном времени и обрабатывать данные с высокой пропускной способностью. ElasticSearch — распределенный поисковый движок, построенный на основе Apache Lucene.
    PostgreSQL — популярная бд с открытым исходным кодом.
    Redshift — аналитическое решение для баз/хранилищ данных от AWS.

  • Без бэкграунда в разработке ворваться в BD Engineering сложно. Подобные кейсы есть, но основу профессии составляют спецы с опытом разработки от 1–2 лет. Да и уверенное владение Python или Scala уже на старте — это мастхэв.

  • Работа такого инженера во многом невидима. Его решения лежат в основе работы других специалистов, но при этом не направлены прямо на потребителя. Их потребитель — это Data Scientist и Data Analyst, из-за чего бывает, что инженера недооценивают. А уж изменить реальное и объективное влияние на конечный продукт и вовсе практически невозможно. Но это вполне компенсируется высокой зарплатой.

Профессии около big data

Рассказывая о специальностях отрасли, нельзя не упомянуть некоторые «вспомогательные» профессии. Это люди, которые напрямую не работают с большими данными, но тесно связаны с развитием многих аналитических платформ. Это тот случай, когда вы не математик и не технарь, но все-таки можете похвастаться, что крутитесь в сфере Big data. 😉

Дизайнер интерфейсов. Этот человек упаковывает все сложные вычисления и технологии в простую форму.Особенность создания интерфейсов аналитических платформ – большое количество параметров данных. Дизайнер делает так, чтобы пользователь по ту сторону экрана мог легко во всем разобраться и запускал собственные исследования без глубокого погружения в предметную область big data.

«Для создания интерфейсов к аналитическим платформам нужно разбираться в web-разработке, UX-дизайне и обладать чувством прекрасного, – объясняет Александр Иноземцев, руководитель группы веб-интерфейсов в Eastwind. – Нужно уметь поставить себя на место человека, который будет пользоваться интерфейсом, и сделать процесс управления максимально удобным и простым для него».

Продакт-менеджер. Этот человек продвигает аналитическую платформу в живой бизнес-среде: участвует во внедрении, развивает систему по потребностям заказчика и требованиям рынка. Он должен хорошо разбираться в продукте и быть связующим звеном между разработчиками и компанией.

«Для нашего технического отдела – я менеджер, который работает с клиентом. А клиенты часто считают меня технарем, – рассказывает Александр Павлов, менеджер продукта Eastwind Social Analytics. – Это отражает особенность профессии менеджера big data продукта: быть в равной степени погруженным в коммерческие нужды и технические возможности, понимать логику исследований данных и быть первым объективным тестировщиком UI».

Софт скиллы

В целом они практически совпадают для всех специальностей, которые работают с данными:

  • Критическое мышление 
  • Аналитический склад ума
  • Умение правильно излагать и доносить информацию
  • Ответственность и внимание к деталям
  • Бизнес-мышление
  • Готовность принимать решения и брать ответственность за результат
  • Многозадачность
  • Чувство юмора

Многие считают профессию аналитика данных «малообщительной». Аналитик кажется нердом, который работает только с цифрами, а не с людьми.

На самом деле, все немного иначе. Аналитик данных действительно много времени проводит над анализом, но ему также важно уметь донести выводы руководителям компании или отдела. Навыки выступления перед публикой и грамотного подбора аргументации очень пригодятся. Ведь от того, насколько правильно ЛПРы поймут результаты аналитики, будут зависеть их дальнейшие действия в развитии компании или конкретного проекта.

Особняком из софт скилов стоит разве что

английский язык

. Многие компании отмечают знание английского как преимущество, но есть ряд вакансий, которые рассчитаны на работу в международных командах и с англоязычными проектами. В таких свободное владение английским обязательно.

Обязательный английский часто приятно отражается на зарплате. Вакансии в международных проектах гарантируют денежные компенсацию в 1,3-2 раза больше, чем в русскоязычных.

Учеба и первые результаты

В 2021 году один товарищ порекомендовал мне бесплатные экспресс-курсы GeekBrains. Я записался и прошел интенсив по Java, но с покупкой платного курса не спешил — изучал отзывы в сети. Они были противоречивыми, но хороших оказалось больше. И еще я заметил, что авторы самых негативных отзывов не были знакомы с моделью обучения на платных курсах.

Я записался на факультет Java, потому что читал об этом языке как об инструменте «боевого» дата-инжиниринга. Дальше стал изучать Scala, и эта связка помогла мне разобраться в анализе больших данных на уровне начинающего специалиста. Я уже примерно понимал, что мне по силам, а за что пока лучше не браться.

К слову, изучать Java я начал еще во время работы в рекламном агентстве. Тут же стал применять новые знания на практике: автоматизировал свои рабочие процессы, снизил повседневную нагрузку. Результаты порадовали и еще больше убедили развиваться в выбранном направлении.

После курса Java я поступил на факультет BigData и быстро ощутил, как здорово прокачиваю аналитику. Новые знания ложились на каркас практики, который у меня уже был.

А еще я начал понимать исходный код программ, даже если он на другом языке.

Стало ясно, что со знанием концепций программирования осваивать новые языки и инструменты — дело техники.

На простейшем уровне я был знаком с Python и SQL еще до GeekBrains. Но это были фрагментарные знания. Обучение на курсах дает теоретическую и практическую подготовку, с которой можно трудоустроиться.

Хард скилы

Python с библиотеками для анализа данных Pandas и NumPy

. Это мастхэв, его знание хотя бы на базовом уровне требуют 83% компаний в отрасли. Знание R, JavaScript и других ЯП нужны всего лишь 17% работодателям.

Интересно, что в 2021 году по результатам опроса дата-аналитиков и дата-сайентистов язык R в аналитике данных был куда популярнее — его использовали 61% специалистов.SQL

— практически во всех вакансиях требуется знание SQL и навыки работы с реляционными базами данных. Чаще всего требуют умение писать запросы и оптимизировать их.

Навыки работы с NoSQL системами управления базами данных вроде MongoDB, CouchDB или Apache Cassandra работодатели требуют довольно редко — примерно 9% вакансий.

Power BI, Qlik, Tableau. Большинство компаний не требует знаний какой-нибудь конкретной программы визуализации данных. Обычно они указывают одну из трех на выбор или пишут «системы визуализации данных» без указания конкретной. В целом специалисты могут сами выбирать, что именно им удобнее использовать. Принципиальной позиции у абсолютного большинства работодателей нет.

Опыт работы с Agile, Scrum, Kanban. Почти в половине вакансий работодатели указывают, что дополнительным плюсом будет умение работать с гибкими методологиями создания продуктов.

То есть важно не только то, что делает аналитик данных в рамках своей специальности, но и то, как он это делает.

Но ключевым требованием опыт работы с Agile не является (хоть его и указывают в вакансиях). Да, соискателю придется потратить время, чтобы привыкнуть работать в таком формате, но, по мнению компаний, это не критично.

Excel и Google Sheets. Как ни странно, но в трети вакансий требуется знание электронных таблиц. В основном это нужно продуктовым и консалтинговым компаниям, которые довольно мало пересекаются с диджитал-разработкой, или же относительно небольшим проектам, где весь отдел аналитики состоит из нескольких человек.

Действительно, маленьким командам часто незачем использовать мощные ресурсы SQL, если для обработки данных вполне хватает и обычного Excel. Но в таких ситуациях «аналитик данных» часто занимается сразу всем: сбором и анализом данных, инфраструктурой и автоматизацией.

Многие компании выделяют высокий уровень математической подготовки. Но здесь нужно понимать, что Data Analyst, в отличие от Data Scientist, использует довольно ограниченные математические инструменты, поэтому не нужно быть гением математики.

Высшее образование в области математики пригодится, но при должном усердии все необходимые функции можно изучить и самому. Но для Data Scientist глубокое знание математики уже считается критичным. Если вы планируете расти из Data Analyst в Data Scientist, то математику нужно будет подтянуть.

По основным хард скилам это все. Остальные встречаются менее чем в 10% вакансий, поэтому их можно отнести к индивидуальным особенностям работы в отдельных компаниях.

Оцените статью
Аналитик-эксперт
Добавить комментарий

Adblock
detector