Из первых уст. Про впечатления от курса  Яндекс Практикума “Разработчик С ” / Хабр

Из первых уст. Про впечатления от курса  Яндекс Практикума “Разработчик С  ” / Хабр Аналитика

Что внутри

Про тренажер, про спринты, наставников, дедлайны все уже было здесь на Хабре расписано вдоль и поперек [4-6]. Я даже догадываюсь о возможных причинах написания тех публикаций (только некоторых). Нам сейчас пообещали взамен на отзыв один из подарков на выбор.

Очень хочу получить Яндекс.Носки. Не знаю пока что это и как выглядит, но представляю, что это носки из спец шерсти, которая акупунктурно воздействует на определенные точки стопы так, что в мозгу стимулируются области, ответственные за мыслительный процесс.

Как и наверно в большинстве онлайн-курсов все начинается с вводного бесплатного курса, где можно оценить свои силы, время, удобство и стиль изложения материала. Что мне больше всего понравилось, финальным проектом вводного курса был вполне законченный проект “поисковик по поиску потерянных домашних животных” с ранжированием результатов выдачи и стоп-словами.

Хотя в описании вводного курса было указано ориентировочное время прохождения 24 часа, я его решал целый месяц во время отпуска. Зато на основе готового поисковика, пока ждал начала уже платного обучения, довольно легко сделал программу “Любимая фраза классиков литературы”, куда вошло большинство изученных алгоритмов и приемов.

Главные герои вводного курса
Главные герои вводного курса

Контрастным душем было начало обучения. Нам рассказали, что обучение будет складываться из двухнедельных спринтов, в этот срок мы должны сдать итоговый проект в тренажере, а также получить положительную оценку у ревьюера. Началась паника, спешка. Пока не решил задание не ясно сколько там еще осталось до конца. Нужно ли ускориться, или можно немного отдохнуть. В итоге почти все наши ребята справились за неделю.

В задачах первого спринта мы продолжили расширять функционал поискового сервиса и тут пришло осознание, что в дальнейшем стоит писать код так, чтобы потом не заняло много времени в нем самому же разобраться и вносить изменения.

Описывать подробно каждый спринт не буду, сейчас идет 14-й по счету. Расскажу только про самые яркие на мой взгляд моменты.

Возможно везде так устроено, но что меня больше всего поразило, что обучение тут построено по принципу Panic Driven Education. В начале каждого нового спринта читая очередное задание впадаешь в шок от того, что это нереально сделать, тем более в такой срок.

Затем начинаешь потихоньку писать код, общаешься с ребятами, с наставником, интернет в помощь и к концу спринта смотришь так со стороны – “а было совсем и не сложно”. И так по нарастающей от спринта к спринту. Примерно к середине курса уже с трудом стал укладываться в срок, нагрузка возросла, задания стали на порядок сложнее. Недавно один из спринтов по просьбе большинства пришлось расширить до трех недель. Но это все общие моменты.

Github – galaleksey/portfolio: проекты, сделанные мною во время обучения в яндекс.практикуме по программе "аналитик данных"

В данном репозитории хранится портфолию проектов, сделанных мною во время учёбы в Яндекс.Практикуме на курсе по анализу данных.

Проекты в основном представлены в виде файлов, подготовленных в Jupyter Notebook на языке Python.

Название проектаОписаниеИспользованные инструменты и библиотеки
1
Исследование надежности заемщиков
Определил, какие факторы и каким образом влияют на способность клиента банка погасить кредит в срок.pandas
pymystem3
nltk.stem
numpy
2
Исследование объявлений о продаже квартир в Яндекс.Недвижимость
Изучил влияние различных факторов на стоимость недвижимости.pandas
matplotlib
numpy
datetime
3
Определение перспективного тарифа для телеком компании
Исследовал поведение клиентов телеком оператора при пользовании тарифами. Определил, какой тариф лучше.pandas
matplotlib
stats
numpy
4
Исследование рынка компьютерных игр
Провел исследовательский анализ данных о продажах игр, составил портрет пользователей из каждого региона,
спрогнозировал приоритетные направления для продаж на следующий год.
pandas
matplotlib
stats
numpy
5
Аналитика в авиакомпании
Загрузил данные из различных источников (БД, парсинг сайта) и проанализировал их.pandas
matplotlib
requests
BeautifulSoup
SQL
6
Аналитика в Яндекс.Афише
Изучил поведение пользователей сервиса и рассчитал основные бизнес-показатели: DAU/WAU/MAU, Sticky Factor, Retention Rate, LTV, ROMI.pandas
matplotlib
seaborn
numpy
scipy
7
A/B тестирование в интернет-магазине
Приоритезировал гипотезы, проанализировал результат А/В теста: произвел расчет кумулятивной
выручки, среднего чека и конверсии по группам.
pandas
matplotlib
numpy
datetime
scipy
8
Анализ рынка заведений общественного питания Москвы
Проанализировал данные о заведениях общественного питания Москвы. Дал рекомендации, какое заведение лучше открывать.pandas
numpy
matplotlib
seaborn
textwrap
re
9
Анализ воронки продаж в мобильном приложении по продаже продуктов питания
Изучил все шаги воронки продаж, выявил вероятные проблемы. Исследовал результаты проведенного А/А/В-теста.pandasmatplotlibseaborndatetimeplotlyscipynumpymath
10 Дашборд для Яндекс.Дзен Создал дашборд в Tableu Public для менеджеров по анализу контента блог-платформы Яндекс.Дзен.Tableupandas
sqlalchemy
11
Прогнозирование оттока клиентов фитнес-центра с помощью машинного обучения
Составил портрет лояльных клиентов и клиентов, склонных к уходу. Построил модель прогнозирования оттока клиентов. Выполнил кластеризацию клиентов.pandas
seaborn
matplotlib
sklearn
scipy
12
Выпускной проект
1. Проект для банка: анализ оттока клиентов
2. A/B-тест: проверка результатов
3. SQL: создание запросов
SQLTableaupandasseabornmatplotlibnumpystatisticsscipysklearn

Аналитик данных и data scientist: в чем отличие?

На первый взгляд профессии аналитик данных и data scientist могут быть похожи, да и во многих компаниях обязанности этих двух специалистов часто пересекаются. Центр непрерывного образования ФКН поговорил с Сергеем Юдиным, руководителем группы качества discovery-сценария в поиске Яндекса, об особенностях работы в каждой из профессий. В интервью Сергей рассказал о необходимых навыках и перспективах профессий и о том, как сделать беспрецедентным преимуществом свой предыдущий опыт. 

Чем ты занимаешься?

Я руковожу группой качества discovery-сценария в поиске Яндекса. Мы занимаемся разработкой поисковых рекомендаций. В этом проекте я уже около двух лет, а в самом Яндексе работаю больше четырёх с половиной. Все мои проекты так или иначе были связаны с аналитикой данных и машинным обучением. 

Поисковые рекомендации — это запросы, которые в поисковой выдаче помогают пользователю с его задачей, в нужный момент подсказывая, что еще полезного и интересного можно спросить или как уточнить свой запрос.

Наша задача складывается из большого количества составляющих: машинного обучения, аналитики и анализа действий пользователей. Мы стараемся понять, как данные о том, что люди ищут в Яндексе, превратить в полезный продукт.

Есть две специальности: аналитик данных и data scientist. Расскажи, чем занимаются те и другие.

Во-первых, и те, и другие работают с данными и решают очень похожие задачи. Но если говорить про аналитика, то это определение намного шире, чем data scientist. При этом, если мы говорим именно про data-аналитиков, то стоит упомянуть, что они работают с определёнными типами продуктов. Например, когда у нас есть некоторые пользователи и действия в лог-файлах, которые можно агрегировать и изучать. 

Data scientist’ы тоже встречаются там, где есть данные, но важное и необходимое условие появления в команде data scientist’а — это наукоёмкая задача вокруг данных. Необязательно должны быть пользователи, но данные — обязаны быть. 

Возьмем, например, такое интересное место, как адронный коллайдер. Там очень много данных, которые нужно анализировать и обрабатывать наукоёмкими методами. Типичный data-аналитик в таком месте с его классическими скиллами скорее не нужен, а вот data scientist там пригодится. 

Между этими двумя профессиями нет чёткой грани, это скорее спектр. В Яндексе аналитик-разработчик зачастую является тем же самым data scientist’ом, если он работает с методами математической статистики, машинного обучения или оптимизации. Но аналитик — это очень прикладная специальность. Основная задача любого аналитика данных — получить из этих данных пользу для бизнеса, продукта или людей. 

Дополнительный анализ:  Обзор методов для оценки объема рынка лекарственных средств

А data scientist в первую очередь scientist, то есть ученый, который должен заниматься исследованиями. Зачастую в классическом понимании data science — это наука о данных, а раз это наука, то можно сказать, что KPI такого человека — это продвижение науки вперёд, например, через написание статей. Data-scientist’ы придумывают новые методы, их применение и рассказывают об этом миру. 

Я использую не общепринятую терминологию, как на рынке труда, а некое словарное определение профессии, которое можно очень сильно расширять. Когда я говорю про то, что задача data scientist’а писать статьи — это, естественно, некоторая полярность. Интереснее рассмотреть именно полярности, потому что в реальности есть множество людей, которые одновременно занимаются и задачами аналитика, и тем, что можно назвать data science. 

Что ты понимаешь под «наукоемкими методами»?

В практическом применении широкую известность имеют методы машинного обучения. Существует множество прикладных алгоритмов обработки данных. При работе с данными иногда появляются задачи, которые можно назвать научными: они формализованы, для них приняты некоторые допущения, и в таком виде задачу можно решить явно. К примеру, можно доказать, что некоторым алгоритмом задача решается оптимальным образом. 

Наукоёмкие методы — это те методы, за которыми стоит некое нетривиальное доказательство, и они работают. Часть из них воспроизводимы на практике и имеют практическую пользу, а некоторые оказываются слишком модельными. В теории метод работает, но на практике он не применим, просто потому. что те допущения, вокруг которых доказывалась математическая или компьютерная задача, не воспроизводимы в реальности. 

Можно сказать, что в одному углу стоят как раз исключительно теоретические задачи, не используемые на практике. А в другом — задачи обработки данных, за которыми не стоит особой науки: можно просто взять данные, сгруппировать, посчитать среднее, отсортировать и сделать аналитический вывод.  Где-то на стыке и лежат те самые методы, которые называют «наукоёмкими».

Можешь на конкретных примерах рассказать, чем занимаются аналитики?

Аналитик — это тот человек, который может смотреть на данные шире, строить и проверять гипотезы. Задача аналитиков — нести практическую пользу и искать новые знания в данных. Люди анализировали данные еще до возникновения компьютеров.

Так, например, японский инженер и статистик Генити Тагути еще в 1940-х годах разработал концепцию «инжиниринг качества». В рамках этой идеи он статистическими методами анализировал данные производства, проводил эксперименты и значительно уменьшал издержки, повышая при этом качество продукции. Впоследствии его методы были реализованы в оптимизации производства Ford Motor Company.

Приведу один пример задачи аналитика из своей практики. В Яндексе провели эксперимент, добавив в поисковую выдачу новые элементы — картинки в сниппетах. При этом пользователи стали иногда реже кликать и решать свои задачи, метрики ухудшились. Можно было выдвинуть десяток гипотез, почему так произошло. 

У нас были логи действия пользователей в этом эксперименте: история запросов, клики и другие взаимодействия. Задача аналитика в данном случае — разобраться в том, что произошло. Правда ли новый элемент ухудшает качество выдачи? В нашем случае выяснилось, что пользователи стали реже кликать именно в тот момент, когда на выдаче был всего лишь один элемент с картинкой. Мы предположили, что одна картинка отпугивает пользователей, потому что выглядит чужеродной. Когда в выдаче картинок несколько пользователям проще визуально её воспринимать.

Мы проверили эту гипотезу, и на данных она подтвердилась. В итоге удалось сделать понятный продуктовый вывод: если элемент один, то его лучше отключить, и показывать только в том случае, когда этих элементов несколько. Пользователи были довольны, так как страница выглядела гармонично.

Какими навыками должны обладать аналитик?

В первую очередь это «умение работать с данными». Любые инструменты, которые этому способствуют, начиная от обработки данных в таких программах как Excel, заканчивая любым языком программирования, который позволяет проводить более сложную обработку и автоматизировать процессы. 

Кроме инструментария нужно ещё понимание. То, что в резюме подразумевается под «аналитическим складом ума». Во-первых, это присутствие логики, умение строить выводы. Во-вторых, это способность генерировать гипотезы и умение проверить свои выводы. И последнее, рациональное мышление – отсутствие когнитивных искажений или понимание того, как эти когнитивные искажения работают, и умение им противостоять. 

Простой пример когнитивного искажения – эффект привязки. Когда-то два учёных Амос Тверски и Даниэль Канеман провели эксперимент: испытуемых в двух группах просили оценить долю африканских стран в ООН. Только в первой группе вопрос задавали следующим образом: «Доля африканских стран в ООН больше или меньше 65%?» И второй вопрос: «Сколько на самом деле процентов составляет доля африканских стран?». Второй группе задавали аналогичные вопросы, только в первом вместо 65% подставляли 10%. Несмотря на то что второй вопрос не отличался, а группы были случайными, результаты статистически очень сильно различались. Медианный ответ в первой группе составлял 45%, а у второй группы – 25%. Ответ на второй вопрос испытуемые давали под сильным влиянием от формулировки первого. 

Это и есть когнитивное искажение. В работе с данными часто встречаются подобные проблемы, и аналитику всегда нужно проверять, не является ли вывод натянутым. 

А какими навыками должен обладать хороший data scientist?

Любой data scientist – это аналитик, но не любой аналитик – data scientist, поэтому всё, что мы сейчас сказали, к data scientist’у точно относится. В дополнение, это, конечно же углублённые математическая подготовка и понимание статистических методов, а также всё, что связано с работой этих алгоритмов на практике. Методы компьютерного анализа данных построены на линейной алгебре, математической статистике и компьютерных науках. Должно присутствовать базовое понимание каждой из этих областей. 

Данные всегда относятся к конкретной области. В зависимости от того, в какой индустрии человек работает, он должен разбираться в этой сфере. Это могут быть медицинские данные, данные адронного коллайдера или лог-файлы интернет-сервиса. В первом случае нужно всё-таки понимать в медицине, в случае адронного коллайдера – понимать в физике, а в случае интернет-сервисов речь идёт уже о некоторой пользовательской аналитике: нужно понимать, как люди могут себя вести, и какие паттерны поведения могут присутствовать. 

В каких компаниях могут работать такие специалисты?

Аналитики могут работать в любой сфере, связанной с интернет-сервисами, приложениями или мобильной разработкой. Везде, где есть данные, пусть их совсем немного, нужны такие специалисты. 

Data scientist’ов ищут для решения крупных задач связанных с данными. У таких задач обязательно должно быть одно из свойств: либо бизнес-смысл, либо научная ценность, а также место для применения сложных методов, например, алгоритмов оптимизации машинного обучения. 

Также для того, чтобы применение сложных методов себя оправдало, должна быть дополнительная прибыль. Применение таких методов зачастую стоит дорого, но оно может окупиться.

К примеру, у маленького магазина действительно может быть много транзакций. Но в данном случае применять сложные методы нет необходимости. Достаточно просто посмотреть, какие товары хорошо покупают, и сделать базовую аналитику. А для сети с тысячью магазинов увеличение чека даже на 0,1% может окупиться и оправдать внедрение сложного метода обработки данных. 

В случае научной ценности важна выгода не столько с точки зрения денег, а с точки зрения понимания устройства этого мира. Если мы говорим про исследование космоса или микро-частиц, то применение сложных методов может окупаться за счёт того, что мы узнаем об этом мире больше.

Дополнительный анализ:  Comedy Club не до шуток: как сценаристы перешли к конкурентам :: Технологии и медиа :: РБК

Насколько перспективны эти профессии?

Потребность как в data-аналитиках, так и в data scientist’ах, растет не арифметически, а геометрически. Впрочем, как и количество данных компаний, мощность и стоимость некоторых кластеров, в которых можно применять сложные методы и хранить данные. Пока что тенденция такова, что геометрический рост продолжится ближайшие несколько лет. 

Другое дело, что есть перекос в сторону специалистов с некоторым опытом, чем с джуниор-уровнем. Компании в поисках тех специалистов, которые уже сталкивались с аналогичными задачами и умеют их решать. 

Но и специалистам без опыта не стоит сильно переживать. Компании готовы учить работников, поэтому иногда бывает достаточно показать, что кандидат готов осваивать новые знания. Важно не просто прослушивать курсы, а показать, что ты можешь быстро освоиться в методах, и доказать, что ты научился их применять. Таким образом ты покажешь, что от тебя можно ждать больших результатов и через несколько лет. 

Есть множество специалистов, которые могут быть новичками именно в профессии аналитика, но у них есть некоторый смежный опыт, и они готовы из этого смежного опыта извлекать выгоду. Например, человек, занимающийся медициной, идёт в аналитику данных в области медицины. Он новичок в анализе данных, но его бэкграунд может быть решающим в таком случае: он будет преуспевающим специалистом, вырастет через год и принесет столько пользы, сколько другой опытный data scientist никогда не принёс бы на этой позиции. 

Специалистов, у которых есть опыт и в смежной области и в сложной аналитике, еще меньше, а потребность в них – все больше. Количество данных стремительно растет в узкоспециализированных областях. Поэтому всем начинающим специалистам будет полезно сразу определиться со смежной областью и начинать развивать в ней свои навыки.

Можно войти в профессию с нуля?

Да, про это и был в какой-то мере ответ на прошлый вопрос. Никто не рождается профессионалом. Вопрос можно сформулировать так: какой бэкграунд поможет войти в профессию и какова сложность этого входа?

Для аналитиков она меньше, чем для data scientist’ов. Аналитик может начать решать задачи уже с базовыми знаниями. Для некоторых сложностью может стать то, что до устройства на полный рабочий день возможно придётся пройти стажировку, позаниматься своими собственными pet project’ами и загореться этой индустрией. Настолько загореться, чтобы быть готовым даже самостоятельно, в качестве хобби искать данные и их исследовать. Вот в таком случае с нуля точно можно войти в профессию. 

Надо набивать руку на написание кода до выхода на первое место работы, потому что программирование – это третий иностранный язык, который нужно знать. Те же самые pet project’ы или соревнования могут этому очень сильно поспособствовать. 

С какими сложностями можно столкнуться в работе?

В этой профессии, даже если ты работаешь уже несколько лет, можно быстро отстать, если перестать учиться. Осваивать новое придется постоянно –– и подходы, и инструментарии, потому что мир вокруг нас быстро меняются. К этому нужно быть готовым.

Аналитик никогда не знает, с какой конкретно сложностью он столкнется в задаче, а непонимание в этой области усугубляет проблему. Например, если при исследовании поведения пользователей в эксперименте, у аналитика обнаруживаются провалы в знании математической статистики, то сделать выводы по данным может быть очень сложно, не говоря уж о построении гипотез. 

Другая сложность – это коммуникация. Профессия аналитика и data scientist неотрывно связаны с общением с людьми. Data scientist может работать в вакууме с отдельной задачей, которую он будет решать полгода, а потом представить результат. Но зачастую и у людей, занимающихся, например, практическими применениями алгоритмов, возникает потребность общаться с той частью, у которой они будут брать данные. Сейчас есть тенденция разделения на тех, кто исследует что-то и проверяет гипотезы, и тех, кто это потом встраивает. И нужно объяснить, как это всё встроить и разработать.

Аналитику обязательно придется много общаться с другими сотрудниками: доказывать свою точку зрения, убеждать, качественно аргументировать своё мнение и слушать оппонента. Однако не менее важно уметь менять своё мнение, если оно оказалось неправильным. Проверяя гипотезы, нужно уметь смотреть на данные с холодной головой. 

Подводя итог, какие ключевые различия между аналитиком данных и data scientist’ом?

Аналитик данных – человек, который из данных получает практическую пользу. Data scientist – это человек, который умеет применять сложные методы обработки данных и понимает, как они устроены. Во многих компаниях эти профессии очень сильно пересекаются. 

Если задаться целью освоить конкретную профессию, то в зависимости от бэкграунда можно пойти или в аналитику, или в data science. Если у вас технико-математический бэкграунд, то попробуйте себя в практическом применении тех методов, которые вы уже знаете, и теорем, которые вы уже доказывали. Если ваш бэкграунд больше из конкретной отрасли, то стоит начать с аналитики данных, и постепенно, в зависимости от потребности и от вашего интереса, наметить вектор дальнейшего развития. Сложные методы могут быть и не нужны в той области, которая вам будет интересна. 

Освоить обе профессии с нуля можно в центре непрерывного образования факультета компьютерных наук

Изучить базы данных и язык SQL, язык Python, его применения для сбора, визуализации и анализа данных, статистику и машинное обучение, а также аналитические и продуктовые подходы для работы над реальными задачами можно на программе профессиональной переподготовки «Аналитик данных».
На программе «Специалист по Data Science» вы погрузитесь в современный анализ данных и машинное обучение: от изучения программирования и базовых разделов математики до глубинного обучения, прикладной статистики и работы с большими данными.

Как проходит онлайн-обучение дата-аналитике

Я учился на 11 онлайн-курсах по дата-аналитике. Один из них проходил напрямую у создателя — Высшей школы бизнес-информатики. Остальные нашел на образовательных платформах «Курсера», «Стэпик», «Скиллбокс», «Дата-кэмп» и «Яндекс-практикум».

На всех платформах я выбирал отдельные курсы. Только на «Дата-кэмпе» оплатил сразу годовую подписку и мог проходить по ней любые курсы.

У каждого курса на «Стэпике» было не только описание с планом, но и отзывы с оценками. Так мне было легче понять, стоит ли вообще его проходить. Каталоги курсов на других платформах были устроены аналогично

Кто преподавал. Курс в Высшей школе бизнеса вели преподаватели самой школы, а в «Яндекс-практикуме» — аналитики «Яндекса». На других платформах курсы создали преподаватели университетов, колледжей и бизнес-школ и сотрудники крупных успешных компаний.

«Скиллбокс» сам набирает команду преподавателей. На курсе «Профессия Data Scientist: анализ данных» лекции читали сотрудники «Рамблера», «Профи-ру», Сбера и самого «Скиллбокса».

В Высшей школе бизнес-информатики преподавали директора крупных компаний. Но курс по аналитике это не спасло, мне он не понравился. Расскажу про это дальше в статье

Формат занятий. Курсы включали в себя теорию в виде лекций — текстовых или в формате видео. И практику — тесты и домашние задания. Смотреть лекции и сдавать тесты я мог в любое время, хоть ночью. Главное — успевать все делать в пределах модуля. На «Яндекс-практикуме» модуль длился 2 недели, на остальных платформах — неделю.

За тесты мне начисляли баллы. Потом из них складывалась итоговая оценка. В основном тесты проверяли преподаватели, только на Data Science Professional Certificate на «Курсере» это делали такие же студенты, как и я. Мне это не понравилось.

Так выглядел тренажер «Яндекс-практикума». Аналогичный был на «Дата-кэмпе»

Качество. Некоторые курсы были очень качественно сделанными, с хорошим планом занятий и интересными практическими заданиями. Например, на «Курсере» мне понравился курс «Основы программирования на Python». Другие курсы были непродуманными: они не казались цельными, потому что из раза в раз менялся формат лекций. Таким был курс «Профессия Data Scientist: анализ данных» на «Скиллбоксе».

Сертификаты. Если я проходил обучение до конца, то получал электронный сертификат. В нем было мое имя, название курса и итоговая оценка. Потом я прикрепил все сертификаты к резюме.

Сертификат курса IBM, который я прошел на «Курсере»

Я оценю полезность каждого курса по шкале от 1 до 10 баллов, где 1 — совсем бесполезно, а 10 — очень полезно, интересно и применимо в новой работе.

Как я выбирал направление

Я искал область, где можно начать с нуля в 30 лет и где даже на старте доход будет от 80 000—100 000 Р на руки. Выбирал между веб-разработкой, гейм-разработкой и анализом данных. Читал о них на «Хабре» и смотрел требования и зарплаты в вакансиях в интернете.

Еще в гейм-разработке меня смутило то, что в вакансиях много требований даже для новичков. И без профильного высшего образования эти знания получить трудно.

Дополнительный анализ:  Зарплаты: аналитик, Москва | 2021г.
Это требования в вакансии гейм-разработчика. Как минимум нужно отличное знание и владение C#, а я с ним никогда не имел дело

Что такое аналитика. Аналитики исследуют разные данные, фильтруют их и прогнозируют. А компании смотрят на этот анализ и решают, как им дальше развиваться и какие новые продукты создавать.

Меня интересовали два направления аналитики — дата-сайенс и бизнес-аналитика, то есть BI. Дата-аналитики работают с данными, которые помогают развивать бизнес компании. Например, анализируют транзакции клиентов в банке. Потом банк формирует для этих клиентов заманчивые предложения.

Бизнес-аналитики анализируют структуру организации и ее внутреннюю деятельность. Советуют, что улучшить, чтобы компания развивалась, и разрабатывают программы, которые ускоряют бизнес-процессы.

Почему я выбрал дата-аналитику. О дата-аналитике мне подробно рассказал друг: он как раз заканчивал магистратуру по дата-сайенс в Высшей школе экономики. Он сказал, что это перспективное направление и аналитики востребованы во всем мире.

Чтобы заняться аналитикой с нуля, нужно хорошо разбираться в математике и статистике. А я забыл их со времен университета. Зато из языков программирования нужны были только Python и SQL. Я стал читать о них, нашел примеры кода — языки показались мне простыми и доступными.

Меня расстраивал только доход: в некоторых вакансиях предлагали всего 40 000—60 000 Р. А на одну позицию искали стажера-аналитика Python и вовсе на 25 000 Р. Но я понимал, что если сменю специальность, то поначалу придется просесть в деньгах. Зато перспективы роста у меня будут лучше, чем в продажах.

Меня успокоило, что опытные Python-разработчики могут рассчитывать на более высокий доход

Кто такой аналитик данных

Вроде по самому названию вполне ясно, что представляет собой профессионал в данной области. Он анализирует полученные данные, структурирует их, а потом на основании полученного массива делает определённые выводы.

Профессия и раньше была востребована, кто-то должен был анализировать огромные базы данных, а ручной труд в данной в данной области даёт очень низкую производительность, потому создавать алгоритмы для качественного анализа стало необходимостью.

Давайте возьмём банальный пример: на основе прослушиваемой музыки в социальной сети создадим картину аудитории для рекламы. Что нужно, чтобы получить результат:

  1. Собрать базу данных по прослушиванию всех композиций. Скорее всего, получим массив из миллионов композиций, которые были созданы в разные эпохи.

  2. Теперь проанализируем базу данных и составим топ-10 самых популярных композиций. Конечно, можно вычленить одну любую, но аудитория для самой популярной песни может быть интереснее. Перебрать миллионы произведений вручную — трудно, значит, нужно будет создать алгоритм, который сделает это автоматически.

  3. Теперь подберём аудиторию для каждой строчки в топе. Для этого придётся создать алгоритмы, которые соберут информацию о том, чем помимо песни увлекаются люди и вычленить, какие интересы и где преобладают.

  4. Итак, информация собрана, с помощью автоматических алгоритмов мы собрали список сообществ, где состоят слушатели песни, узнали их интересы, потребности. А значит примерно знаем, как рекламировать по данной аудитории.

И вот, близится концерт исполнителя, благодаря аналитике данных мы точно знаем, в каких группах сидят его слушатели, также знаем интересы, а значит можем даже выдавать рекламу в качестве контекстной или провести медийную в аудитории по интересам, что сделает рекламную кампанию более эффективной.

На самом деле приземленно сейчас рассказал, всё гораздо сложнее и многогранней. Я вам сейчас предоставил лишь одну сторону профессии.

В ней востребованы многие медийные агентства, которые собирают и анализируют аудитории для рекламы, востребованы аналитики данных в финансовой сфере, где нужно анализировать финансовые потоки.

В общем, любая компания, у которой в наличии крупная база данных и есть необходимость в её анализе, нуждается в профессионалах.

Неделя 2. задушевные беседы с кодом и объяснения на шоколадках

До этого я занималась в выходные. Но в эту субботу мне предстоит увлекательная поездка на огород к родителям, так что свои учебные часы нужно отработать в будни.

Не знаю, кто придумал, что отдых — это смена деятельности. Находить силы на учёбу после работы оказалось тяжеловато. В понедельник дело шло ещё бодро, но вот в среду вечером уже было трудно думать, от мелких строчек кода болели глаза, я часто пользовалась подсказками, плохо соображала и, кажется, не очень хорошо всё запомнила. Утешает, что к урокам можно вернуться — думаю, мне это понадобится.

Из других новостей: начала разговаривать с кодом, перекладывая команды на слова. Кажется, сказываются редакторские привычки, но это действительно помогает писать команды осознанно.

Отзыв на обучение в Яндекс Практикуме: программирование на питоне
Эта строчка на человеческом языке звучит примерно так: «дружок, возьми список data, примени к нему метод sort, и я сейчас дам тебе ключ: для сортировки возьми третий элемент каждой строчки и расставь их по убыванию, и да, я действительно этого хочу» 

Я думала, что мои мозги просто сломаются, когда прочитала, что если попросить программу напечатать диапазон ячеек 4–7, она напечатает четвёртую, пятую и шестую (а седьмую нет). Но тут меня спасло сравнение с шоколадкой: 

«Чтобы понять, почему разработчики Python так сделали, давайте представим плитку шоколада с нумерованными дольками. Срез 4:7 означает, что шоколадка ломается перед четвёртой долькой и перед седьмой»

из курса Яндекс.Практикума

Тема урока была не менее жизненной, чем пример с шоколадкой: нужно было выяснить, какие эмодзи в интернете используют чаще всего и зависит ли это от конкретной соцсети. Спойлер: чаще всего люди шлют «слёзы радости» и сердечки. Ну не милота ли!

Отзыв на Яндекс Практикум: примеры задач
А вот ещё пример задачки. Особенно мило, что ребята действительно объясняют ВСЁ. Ну да, ты учишься программировать и считаешь уравнения с помощью функций и методов, но мы на всякий случай объясним тебе, что такое убывание 

Неделя 4. финальный рывок

Моя неорганизованность привела к тому, что на последнюю неделю остался самый большой и сложный блок: мне предстояло изучить библиотеку Pan­das, научиться предобработке данных (это значит удалить мусор, привести названия столбцов к одинаковому виду и избавиться от повторов в табличке) и сделать самостоятельный проект — провести анализ уже не в тренажёре, а в Jupyter Note­book, который используют настоящие программисты.

Самостоятельный проект — это, по сути, решение тренировочной бизнес-задачи. У меня была такая: выяснить, отличаются ли чем-то музыка, которую люди слушают в разные дни недели, на примере Москвы и Питера. Из таких задач потом вырастают вот такие интересные исследования.

Финальная проверка — это одновременно шанс ещё раз всё повторить и запомнить. Каждый раздел посвящён отдельной стадии анализа данных на основе всех пройденных уроков: предобработка данных, анализ, представление результатов исследования. Я обложилась распечатанными шпаргалками и сделала всё примерно за 2 часа.

Аналитика данных в Яндекс Практикуме: отзыв об обучении
Примерно так это выглядело (бокал — для воды, лапа кота — для души)

Тренируясь решать задачки, можно и забыть, что аналитику важно уметь изучать данные глазами и обдумывать их. Финальный этап напоминает, что нельзя просто взять файл с данными и прогнать их через какие-то алгоритмы. Сначала нужно очистить данные от лишнего, а потом решить, по какому признаку сортировать, что с чем сравнивать и в каком виде лучше презентовать результаты исследования. Правда, большая часть решений в этой части курса уже принята: вас всё ещё ведут за руку.

Структура программы яндекс.практикум

Сначала в общих чертах опишу базовые единицы из которых строится курс, а потом более подробнее остановлюсь на некоторых моментах. Общая структура Специализации выглядит примерно так:

На момент моего поступления в программе было три модуля, содержащих в общей сложности: 15 курсов, 2 сборных проекта и один финальный проект. Один курс соответствует какому-то определенному навыку, которым должен обладать средний джуниор дата-сайентист. Тема — это раздел внутри курса. Каждая тема в свою очередь разбита на несколько уроков.

Например: Курс — Статистический анализ, тема — Описательная статистика, урок — Гистограммы частот.

Урок — элементарная частица специализации, состоит из теории и закрепляющей практики. Теория представляет собой пару страниц текста с примерами кода, иллюстрациями и поясняющими схемами.

В качестве практики необходимо выполнить задание в онлайн-тренажере, который представляет собой окошко с интерпретатором Python открытое в левой части того же экрана, где перед глазами находится задание и теория.

Рабочее пространство студента. Пунктирная разметка добавлена для пояснения.
Рабочее пространство студента. Пунктирная разметка добавлена для пояснения.

В конце каждого курса необходимо выполнить самостоятельный проект в котором студент демонстрирует полученные за курс навыки и знания. Технически проект представляет собой тетрадку Jupyter Notebook, запущенную через JupyterHub развернутом на сервере Яндекса, в которой студент пишет код решения, поставленной задачи.

Интерфейс Jupyterhub при выполнении проекта
Интерфейс Jupyterhub при выполнении проекта

После выполнения задания, по нажатию соответствующей кнопки тетрадка с проектом отправляется к ревьюеру, который смотрит твой код, проверяет выполнены ли задачи в полном объеме и (иногда) дает полезные рекомендации и замечания по улучшению кода.

Оцените статью
Аналитик-эксперт
Добавить комментарий

Adblock
detector