Строительная отрасль каждый день генерирует огромные массивы информации. Это электронные чертежи, ТИМ-модели, номенклатуры стройматериалов и цены на них. Собранная воедино, такая информация называется big data — большие данные.
На основе big data строители могут спрогнозировать цену стройматериалов, заранее понять, какому субподрядчику не стоит доверять, и даже выяснить, где лучше покупать землю. Но данные нужно собирать, очищать и структурировать, только тогда они приобретают ценность.
- Что такое большие данные
- Анализ больших данных в строительстве
- Карта освещенности домов солнцем
- Информация о потреблении энергоресурсов
- Данные об энергоэффективности зданий
- Строительные маркетплейсы
- Подробная матрица строительного процесса
- Выводы
- Что такое Big Data
- Кому подойдет данная специальность
- Вступительные экзамены – что нужно сдавать
- Внутренние испытания для поступления
- Программа обучения
- Чему можно научиться
- Форма обучения
- Где можно работать
- Специализации аналитика данных
- Плюсы и минусы профессии
- «Объем» (Volume)
- «Разнообразие» (Variety)
- «Скорость» (Velocity)
- «Истинность» (Veracity)
- «Ценность» (Value)
- Бизнес и маркетинг
- Здравоохранение
- Финансы
- Транспорт и логистика
- Наука
- Социальные медиа и интернет
- Государственное управление
- Образование
- Промышленность
- Технологии обработки Big Data
- Проблемы и вызовы Big Data
- Какое будущее у Big Data?
- Улучшение технологий обработки данных
- Расширение области применения
- Обработка данных в реальном времени
- Увеличение роли искусственного интеллекта в обработке данных
- Развитие технологий безопасности
- Увеличение роли облачных технологий
- Где и для чего применяется аналитика больших данных
- Медицина
- Примеры использования Big Data
- Сфера науки
- Кто работает с большими данными
- Специалисты по большим данным
- Откуда берется Big Data 🌐
- Этапы работы с Big Data 📊
- Методы анализа Big Data 🧪
Что такое большие данные
Большие данные — это значительный объем информации, который невозможно обработать традиционными ручными и даже программными методами. Информация обо всех госконтрактах региона со строительными компаниями, база данных о том, как менялись цены на металл, характеристики грунтов на свободных земельных участках в федеральном округе — всё это большие данные.
Big data могут быть бесплатными, а могут продаваться. Так, Минстрой публикует на своем сайте наборы данных об аварийном жилье, выданных разрешениях на строительство и реестрах сметных нормативов. Коммерческие данные о строительном секторе в России публично не продают, а в других странах это норма. Так, в Англии можно купить базу данных о недвижимости страны — по 2 пенса (2 ₽) за один объект. По набору станет понятно, например, какие дома выставлены на продажу, а какие только проданы. Владелец базы предлагает мелким подрядчикам отслеживать переезды и предлагать свои услуги.
Анализ больших данных в строительстве
А вот что дает анализ больших данных для строительной компании.
Аккуратные расчеты. Программное обеспечение может проанализировать данные по всем предыдущим проектам строительной компании и сделать вывод, сколько денег, техники и людей нужно на новый объект. Алгоритм также может рассчитать материалы и сопоставить информацию с другим массивом данных — о ценах. Это называется предиктивная аналитика больших данных в строительстве: автоматизированные прогнозы на основе исторической информации.
Ученые еще в 2016 году предложили методику, как спрогнозировать количество строительных отходов и протестировали ее на базе данных из 200 000 записей о размещении мусора с 900 проектов.
Уменьшение ошибок. Анализ данных в строительстве в реальном времени позволяет предупредить ошибки и понять, если с проектом возникли проблемы.
Так, в Сингапуре строительная компания обязана установить систему биометрического контроля и каждый месяц передавать данные об использовании рабочей силы в органы власти. По этой информации чиновники понимают, что происходит на объекте, а еще могут сравнить эффективность труда в разных организациях.
Улучшение планирования. Согласно исследованиям, использование big data на 69% улучшает шансы принять верное стратегическое решение в строительной индустрии. Основанный на данных менеджмент позволяет строить более логичные цепочки поставок, уменьшать потребление электричества на площадке и лучше управлять техникой и персоналом. Управление на основе данных еще называют business intelligence (BI) — бизнес-аналитика. BI-системы в России том или ином виде используют многие крупные корпорации.
Как цифровые платформы упрощают планирование процесса строительства
По расчетам McKinsey, анализ данных уменьшает издержки в строительстве на 5−10% и сокращает сроки на 10−20%. А совместное использование big data и BIM сводит почти к нулю траты времени на формирование отчетов и пересылку документов.
При работе с большими данными есть одно важное ограничение — конфиденциальность. Под big data обычно понимается обезличенная информация, то есть та, которая не содержит персональных данных. Это юридически безопасно. В России пока нет понятного регулирования, как компаниям работать с big data и BI системами, но Минцифры готовит нормативную базу.
Далее в этой статье — примеры, как аналитика больших данных помогает строителям и специалистам смежных профессий.
Карта освещенности домов солнцем
В августе 2023 года стало известно, что Google планирует продавать данные о 350 млн зданий поставщикам возобновляемых источников энергии. Компания хочет заработать 100 млн долларов за первый год таких продаж, а среди потенциальных клиентов также видит агентства недвижимости и организации ЖКХ.
Часть данных будет взята из проекта Google Project Sunroof — он запущен в 2015 году и ориентирован на домовладельцев, которые хотят установить солнечные панели. На основе картографических данных сервис оценивает освещенность крыши дома и делает выводы о целесообразности установки батарей. Project Sunroof учитывает даже тени от стоящих рядом с домом деревьев.
Одновременно Google намерена продавать данные о загрязненности воздуха как в реальном времени, так и на историческом отрезке до 30 дней.
Финансовая компания Morgan Stanley предполагает, что за счет продажи данных Google сделает свои картографические сервисы более прибыльными, ведь сейчас они экономически недооценены.
Информация о потреблении энергоресурсов
Любое здание — это источник данных о потреблении энергоресурсов. Пока эти данные в основном разрознены и в таком виде не представляют большой ценности, но компании ЖКХ уже начинают понимать, что в их руках новый ресурс. Чем больше накоплено такой информации с точки зрения исторических периодов, и чем лучше она агрегирована с точки зрения количества домов, тем интереснее эти наборы данных — возможно, даже для продажи в «очищенном» виде.
Наверное, уже все поставщики энергоресурсов сделали личные кабинеты абонентов, где люди и компании могут смотреть расход воды, электричества или газа, сравнивать цифры по месяцам и годам. Такие же данные о потреблении государство уже использует, чтобы принимать решение о капремонтах или предоставлении финансовой поддержки по программам энергосбережения.
Классическая табличка с информацией о потреблении воды. Такие данные накапливают водоканалы даже в самых небольших городах
Данные об энергоэффективности зданий
В США при поддержке местного министерства энергетики создана база данных об энергетических характеристиках коммерческой и жилой недвижимости — Building Performance Database (BPD). Это самый большой массив данных в стране, который агрегирует информацию от администраций, организаций ЖКХ, а также от собственников зданий.
Информация открыта: после регистрации любой пользователь может изучать различные наборы данных и создавать свои. Майкл Бергер из национальной лаборатории министерства энергетики США в Беркли говорит, что база данных помогает энергетическим компаниям, владельцам жилья, а также аудиторам. Например, энергоконсультант может узнать в сервисе, сколько энергии потребляет 1 м² в офисном здании в определенном штате, а потом сравнивать это значение со зданием, которое он обследует.
Сравнение потребления энергии в жилых зданиях с разным остеклением. Синие показатели — здания с одинарными стеклами, желтые — с двойным остеклением. В кружочках указано среднее потребление в британских тепловых единицах на квадратный фут (kBtu-sqft)
То же самое сравнение на основе вероятностного анализа данных. График говорит, что при переходе с одинарных стекол на двойные часто происходит снижение потребления энергии на 14%. Такие данные не следует трактовать однозначно, для профессионалов анализ массива информации — лишь повод к размышлению
Ученый Майкл Бергер на примере BPD показывает, что такое ошибка в интерпретации массива данных. Он провел эксперимент: сравнил офисные здания с разными поколениями люминесцентных ламп и получил результат, что здания с более современными лампами расходуют больше энергии. При дальнейшем анализе выяснилось, что здания, где стоят новые лампы, просто больше по площади и дольше открыты.
Это расход электричества в домах с крышей из деревянной черепицы. Синий кружочек — потребление в домах, где есть печь, а желтый — где стоит тепловой насос. Что-то не так: печь вообще не требует электричества, а вот тепловой насос без него не работает. Справа внизу есть цифры: в базе данных почти 30 000 домов с печным отоплением и лишь 212 — с тепловыми насосами. Сравнение нельзя считать достоверным
Строительные маркетплейсы
Большие данные — ключевой фактор в продажах. Строительные маркетплейсы внешне работают по схеме «Озона» или «Вайлдберриз», но внутри гораздо сложнее, так как в основе лежит обработка больших данных. Так, площадка «Стройкод» содержит 90 000 наименований материалов и товаров и работает так: заказчик формирует запрос, и он рассылается по базе поставщиков. За счет этой вроде бы простой схемы комплектация объектов идет в разы быстрее, так как не нужно тратить время на поиск материала и телефонные звонки. Тут простая логика — заказчик загружает требуемую номенклатуру, а «Стройкод» ищет лучшее предложение от поставщиков. Легко понять, сколько будет стоить обеспечение материалами объекта в любом регионе. В перспективе на основе статистических данных можно будет строить карты стоимостей и доступности материалов — тоже по регионам. Еще маркетплейс дает возможность увидеть, сколько времени займет доставка, и что с объемами партий.
Так выглядит запрос, который формирует заказчик в «Стройкоде»
Сравнивать предложения от поставщиков можно прямо в системе, не надо содержать целый штат закупщиков и логистов
Подробная матрица строительного процесса
Объединение разных массивов данных на единой платформе — за рубежом это называют master data management — возможно, будет наиболее перспективным направлением в работе со строительной информацией. Отечественные и иностранные продукты направлены на решение схожих задач, но зарубежные платформы, например, Stibo Systems, более универсальны и одинаково подходят как к стройке, так и к ритейлу или финансовым сервисам.
5 категорий виджетов для сквозной аналитики данных в строительстве
В России BI-системы для управления данными — чаще отраслевые. Так, облачная платформа «Цифровое управление строительством» («ЦУС») собирает в одном месте всю информацию по объектам и помогает контролировать строительство с помощью достоверных данных. В «ЦУСе» есть всё про строительный объект: сколько он должен был стоить по плану и сколько стоил фактически, в какие сроки удалось его возвести, где были задержки, каких материалов потребовалось больше, какие средние сроки доставки и так далее. Платформа знает, какие нарушения чаще всего находит стройконтроль, и сколько человеко-часов потребуется для разных видов работ.
На основе анализа данных в строительстве «ЦУС» формирует дашборды, графики и диаграммы, которые отражают реальную ситуацию. Максимальная польза от работы с массивами информации достигается на уровне, когда пользователь работает со множеством объектов, например, в разных регионах. «ЦУС» умеет консолидировать данные по каждому субъекту страны или городу, формировать отчетность по инвестпрограммам или любым другим критериям.
А в перспективе можно будет с высокой точностью просчитать стоимость объекта на основе исторических данных, точнее планировать сроки, заказывать материалы и контролировать качество.
В основе «ЦУС» лежит концепция Business Intelligence — бизнес-аналитика и автоматизированная работа с данными, которая обеспечивает их перевод в понятную форму
Разбивка по регионам в «ЦУС»
Выводы
BI-системы в России сейчас развиваются в отдельных отраслях, таких как строительство и маркетплейсы.
Аналитик Big Data работает с числами, а также занимается прогнозированием дальнейшего развития событий, опираясь на цифры и результаты проведенных исследований и анализов. Числа, с которыми работает эксперт, могут относиться практически к любой области жизни общества. Так как с каждым годом количество информации увеличивается, а базы данных расширяются, спрос на профессию постоянно растет. Немало абитуриентов задаются вопросом — где пройти обучение на аналитика Big Data и какие экзамены нужно сдавать.
Что такое Big Data
Big Data ― огромные массивы разнообразных данных, с обработкой которых не может справиться простой компьютер. Наборы данных могут быть как структурированными, так и неструктурированными. К Big Data относятся:
Большие данные используются в маркетинге, банковском деле, госструктурах, грузоперевозках, авиа- и автомобилестроении, медицине, науке, сельском хозяйстве и других областях, требующих обработки массивов информации.
Сотрудник, который занимается анализом этих больших данных (сборкой, обработкой), и есть аналитик Big Data. На основании его отчетов в компаниях принимают важные решения. Аналитики нужны во всех сферах экономики: от финансов до управленческих решений.
Анализ данных необходим:
Сведения, извлекаемые специалистом из массивов информации, также могут использоваться в бизнесе. Грамотный анализ данных нужен компаниям из разных индустрий (сервиса, киберспорта, туризма, образования).
В предпринимательской сфере анализ Big Data нужен:
Именно поэтому сотрудники в области дата-аналитики очень востребованы на рынке.
Кому подойдет данная специальность
Профессия сопряжена с расчетами, анализом и статистикой. Поэтому для становления аналитиком пригодятся математические наклонности. Будущий профессионал должен быть знаком с различными вычислительными процессами, линейной алгеброй, а также с теорией вероятности.
В обязанности Big Data-специалиста также входят анализ, оптимизация и цифровизация бизнес-процессов и взаимодействие c IТ-специалистами. К другим навыкам, которыми должен обладать профессионал, относятся:
Для работы с data-анализом желательно обладать определенными качествами. В процессе работы data-аналитику понадобятся:
Все это важно для качественной обработки больших объемов информации и разработки максимально точных прогнозов.
Критическое мышление — еще один soft skill, необходимый для аналитика. Профессионал должен четко видеть логические и причинно-следственные связи, замечать несоответствия, грамотно формулировать аргументы.
Аналитику данных также важно уметь грамотно налаживать взаимоотношения с коллегами и партнерами, решать проблемы и выходить из конфликтных ситуаций с наименьшими потерями.
Вступительные экзамены – что нужно сдавать
Чтобы стать аналитиком, необходимо получить высшее образование в сфере экономики, математики, финансов, IT-технологий или социологии. Набор предметов для сдачи будет зависеть от области, которую выбрал студент.
Для поступления на экономический факультет список предметов будет включать в себя русский язык, профильную математику и обществознание. Математический профиль будет отличаться лишь тем, что вместо результатов ЕГЭ по обществознанию абитуриент должен будет предоставить результаты ЕГЭ по физике или информатике. Если будущий студент решил поступать по направлению «социология», в качестве предмета по выбору подойдут обществознание или биология.
Так как будущий аналитик будет работать с профильными программами и терминалами Bloomberg, хорошим конкурентным преимуществом для поступления может послужить дополнительный экзамен по иностранному языку.
Внутренние испытания для поступления
Иногда для поступления в университет баллов ЕГЭ бывает недостаточно. В этом случае вузы могут проводить внутренние вступительные испытания. Это особенно характерно для учебных заведений с высоким рейтингом или вузов.
При этом формат вступительного экзамена выбирается вузом, в которые решил поступить абитуриент.
Вступительные испытания по выбранным предметам составляются на основе школьного курса дисциплины и по уровню сложности не превышают уровня заданий ЕГЭ. По итогам испытаний результаты суммируются с баллами, полученными на ЕГЭ.
Программа обучения
Работать аналитиком Big Data без профильного образования не получится. Однако в вузах нет специальности Big Data Analyst, поэтому в зависимости от специфики области, в которой собирается работать студент, он может выбрать одно из перечисленных направлений:
Выучиться на профессию аналитика данных можно не только по направлениям, связанным с математикой и IT-технологиями. Доступны такие варианты, как:
Учеба по программе бакалавриата длится 4 года на очном отделении и 5 лет – на всех остальных.
Конечно, чтобы начать карьеру аналитика, можно для начала пройти специализированные курсы. Они длятся всего около 6 месяцев. На них расскажут об основах профессии. Однако все же стоит пройти полноценное обучение, так как это сильно изменит перспективы дальнейшего карьерного роста.
Чему можно научиться
В университете студенты изучат высшую математику, математический анализ, теорию вероятности и языки программирования.
Для получения профессии ученикам также придется научиться:
Помимо навыков работы с разными программными обеспечениями и языками программирования, ученику нужно получить знания о фундаментальных принципах работы бизнеса. Сюда входят: витрины данных, управление данными и прогнозирование, OLAP-кубы, умение составлять и интерпретировать отчеты.
Профессионал в области аналитики должен отлично ориентироваться в следующих предметах:
Форма обучения
Форма обучения зависит от профиля, который выбрал студент.
Программы по направлениям «Математика и компьютерные науки», «Прикладная математика и информатика», а также любые другие, связанные с информационными технологиями и процессами, могут проводится в очной, заочной или дистанционной формах.
Некоторые экономические и социологические программы могут не иметь варианта удаленной учебы.
Также существует множество онлайн-курсов, на которых можно удаленно обучиться основам аналитики данных. Длительность таких онлайн программ варьирует от 2-3 месяцев до 2 лет.
Где можно работать
Аналитики могут трудоустраиваться в интернет-компании, исследовательские отделы бизнес-корпораций, правоохранительные органы.
Среди профессионалов data-аналитики распространена работа в сфере финансов, поскольку именно эта область требует анализа и четких прогнозов, основанных на реальных данных и точной математике.
Финансовые и инвестиционные аналитики могут похвастаться достаточно высоким уровнем заработка. Ненамного меньше получают спортивные аналитики. Хотя в целом зарплата такого специалиста зависит от того, в какой организации он трудится и какими финансовыми потоками она оперирует.
Некоторые специалисты проводят исследования и занимаются оказанием разовых консультативных услуг (в рамках частных заказов).
Большим плюсом при устройстве на работу будет, если кандидат разбирается в какой-то области помимо аналитики.
Специализации аналитика данных
Помимо классических аналитиков, работающих в IT-отделении, есть и другие направления, в которых может работать сотрудник. Вот некоторые из них:
Плюсы и минусы профессии
В число преимуществ работы с Big Data прежде всего входит востребованность на рынке. У выпускников не возникнет проблем с трудоустройством. Это связано с тем, что навыки и умения аналитиков позволяют им проводить маркетинговые исследования, без которых не обходится ни одно предприятие.
Во-вторых, работа аналитика разнообразна и заставляет сотрудника постоянно развиваться. Новая информация появляется ежеминутно, вынуждая эксперта проявлять креативность, а также осваивать новые технологии и методы исследования.
В-третьих, data-аналитики имеют гибкий график. Они могут работать как в штате компании, так и удаленно. Более того, аналитик может работать не только на организацию, но и на себя, занимаясь оказанием услуг на договорной основе.
Еще одна причина, которая мотивирует получить специальность, ― уровень дохода. Профессионалы данного профиля ценятся на рынке труда и получают высокие зарплаты независимо от сферы, в которой они работают.
Дополнительным полезным бонусом служат знакомства с влиятельными людьми и престиж. Не последнюю роль играют возможности для переквалификации (например, работа в разных областях экономики).
К недостаткам профессии аналитика можно отнести ненормированный график работы и длительное времяпровождение перед экраном компьютера. Работа требует постоянного умственного напряжения и высокого уровня ответственности.
Еще одним минусом профессии является длительное обучение. Большинство нанимателей хотят видеть у себя опытных сотрудников. Поэтому молодому сотруднику без стажа поначалу нужно будет приложить усилия, чтобы доказать свою профпригодность.
Аналитик Big Data — сложная профессия, на освоение которой требуется немало времени и сил. Однако специальность универсальна. Благодаря приобретению нескольких компетенций одновременно, умению собирать и анализировать информацию, а также навыкам работы в программах для статистической обработки данных аналитики могут реализоваться во многих отраслях.
Big Data (в переводе с английского «Большие данные») — это термин, который используется для описания колоссальных объемов данных, которые невозможно эффективно обработать с использованием традиционных методов. То есть с ними не справится ни обычный человек, ни простой пользовательский компьютер. Для обработки больших данных применяют специальные технологии и программное обеспечение. При этом огромные объемы информации можно использовать для решения задач, требующих высокой точности прогнозов, поиска обоснований для тех или иных решений, персонализации сервисов и так далее. «Лента.ру» рассказывает, что такое Big Data и в каких областях она применяется.
Как рассказал «Ленте.ру» эксперт по искусственному интеллекту и нейросетям Андрей Наташкин, впервые термин Big Data появился в 2008 году в статье профессора Школы информации Беркли Клиффорда Линча. Этим термином он обозначил взрывной рост мировых объемов информации. Безусловно, говорит эксперт, эти объемы существовали и ранее, но именно Линч четко обозначил проблематику и ввел понятийный аппарат.
Чаще всего к категории Big Data относится поток данных свыше 100 Гб в день
«Давайте представим огромный гипермаркет, где есть продуктовый отдел, одежда, бытовая химия, детские товары. В таком гипермаркете все четко структурировано. И именно это позволяет вам легко найти нужный товар. А теперь представьте, что вы приходите в гипермаркет, а там все вперемешку. Сапоги стоят вместе с молоком, а подгузники рядом с садовым инвентарем. Никакой логики и системности. Без Big Data наш мир был таким же», — говорит Андрей Наташкин.
Для характеристики Big Data традиционно используются три основных аспекта, которые называются «тройкой больших данных» или «3V» (в английском языке все три термина начинаются с латинской буквы V):
«Объем» (Volume)
Большие данные означают огромные объемы информации. Это включает в себя терабайты, петабайты и даже эксабайты данных.
«Разнообразие» (Variety)
Big Data может иметь различные форматы, включая текст, изображения, видео, аудио и структурированные данные, такие как таблицы и базы данных. Разнообразие информации также включает в себя данные в реальном времени и данные с географическими координатами.
«Скорость» (Velocity)
Скорость обработки и анализа данных в реальном времени является ключевым аспектом Big Data. Информация может поступать со скоростью нескольких тысяч транзакций в секунду.
Кроме того, со временем к тройке больших данных стали добавлять еще два признака:
«Истинность» (Veracity)
Это качество данных, включая точность, надежность и актуальность.
«Ценность» (Value)
Это способность извлекать ценную информацию и знания из больших данных и использовать их в бизнесе или исследованиях.
Обработка больших данных включает в себя использование специализированных технологий и инструментов, таких как:
Бизнес и маркетинг
Компании используют анализ больших данных для прогнозирования трендов, анализа рынка, оптимизации цен, улучшения клиентского опыта и принятия решений на основе данных.
«Поэтому требуется эти данные структурировать и сделать удобными для обработки, например, для того, чтобы обеспечить персонализированный и клиентоориентированный подход при производстве товаров и услуг», — рассказывает «Ленте.ру» заведующий кафедрой безопасности РАНХиГС Санкт-Петербург, доктор экономических наук Александр Дмитриев.
На огромных объемах данных маркетологи, бренд-менеджеры и продуктовые специалисты могут прогнозировать поведение потребителей и разрабатывать персонализированные предложения, увеличивая таким образом лояльность клиентов и конверсию, продолжает директор по маркетингу платформы автоматизации маркетинга Maestra Филипп Вольнов.
В качестве успешного примера использования Big Data он приводит известный российский обувной бренд. «С помощью больших данных в компании смогли понять, какие клиенты, ушедшие с сайта, вероятнее всего совершат покупку, и сфокусировали ретаргетинговые кампании конкретно на них, значительно увеличив конверсию и сэкономив бюджеты», — говорит эксперт.
Это значит, что человек, который хотел купить обувь, но не сделал этого (например, отправил понравившуюся пару в корзину, но решил пока не оплачивать), будет получать рекламу бренда снова и снова. В конце концов наиболее заинтересованные люди оплатят покупку. А вот юзеры, которые случайно попали на сайт, такую рекламу получать не будут — это значительно сэкономит бюджет магазину.
Здравоохранение
В медицинской сфере большие данные помогают улучшить диагностику, предсказывать распространение болезней, оптимизировать процессы лечения пациентов и проводить исследования в области медицины.
Финансы
Финансовые учреждения используют Big Data для анализа клиентских данных, предсказания рыночных трендов и оптимизации инвестиционных стратегий.
Транспорт и логистика
Компании в области транспорта и логистики используют большие данные для оптимизации маршрутов, управления инфраструктурой и улучшения эффективности транспортных средств.
Наука
В научных исследованиях Big Data используются для обработки и анализа огромных объемов данных, например, в астрофизике, генетике, климатологии и других областях. В частности, в НАСА Big Data применяют, чтобы просчитать детали будущих миссий.
Социальные медиа и интернет
Компании, работающие в области социальных медиа, используют большие данные для анализа поведения пользователей, персонализации контента и улучшения рекламных кампаний.
Государственное управление
Власти стран используют технологии Big Data для анализа данных о гражданах, улучшения государственных услуг, предсказания социальных и экономических трендов.
Образование
В образовательных учреждениях данные используются для адаптации программ, улучшения обучения, оценки успеваемости студентов и оптимизации управления учебными заведениями. Кроме того, как говорит Дмитриев, Big Data помогает абитуриентам и студентам с профориентацией. «Система аналитики больших данных подбирает для каждого обучающегося индивидуальную траекторию учебы с выбором наиболее подходящих предметов. Например, это актуально на программах повышения квалификации и переподготовки», — отмечает доктор экономических наук.
Промышленность
Компании используют большие данные для оптимизации производственных процессов, предотвращения сбоев в оборудовании, улучшения качества продукции и управления цепочками поставок. В качестве примера Александр Дмитриев приводит опыт газового концерна «Газпром». «Компания выявила неисправности в системе энергоснабжения и компрессорного оборудования. Это позволило выявить причинно-следственные связи появления сбоев в работе и оперативно их устранить», — рассказывает эксперт.
Технологии обработки Big Data
Как рассказывает основатель и продюсер компании «РОББО» Павел Фролов, для хранения и обработки данных главным образом используют три технологии:
Классическая реляционная СУБД — это система, данные в которой находятся и логически обрабатываются «на одном сервере» в одной базе с заданной структурой, а для работы с данными используется язык SQL. Такие системы получили наибольшее распространение, а практически весь глобальный рынок занят тремя производителями — Oracle, Microsoft и IBM.
В случае с горизонтально масштабируемым хранилищем данных речь идет о системе, где данные распределяются по большому количеству серверов. Они могут не иметь заранее определенной структуры, при этом в хранилище можно добавлять новые серверы. Анализ данных происходит на всех серверах параллельно, результат параллельных вычислений консолидируется. Так работает Hadoop, и для подобных вычислений была придумана технология MapReduce.
Системы работы с данными in-memory позволяют создавать и анализировать структурированные и слабоструктурированные данные в режиме реального времени с высокой производительностью. Это системы, сочетающие в себе достоинства OLTP (транзакционных) и OLAP (аналитических) систем, являющиеся обработчиками так называемых горячих, то есть наиболее актуальных на настоящий момент данных. Примером такой системы может служить SAP HANA.
Если говорить об инструментах обработки больших данных, то можно выделить следующие:
Apache Hadoop. Это один из наиболее популярных для обработки больших данных. Hadoop включает в себя распределенную файловую систему HDFS и фреймворк для обработки данных MapReduce.
Apache Spark. Это высокопроизводительный фреймворк для параллельной обработки данных, который предоставляет API на Java, Scala, Python и R. Spark поддерживает обработку данных в реальном времени и в памяти, что делает его более быстрым по сравнению с Hadoop MapReduce.
NoSQL-базы данных. NoSQL-базы данных, такие как Apache Cassandra, MongoDB и Couchbase, предоставляют масштабируемые и гибкие решения для хранения и обработки неструктурированных данных, что особенно важно для Big Data-приложений.
Фреймворки для обработки потоков данных. Технологии, такие как Apache Kafka, Apache Storm и Apache Flink, позволяют обрабатывать и анализировать данные в режиме реального времени, обеспечивая надежный и эффективный поток данных.
Машинное обучение и искусственный интеллект. Технологии машинного обучения и искусственного интеллекта используются для анализа больших данных, выявления паттернов, прогнозирования трендов и автоматизации процессов принятия решений.
Кластерные системы управления данными. Системы управления данными, такие как Apache HBase, предоставляют распределенные хранилища для работы с большими объемами данных, обеспечивая быстрый доступ к данным и поддерживая масштабируемость.
Технологии для визуализации данных. Инструменты для визуализации данных, такие как Tableau, Power BI и D3.js, позволяют создавать наглядные диаграммы и графику на основе больших данных, что помогает понимать и анализировать информацию.
Проблемы и вызовы Big Data
Одним из основных барьеров для внедрения аналитики больших данных в бизнес является необходимость достаточно крупных капитальных инвестиций. Они необходимы для запуска систем аналитики больших данных, говорит Александр Дмитриев.
«Поэтому для маркетингового направления вкладываться в собственную ML/Big Data инфраструктуру стоит только, если есть сильные гипотезы, которые обеспечат прирост выручки», — называет порядок цифр Филипп Вольнов.
Помимо финансовых, можно выделить еще некоторое количество проблем и вызовов:
Объем данных. Обработка и хранение огромных объемов данных требует значительных вычислительных ресурсов и инфраструктуры, что может быть дорого и сложно в управлении.
Скорость обработки. Обработка больших данных в реальном времени требует быстрых алгоритмов и инфраструктуры, способных справляться с высокой скоростью поступления данных.
Качество данных. Большие данные могут быть зашумленными и содержать ошибки. Обеспечение качества данных и их очистка от ошибок и шума представляют сложность.
Обработка больших данных часто включает конфиденциальные или чувствительные данные, что поднимает вопросы о безопасности и защите информации
Интеграция данных. Большие данные могут быть распределены в различных источниках и форматах. Их интеграция в унифицированный формат для анализа и обработки может быть сложной задачей.
Этика и законодательство. Обработка больших данных поднимает вопросы об этике, такие как конфиденциальность данных и справедливость в использовании информации. Существуют законодательные ограничения, регулирующие сбор, хранение и использование данных. Например, в России отсутствует законодательно закрепленное определение больших данных, говорит Павел Фролов.
Какое будущее у Big Data?
Будущее Big Data обещает множество возможностей и инноваций, поскольку технологии обработки данных продолжают развиваться. В настоящее время это одно из наиболее перспективных направлений в IT, в том числе в отношении зарплат и продвижения по карьерной лестнице. Вот несколько направлений, в которых можно ожидать развития:
Улучшение технологий обработки данных
С появлением более мощных вычислительных систем и оптимизированных алгоритмов обработки данных возможности анализа и интерпретации больших объемов данных значительно увеличатся.
Расширение области применения
Big Data будет продолжать проникать в различные сферы, такие как здравоохранение, финансы, производство, транспорт и другие, что позволит оптимизировать процессы и принимать более осознанные бизнес-решения.
Обработка данных в реальном времени
С развитием технологий обработки потоков данных (stream processing) анализ данных в реальном времени станет более распространенным. Это позволит быстрее реагировать на изменения и события.
Увеличение роли искусственного интеллекта в обработке данных
Искусственный интеллект будет активно применяться для автоматизации процессов анализа больших данных, включая распознавание образов, обработку текста, голосовой анализ и многое другое.
Развитие технологий безопасности
С увеличением объемов данных растут и угрозы безопасности. Поэтому будут разрабатываться более сложные и эффективные технологии обеспечения безопасности данных.
Увеличение роли облачных технологий
позволяют хранить и обрабатывать большие объемы данных без необходимости владения собственной инфраструктурой. Соответственно, удешевление поможет сделать Big Data более доступной для малых и средних предприятий.
Сама по себе Big Data — не панацея, добавляет Филипп Вольнов. «Фактор, который часто недооценивают — чистота данных. Если в различных источниках хранится информация, которая противоречива или не может быть «склеена», то «картинка» в отчетах будет отличаться от действительности. Поэтому компаниям приходится вкладывать деньги в такие инструменты как CDP, которые отвечают за автоматическую дедупликацию («склеивание») и очистку данных», — говорит эксперт.
Другая сложность — правильная интерпретация Big Data, продолжает маркетолог. Например, продуктовые рекомендации одного большого ретейлера утверждали, что самый популярный продукт среди клиентов — целлофановый пакет за три рубля, поэтому его надо советовать в качестве сопутствующего товара абсолютно всем. В данном случае, говорит Филипп Вольнов, получаемые данные не были должным уровнем обработаны, что привело к неправильным выводам.
7 нояб. 2023 г.
Время чтения: Около 4 мин.
Недавно мы с вами познакомились с основными понятиями Big Data, сегодня мы расскажем вам какие технологии и профессии ними связаны, приведем примеры их использования в реальной жизни и выясним, что общего у больших данных и Data Science.
Большие данные (англ. Big Data) — это огромные массивы разнообразной информации, которые требуют применения специальных подходов для работы с ними. Отличительные черты больших данных — колоссальные объемы, высокая скорость обновления и многообразие форматов. Для эффективной работы с ними нужны передовые технологии и методы сбора, хранения, обработки и анализа и, конечно же, квалифицированные кадры.
* Подробнее читайте в статье Big Data: основные понятия.
Анализ больших данных позволяет миру получать ценные знания, осуществлять научные открытия, улучшать бизнес-процессы, разрабатывать новые лекарства, продукты и услуги.
Главная цель специалиста по большим данным — превратить огромные массивы raw data в smart data, несущие стратегическую ценность для бизнеса и общества.
Где и для чего применяется аналитика больших данных
Аналитика больших данных активно используется в самых разных сферах, но мы вам расскажем об основных.
Медицина
Также Big Data пользуются технологические и транспортные компании, финансовые учреждения и государственные органы, и даже создаются отдельные компании по аналитике данных.
Примеры использования Big Data
Для того, чтобы вам не было скучно, давайте рассмотрим реальные примеры из разных сфер.
Сфера науки
Big Data и Data Science — это два термина, которые часто используются в связи с анализом данных. Однако эти термины не являются синонимами и имеют различные значения и области применения.
Big Data — это данные, а Data Science — это наука о данных. Big Data является объектом изучения и применения Data Science.
Однако Data Science может работать не только с Большими данными, но и с любыми другими данными. А Big Data могут быть проанализированы не только с помощью Data Science, но и с помощью других методов и технологий. — Вот такая вот загадка!
Кто работает с большими данными
Работа с большими данными требует навыков в сфере ИТ, математики, статистики и машинного обучения.
Специалисты по большим данным
* Описание профессий смотри в Путеводителе по профессиям Data Science.
Погрузимся в мир Big Data, изучим основные этапы работы с ними и методы анализа.
Big Data, или большие данные, стали жизненно важной частью многих отраслей, включая IT, здравоохранение, финансы, науку и исследования, и многое другое. Сегодня мы погрузимся в разнообразный мир работы с большими данными, изучим основные этапы и методы анализа.
Откуда берется Big Data 🌐
Первое, что нужно понять — это откуда берутся эти «большие данные». Big Data может прийти с множества источников, включая социальные медиа, транзакции, медицинские записи и многое другое. Подробнее об источниках и методах сбора Big Data вы можете узнать в этой статье.
Этапы работы с Big Data 📊
Работа с большими данными включает в себя несколько ключевых этапов:
Методы анализа Big Data 🧪
Анализ больших данных — это процесс извлечения полезной информации из больших наборов данных. Существуют различные методы анализа, включая статистический анализ, машинное обучение, текстовый анализ и многое другое.
Конкретный метод анализа зависит от целей и доступных данных. Например, статистический анализ может использоваться для выявления трендов и шаблонов в данных, в то время как машинное обучение может использоваться для прогнозирования будущих тенденций.