Отзывы о книге Разработка бизнес-аналитики в Microsoft SQL Server 2005

Отзывы о книге Разработка бизнес-аналитики в Microsoft SQL Server 2005 Аналитика

Таблица 1. основные элементы системы интеллектуальной обработки данных и связанные с ними компоненты microsoft sql server 2000 и sql server 2005 bi-компонент sql server 2000 sql server 2005

BI-компонент SQL Server 2000 SQL Server 2005 
Извлечение, преобразование и загрузка данных (ETL – Extract, Transformation, and Load)Data Transformation Services (DTS)SQL Server 2005 Integration Services
Реляционное хранилище данныхРеляционная база данных SQL Server 2000Реляционная база данных SQL Server 2005
Многомерная база данныхSQL Server 2000 Analysis ServicesSQL Server 2005 Analysis Services
Извлечение данных (Data Mining)SQL Server 2000 Analysis ServicesSQL Server 2005 Analysis Services
Управляемая система отчетностиSQL Server 2000 Reporting ServicesSQL Server 2005 Reporting Services
Система пользовательских отчетов SQL Server 2005 Reporting Services
Пользовательские запросы и анализПродукты Microsoft Office (Excel, Office Web Components, Data Analyzer, SharePoint Portal)Продукты Microsoft Office (Excel, Office Web Components, Data Analyzer, SharePoint Portal)
Инструменты разработки баз данныхSQL Server 2000 Enterprise Manager, Analysis Manager, Query Analyzer и т. д.SQL Server 2005 Business Intelligence Development Studio (новый инструмент)
Инструменты управления базами данныхEnterprise Manager, Analysis ManagerSQL Server Management Studio (новый инструмент)
Дополнительный анализ:  Консультация налогового юриста

Для решения задач BI в SQL Server 2000 служили несколько автономных инструментов, имевших непохожие пользовательские интерфейсы и не полностью соответствовавших современным стандартам разработки ПО. Поэтому в версии 2005 их заменили два новых инструмента на базе интегрированной среды Visual Studio 2005 IDE.

Пакету BI Development Studio (рис. 2) отводится основная роль в создании BI-решений, он полностью реализует функциональность Analysis Manager 2000, добавляя к ней возможности загрузки и преобразования информации, управления отчетами и извлечения знаний (табл. 2).

Визуальный инструмент управления базами данных SQL Server Management Studio соединил в себе функциональность Enterprise Manager, Query Analyzer, Analysis Manager и некоторых средств администрирования, имевшихся в версии 2000, добавляя к ним новые возможности Reporting Services, Notification Services, XML и SQL Server 2005 Mobile Edition.

Повышение производительности, масштабируемости и доступности достигнуто с помощью новых технологий, таких, как Snapshot Isolation, Database Mirroring, Database Snapshots, Service Broker. Для хранения конфиденциальной информации применяются средства шифрования баз данных.

Нужно сказать, что все основные компоненты BI-платформы Microsoft появились в том или ином виде еще в составе SQL Server 2000. Хронологически последним из них стал набор служб управления отчетами – это произошло в начале 2004 г. Фактически уже тогда он создавался с прицелом на версию SQL Server 2005 и поэтому в целом претерпел в новом варианте наименьшие изменения (описание версии 2000 – см.

статью “Средства создания отчетов Microsoft”, “BYTE/Россия” N 3’2004): в основном это более развитая интеграция с другими BI-службами, расширение возможностей пользователей, повышение интерактивности. Кроме того, нужно подчеркнуть, что Reporting Services имеют более высокий уровень автономности по сравнению с другими компонентами СУБД, эти службы могут работать с данными из разных источников, включая интерфейсы ODBC и OLE DB; таким образом, они оказываются совместимы с практически любой ИТ-архитектурой и могут бесшовно встраиваться в приложения. Именно поэтому Microsoft SQL Server Reporting Services часто распространяется и применяется как отдельный продукт.

Дополнительный анализ:  Налоговые споры актуальность

Microsoft office пополняется функциями бизнес-аналитики

В начале сентября 2005 г. компания Microsoft объявила о внутренней реорганизации, в рамках которой, в частности, ранее автономные направления Information Worker (настольные приложения) и Microsoft Business Solutions (деловой софт) будут сведены в единое подразделение Microsoft Business Division.

А спустя полтора месяца корпорация сообщила о важном шаге, нацеленном на технологическую интеграцию этих двух групп продуктов в рамках решения задач бизнес-аналитики (Business Intelligence, BI), актуальность которых для повышения эффективности управления предприятиями сегодня сложно переоценить.

Свою серверную BI-платформу (OLAP-технологии, средства управления отчетами, загрузка и преобразование данных и т. п.) Microsoft строит на базе SQL Server в качестве универсального хранилища данных. Теперь же корпорация намерена существенно повысить роль в этом направлении и своих офисных продуктов, на которые возлагаются в основном задачи доставки необходимой бизнес-информации до конкретных рабочих мест.

В настоящее время объявлены некоторые планы, касающиеся продуктов Office 12 Excel и Office 12 SharePoint, которым отводится главная роль в деле интеграции клиентских рабочих мест с SQL Server 2005. Приложение Excel уже давно стало одним из наиболее популярных OLAP-клиентов.

В Office 12 Excel будут усилены средства взаимодействия между электронными таблицами и внешними источниками данных, а также улучшены возможности детализированного анализа исходных данных. В числе его новых функций будут полная поддержка работы SQL Server 2005 Analysis Services (рис. 4), модернизированные средства сортировки и фильтрации информации, расширенный состав методов визуализации данных, а также более широкие возможности обобщенного анализа с помощью средств PivotTables и PivotCharts.

На продукты и технологии SharePoint возлагаются функции реализации портала для доступа ко всем BI-данным, в том числе к службам SQL Server Reporting Services и Excel Services. Новое поколение SharePoint будет строиться на более широком применении персональной настройки пользовательского интерфейса с помощью технологии DashBoards (приборная панель управления) без написания дополнительного кода.

Но Office 12 – это еще только планы (пакет должен появиться во второй половине 2006 г.). А вот более конкретный шаг в направлении развития бизнес-средств – выход нового серверного решения в составе офисного семейства, Microsoft Office Business Scorecard Manager (MOBSM) 2005 (рис. 5).

Этот продукт, ранее известный под кодовым именем Maestro, позволит организациям (точнее, лицам, принимающим решения) лучше оценивать эффективность работы своих информационных и деловых систем с точки зрения общего бизнеса компании, используя методы “таблицы кадров” (scorecards, получение последовательных “снимков” состояния системы) и анализа ключевых параметров производительности (KPI, key performance indicators).

Аналитические сервисы

SQL Server 2005 Analysis Services (AS 2005) состоит из двух основных дополняющих друг друга функциональных частей – On-Line Analytical Processing (OLAP) и Data Mining.

Среди компонентов BI 2005 наибольшему обновлению по сравнению с версией 2000 подверглись OLAP-средства, что вполне естественно, так как другие средства были выпущены позднее. Ниже мы рассмотрим основные архитектурные изменения OLAP-механизмов (рис. 3).

В OLAP 2000 работа с кубами базировалась исключительно на применении реляционных звездообразных схем в качестве источника данных. AS 2005 с помощью нового механизма Data Source View (DSV) может представлять структуру кубов в виде атрибутивных схем. Это повышает гибкость обработки данных, в том числе дает возможность отслеживать обратные связи между кубами и рабочими базами данных. В то же время DSV позволяет работать со структурами кубов без их непосредственного соединения с источниками данных.

OLAP 2005 использует новую технологию Unified Dimensional Model (UDM), которая представляет собой комбинированный механизм доступа к реляционным БД и многомерным OLAP-кубам. Ее применение снимает традиционное различие между организацией работы с OLAP-данными и стандартными отчетами. Среди новшеств UDM можно выделить следующие функции.

Управление размерностями на базе атрибутов. В OLAP 2000 можно было использовать только одну иерархическую структуру управления размерностями, что ограничивало, в частности, возможности анализа данных в различных разрезах. В OLAP 2005 модель размерностей может быть простым набором атрибутов, не обязательно связанных иерархическими связями.

Это позволяет динамически создавать нужные комбинации данных. Например, размерность “Пользователь” может включать десятки демографических параметров, которые представляются в виде различных иерархий: например, Страна-Область-Город или Город-Возраст-Пол.

Сложные типы размерностей. В то время как в OLAP 2000 все размерности должны были быть структурированы в виде звездообразных или родительских схем, OLAP 2005 дополнительно поддерживает в качестве размерности такие типы, как роли, ссылки и множественные связи.

“Перспективы”. Новые архитектурные возможности OLAP 2005 позволяют создавать кубы сложной структуры, навигация по ним становится трудной и не очень удобной. Эта проблема решается с помощью “перспектив” (Perspectives) – именованных групп размерностей и мер, которые позволяют создавать различные варианты представления одного и того же куба для разных категорий пользователей.

Группы мер. В OLAP 2005 несколько разнородных таблиц допустимо объединить в единый куб, с которым можно работать с помощью коллекций мер, в том числе совместно с перспективами.

OLAP 2000 поддерживает вычисление и кэширование как на сервере, так и на клиенте. Новая версия выполняет эти операции только на серверной стороне. Microsoft считает, что это упрощает задачи управления системой и ее интеграции с другими решениями. Кроме того, в AS 2005 включено несколько новых утилит для автоматизации операций конфигурирования и развертывания (при развертывании AS 2000 на различных аппаратных платформах требовалось ручное управление настройками источников данных и кубов).

Модель программирования AS 2005 также включает широкий набор новых и модернизированных функций. Существенно упрощена вычислительная модель, которая теперь позволяет применять MDX-скрипты (MultiDimentions eXpression). Помимо упрощения собственно программирования и улучшения контроля доступа к данным, это дает возможность пошаговой отладки, чего в предыдущих версиях не было. Результаты расчетов можно кэшировать для повышения скорости обработки последующих запросов.

В AS 2000 хранимые процедуры должны были быть оформлены в виде COM-классов, в новой версии они могут быть написаны на любом CLR-языке для выполнения в среде .NET Framework. Для таких обычных, но создающих немало проблем операций, как конвертация валют, преобразование единиц измерения и т. п., можно использовать BI-мастер и шаблоны вычисляемых мер. Программируемые BI-объекты допускается создавать с помощью технологий Analysis Management Objects.

При использовании AS 2000 разработчики почти не имели возможностей получать низкоуровневую информацию о событиях, происходящих на AS-сервере. AS 2005 проводит трассировку событий, и эти данные могут использоваться для мониторинга и анализа с помощью SQL Server Profiler.

Программирование пользовательского интерфейса AS 2005 выполняется с помощью специализированного языка разметки XML for Analysis. AS 2005 включает механизм перевода, который позволяет представлять один и тот же куб на разных национальных языках.

В Analysis Services 2005 существует также система ключевых показателей производительности (Key Performance Indicator, KPI), с помощью которой можно определить на сервере вычисления, необходимые для оценки эффективности бизнеса. Эти KPI могут выводиться в отчетах, порталах и электронных досках сообщений, с помощью API доступа к данным и инструментов Microsoft и сторонних производителей.

Извлечение данных

Microsoft SQL Server 2005 Data Mining – это технология интеллектуальной обработки данных, которая помогает создавать сложные аналитические модели и интегрировать их в бизнес-процессы (табл. 3). SQL Server 2005 поставляется с самыми популярными алгоритмами извлечения данных, состав которых может быть расширен за счет встраивания алгоритмов независимых разработчиков.

Алгоритм деревьев принятия решений от Microsoft (Microsoft Decision Trees) часто выступает в качестве начальной точки исследования данных. В основе своей это алгоритм классификации, и он хорошо работает для прогнозирования и дискретных, и непрерывных атрибутов.

Когда алгоритм строит модель, он смотрит на то, как каждый входной атрибут в наборе данных влияет на результат прогнозируемого атрибута. Цель его – найти комбинацию входных атрибутов и их состояний, которая позволит прогнозировать значение прогнозируемого атрибута.

Алгоритм Naive Bayes от Microsoft быстро строит модели добычи данных, которые можно использовать для классификации и прогнозирования. Алгоритм рассчитывает вероятность, с которой каждое возможное состояние входного атрибута приводит к каждому состоянию прогнозируемого атрибута.

Алгоритм поддерживает только дискретные (не непрерывные) атрибуты и считает, что все входные атрибуты влияют на прогнозируемый атрибут независимо друг от друга. Поскольку алгоритм Naive Bayes работает очень быстро, он популярен в фазе начального исследования данных для решения проблем как классификации, так и прогнозирования.

Алгоритм кластеризации от Microsoft (Microsoft Clustering) использует итеративный процесс для группировки строк из набора данных в кластеры, содержащие строки с одинаковыми характеристиками. Используя кластеры, можно исследовать данные для нахождения взаимосвязей. Можно также делать прогнозы на основе кластерной модели.

Алгоритм поиска ассоциаций от Microsoft (Microsoft Association) основан на алгоритме a priori и обеспечивает эффективный метод нахождения корреляций в больших наборах данных. В основном он используется для анализа набора приобретаемых товаров (market basket analysis).

Алгоритм поиска ассоциаций двигается в цикле по транзакциям в базе данных для нахождения товаров, которые с наибольшей вероятностью появятся вместе в транзакции одного покупателя. Такие товары группируются в наборы товаров, и генерируются правила, которые потом можно использовать для прогнозирования.

Любой реляционный или OLAP-анализ, который выполняет множество операций distinct counting, будет хорошим кандидатом для анализа ассоциаций. Алгоритм поиска ассоциаций от Microsoft чувствителен к выбору параметров алгоритма, поэтому для небольших задач алгоритм деревьев принятия решений может лучше подойти для анализа набора приобретаемых товаров.

Алгоритм последовательной кластеризации от Microsoft (Microsoft Sequence Clustering) сочетает в себе анализ последовательности операций с кластеризацией для исследования данных и прогнозирования. Модель последовательной кластеризации чувствительна к последовательности возникновения событий.

Кроме того, алгоритм кластеризации учитывает другие атрибуты при группировке строк по кластерам, что дает возможность создать модель, в которой есть корреляция между последовательной и непоследовательной информацией. Алгоритм последовательной кластеризации используется для анализа маршрута перемещения пользователя по страницам при анализе трафика Web-сайта, для выяснения того, какие страницы сайта больше всего связаны с продажей определенного товара, и прогнозирования, какие следующие страницы сайта посетит пользователь.

Алгоритм временных рядов от Microsoft (Microsoft Time Series) создает модели, которые можно использовать для прогнозирования одной или нескольких постоянно изменяющихся переменных, таких, как цена акции. При прогнозировании алгоритм основывается исключительно на трендах, полученных из обучающих данных при создании модели.

Алгоритм временных рядов использует методику AutoRegression Trees, очень прост в использовании и генерирует модели с высокой точностью прогнозирования. Существует целое направление статистического анализа, посвященное временным рядам. Большинство других продуктов для извлечения данных предоставляют множество методик, таких, как ARMA, ARIMA и Box-Jenkins, и статистик должен выбрать из них тот, который лучше всего соответствует модели.

Алгоритм нейронной сети от Microsoft (Microsoft Neural Net), как и алгоритмы деревьев принятия решений и Naive Bayes, в основном используется для исследования данных, классификации и прогнозирования. Алгоритм нейронной сети – это методика искусственного интеллекта, которая исследует все возможные взаимосвязи между данными.

Интегрированная платформа управления данными

Microsoft SQL Server 2005 представляет собой высокопроизводительную масштабируемую многофункциональную платформу для обработки информации и создания приложений, имеющих дело с интеллектуальными ресурсами предприятия. Платформа построена вокруг ядра, обеспечивающего работу реляционной базы данных, и включает большое число сервисов.

В SQL Server 2005 входят следующие основные компоненты.

Реляционная база данных (Relation Database): безопасное, надежное, масштабируемое, высокодоступное ядро с улучшенной производительностью. Позволяет работать как со структурированными, так и с неструктурированными (XML) данными, обеспечивает поддержку .NET CLR (создание хранимых процедур, функций и триггеров на управляемом коде) и ADO.

Сервисы репликаций (Replication Services): репликация данных для распределенных и мобильных приложений обработки данных, высокая доступность систем, масштабируемый параллелизм со вторичными хранилищами данных для отчетных решений предприятия и интеграция с разнородными системами, включая существующие базы данных Oracle.

Сервисы нотификаций (Notification Services): развитые возможности уведомлений для разработки и внедрения масштабируемых приложений, способных доставлять персонализированные, своевременные обновления информации множеству соединенных и мобильных устройств.

Сервисы интеграции (Integration Services): извлечение, преобразование и загрузка для хранилищ данных и интеграции данных в масштабе предприятия.

Аналитические сервисы (Analysis Services): аналитическая обработка в реальном времени (OLAP) для быстрого сложного анализа больших и смешанных наборов данных, использующая многомерное хранение, а также решение задач Data Mining.

Сервисы отчетов (Reporting Services): исчерпывающее решение для создания, управления и доставки как традиционных бумажных отчетов, так и интерактивных, основанных на технологии WWW.

Инструменты управления: средства развитого управления и настройки баз данных, а также тесная интеграция с такими инструментами, как Microsoft Operations Manager (MOM) и Microsoft Systems Management Server (SMS). Стандартные протоколы доступа к данным существенно уменьшают время, необходимое для интеграции данных SQL Server с существующими системами. Кроме того, встроена поддержка Web-сервисов для взаимодействия с другими приложениями и платформами.

Инструменты разработки: SQL Server предлагает интегрированные инструменты разработки для ядра базы данных, извлечения, трансформации и загрузки данных, OLAP и отчетности, которые тесно интегрированы с Microsoft Visual Studio, предоставляя сквозные возможности разработки приложений.

Курс сертифицированный разработчик баз и хранилищ данных по проектированию бизнес – аналитики на sql server 2021 в «специалист»

Код курса: ДП-СКЛБИАЙ

Вы хотите стать разработчиком баз и хранилищ данных, но не знаете, как подступиться к интересующей Вас позиции?

Дипломная программа «Сертифицированный разработчик баз и хранилищ данных по проектированию бизнес-аналитики на SQL Server 2021» позволит Вам войти в профессию, обладая лишь базовыми знаниями по основам программирования и базам данных.

Правильное управление данными становится всё более важным условием успеха каждой компании. Потребности бизнеса меняются: растет необходимость в специалистах, обладающих глубокими знаниями по работе с базами данных.

Microsoft SQL Server – это современная универсальная платформа для реализации полного цикла управления данными, разработки бизнес-приложений и проектов бизнес-аналитики различного уровня.

SQL Server позволяет анализировать большие объемы информации, моделируя и отслеживая результаты принятия тех или иных решений.

Востребованность данных как актива только растет, поэтому разработчик баз и хранилищ данных – это одна из самых востребованных позиций в ИТ с самыми низкими показателями безработицы и стабильно растущими зарплатами. Успех в карьере database developer’а часто зависит от уровня владения конкретными платформами (в частности, SQL Server), поэтому грамотным решением будет подтвердить свой профессионализм сертификатом. Укрепить свой успех можно, освоив систему бизнес-аналитики для дальнейшего развития в BI-архитектора или разработчика.

Разработчики баз и хранилищ данных занимаются созданием баз данных, их отладкой, оптимизацией и обслуживанием.

Разработчик баз данных должен уметь проектировать базы данных, составлять техническую документацию и отчеты по работе с БД, обеспечить безопасность хранения данных, понимать, как консультировать системных администраторов по вопросам работы с БД. Вместе со знанием систем бизнес-аналитики это целый набор soft и hard skills.

Дипломная программа «Сертифицированный разработчик баз и хранилищ данных по проектированию бизнес-аналитики на SQL Server 2021» спроектирована таким образом, чтобы дать Вам последовательные и полные знания для входа в одну из самых желаемых ИТ-профессий.

Программа состоит из 6 курсов:

Каждый курс этой дипломной программы является авторизованным. Это значит, что после каждого курса, помимо документа об окончании дипломной программы по завершении обучения, Вы получите международный сертификат специалиста от Microsoft.

После ряда курсов дипломной программы Вы будете обладать достаточными знаниями, чтобы сдать авторизованные экзамены и получить сертификации Microsoft.

Центр «Специалист» при МГТУ им.Баумана – участник партнерской программы Microsoft Learning Partner, обладатель статуса Золотой партнер по обучению Microsoft.
За последние 12 лет выпускниками авторизованных курсов Microsoft в Центре стали более 55 000 специалистов, в том числе сотрудники представительства Microsoft и ведущих IT-компаний России (CROC, IBS, Technoserv A/C, Compulink и др.).

Обучение на курсах Microsoft в «Специалисте» – это гарантия качества обучения, актуальных знаний и навыков непосредственно от вендора!

Записывайтесь на дипломную программу уже сейчас «Сертифицированный разработчик баз и хранилищ данных по проектированию бизнес – аналитики на SQL Server 2021» и сделайте шаг к новым карьерным перспективам!

*часы самостоятельной работы в рамках программы (проработка материала, выполнение ДЗ)

Дипломные программы в «Специалисте» это:

  1. Новая современная профессия
    Наши дипломные программы дадут вам комплекс актуальных знаний и навыков, чтобы построить карьеру в новом, перспективном направлении.
  2. Комфортное расписание
    Вы сами выбираете интенсивность обучения, решаете, когда начать обучение, и можете перенести некоторые курсы, если обстоятельства изменились.
  3. Помощь и поддержка во время обучения
    На время обучения вам назначается куратор, к которому можно обращаться для решения вопросов по обучению – от старта до диплома.
  4. Живое общение с единомышленниками
    В процессе обучения вы заведете новые знакомства, будете обмениваться опытом, полезными контактами и поддерживать общение с коллегами и преподавателями.
  5. Престижные документы, которым доверяют
    По окончании обучения вы получите диплом о профессиональной переподготовке и международные сертификаты, подтверждающие высокую квалификацию. Документы «Специалиста» высоко ценят ведущие компании России и мира.
  6. Доступ к записям и учебным материалам
    В течение 6 месяцев после обучения у вас будет к доступ к записям занятий и семинаров центра, и бессрочный доступ ко всем учебным материалам по курсу.
  7. Помощь в трудоустройстве
    По окончании обучения вы можете получить бесплатную индивидуальную консультацию по трудоустройству и получать приглашения на Дни карьеры, которые мы организуем для наших выпускников.
  8. Менторская поддержка
    По завершении программы вы можете получить 3 бесплатные консультации по теме пройденного курса. Наши преподаватели – практикующие эксперты с реальным опытом, многие консультируют крупнейшие компании индустрии.
  9. Программа обновления знаний «Диплом ПЛЮС»
    В течение 6 месяцев после окончания дипломной программы вы можете пройти любые курсы в «Специалисте» в онлайн-формате со скидкой 50%*

Учитесь у лучших! Получите новую современную профессию в «Специалисте»!

В зависимости от программы обучения выдаются следующие документы:

*Для получения удостоверения вам необходимо предоставить копию диплома о высшем или среднем профессиональном образовании.

По окончании каждого отдельного курса, входящего в Дипломную программу, в личном кабинете слушателя формируются электронные сертификаты об обучении по каждому отдельному курсу. По окончании обучения по Дипломной программе выпускнику выдается Диплом о профессиональной переподготовке установленного образца.

Обязательно уточняйте перед заключением договора, какой документ Вам будет выдан после окончания обучения!

Все документы Центра

§

§

§

§

Новинки книг

  • Максим Сонин - Двоица
  • Стивен Кинг - Позже
  •  - Неудобные разговоры. Как общаться на невыносимо трудные темы
  • Кристина Двойных - Дилемма выжившего
  • Виктор Пелевин - Transhumanism inc.
  • Янина Волкова - Дети луны, дети солнца
  • Тьерри Коэн - И в беде мы полюбим друг друга
  •  - Как раскрыть убийство. Истории из практики ведущих судмедэкспертов Великобритании
  • Полина Граф - Монструм
  • Таня Свон - Вкус памяти
  • Наталия Семенова - Проданные сокровища России: История распродажи национальных художественных сокровищ
  • Александр Пензенский - Улыбки уличных Джоконд
  • Сосукэ Нацукава - Кот, который любил книги
  • Ёко Тавада - Мемуары белого медведя
  • Алекс Михаэлидес - Девы
  • Мария Метлицкая - Мандариновый лес
  • Ульяна Черкасова - Сокол и Ворон
  • Татьяна Лакизюк - Хроники Драгомира. За гранью сияния
  • Ана Шерри - Грация королевы небес: тайна Марко
  • Сьюзен Хилл - Саквояж с мотыльками. Истории о призраках (сборник)
  • Варвара Еналь - Варта. Та, кто задает вопросы
  • Артур Шопенгауэр - Искусство быть счастливым
  • Триша Левенселлер - Клинок тайн
  • Ричард Роуэн - Три тысячелетия секретных служб мира. Заказчики и исполнители тайных миссий и операций
  • Сергей Лукьяненко - Семь дней до Мегиддо

Популярные книги

  • Трейси Вульф - Искушение
  • Эмма Скотт - Свет между нами
  • Алексей Иванов - Тени тевтонов
  • Сара Гудман - Поцелуй сумрака
  • Дана Делон - Под небом Парижа
  • Ава Рид - Тишина моих слов
  • Карен Макквесчин - Лунное дитя
  • Кадзуо Исигуро - Клара и Солнце
  • Антонина Крейн - Шолох. Академия Буря
  • Алекс Хилл - Передружба. Недоотношения
  • Стелла Так - Кровь богов
  •  - Герои книг на приеме у психотерапевта. Прогулки с врачом по страницам литературных произведений
  • Мара Вульф - Сестра ночи
  • Лия Арден - Мара и Морок. 500 лет назад
  • Чжоу Хаохуэй - Письма смерти
  • Евлахова Анастасия - Красавица
  • Мара Вульф - Сестра звёзд
  • Кристина Старк - Аспид
  • Хосе Карлос Сомоса - Этюд в черных тонах
  • Джордан Ривет - Художница проклятий
  • Эмма Скотт - Стань моим завтра
  • Анастасия Гор - Ковен озера Шамплейн
  • Лин Рина - Книжные хроники Анимант Крамб
  • Со Миэ - Единственный ребенок
  • Полина Граф - Монструм

Реляционные хранилища данных

В отличие от так называемых оперативных баз данных, с которыми работают приложения, модифицирующие данные, проектирование реляционных хранилищ данных обычно подразумевает требование минимального времени выполнения запросов на чтение (тогда как у оперативных баз данных чаще всего минимизируется время выполнения запросов на изменение данных).

Типичная структура хранилища данных существенно отличается от структуры обыкновенной реляционной СУБД и, как правило, не имеет никакого отношения к третьей нормальной форме. Обычно эта структура денормализована (это позволяет повысить скорость выполнения запросов) и может допускать избыточность данных (рис. 1).

Рис. 1. Пример структуры хранилища данных

Основными составляющими структуры хранилищ данных являются таблица фактов (fact table) и таблицы измерений (dimension tables).

Таблица фактов (в примере на рис. 1 она называется Sales_Fact) является основной таблицей хранилища данных. Как правило, она содержит сведения об объектах или о событиях (в данном примере — о фактах продаж), совокупность которых будет в дальнейшем анализироваться.

Обычно такая таблица содержит уникальный составной ключ, объединяющий первичные ключи таблиц измерений. Чаще всего это целочисленные значения либо значения типа «дата/время» — ведь таблица фактов может содержать сотни тысяч или даже миллионы записей, поэтому хранить в ней повторяющиеся текстовые описания, как правило, невыгодно.

Отметим, что в таблице фактов отсутствуют сведения о том, как группировать записи при вычислении агрегатных данных. Эти сведения содержатся в таблицах измерений.

Таблицы измерений содержат неизменяемые либо редко изменяемые данные. Таблицы измерений содержат как минимум одно описательное поле и, как правило, целочисленное ключевое поле (обычно суррогатный ключ). Нередко таблица измерений может содержать и поля, указывающие на дополнительные атрибуты, имевшиеся в исходной оперативной базе данных, или на атрибуты, ответственные за группировку ее собственных данных. Каждая таблица измерений должна находиться в отношении «один ко многим» с таблицей фактов.

Различают две оcновные разновидности схем данных для подобных хранилищ — «звезда» (таблицы измерений связаны только с таблицей фактов) и «снежинка» (хотя бы одна таблица измерений ссылается на таблицу, которая находится по отношению к ней в связи «один ко многим», — именно эта схема приведена на рис. 1).

Рынок бизнес-аналитики развивается

Сегмент средств бизнес-аналитики (Business Intelligence, BI) один из самых быстрорастущих сегодня на рынке ПО для управления предприятием. Объяснение этому вполне очевидно. С одной стороны, в условиях растущей конкуренции повышаются требования к обоснованности и оперативности принимаемых решений.

С другой – в ходе своей деятельности предприятия накапливают огромные объемы информации, которые содержат очень важные сведения для поиска путей повышения эффективности бизнеса, но “добыть” эти данные без механизмов интеллектуального анализа просто невозможно.

До конца прошлого века рынок BI-средств формировали в основном специализированные компании – Business Objects, Cognos, Hyperion, SAS и ряд других, которые делали акцент на собственно инструменты обработки данных. Однако классическим признаком “взросления” рынка считается момент, когда на него выходят поставщики платформенного ПО, которые начинают пополнять свои базовые решения дополнительными инструментами.

Такая конкуренция между поставщиками специализированного и платформенного ПО – очень характерный и интересный процесс. Сначала всегда создается впечатление, что первые не смогут выдержать напора гигантов рынка, но потом, после определенной перегруппировки (в том числе консолидации, слияния ряда игроков), оказывается, что бизнес вертикальных разработчиков продолжает успешно развиваться.

Объясняется это достаточно просто: ведь выход производителей базового ПО в специализированные сегменты означает не только усиление конкуренции, но и быстрое расширение самих этих рынков, рост числа пользователей, повышение спроса на новые, более эффективные технологии и т. п.

Тут нужно отметить, что показателем зрелости российского рынка можно считать повышение активности на нем местных разработчиков, которые всегда находят свои ниши в конкуренции с западными поставщиками. При этом здесь мы видим те же процессы, что и в мире.

Так, имеется группа компаний, которые сосредоточены на собственно BI-решениях. В качестве примера можно привести Intersoft Lab, которая уже давно занимается технологиями создания хранилищ данных и OLAP-обработки, и BaseGroup Lab, делающую акцент на интеллектуальные методы анализа информации.

Сервисы интеграции

Компонент SQL Server 2005 Integration Services (SSIS), хотя и выступает преемником DTS (Data Transformation Services) в SQL Server 2000, все же вполне может считаться нововведением. Integration Services был полностью переработан по сравнению с DTS, чтобы стать реальной ETL-платформой (Extract, Transformation, and Loading – извлечение, преобразование и загрузка данных) предприятия.

Архитектура Integration Services совмещает в себе ориентированный на операции механизм потока задач (task-flow) с масштабируемым и производительным механизмом потока данных (data-flow). Такое сочетание потоков задач и потоков данных позволяет эффективно применять Integration Services и в проектах с традиционными системами ETL, и в проектах создания хранилищ данных, а также в более сложных, например, в проектах центров данных.

Ядро Integration Services – конвейер преобразования данных, использующий буферную архитектуру, которая обеспечивает большую производительность при манипуляции наборами данных за счет загрузки их в память. Такой подход позволяет выполнять все шаги преобразования данных в ETL-системах как одну операцию, т. е. без получения промежуточных результатов.

Возможность обрабатывать данные без создания промежуточных результатов выходит за рамки традиционных реляционных данных и данных из плоских файлов, а также традиционных методов преобразования в системах ETL. В Integration Services все типы данных (структурированные, неструктурированные, XML и т. д.) непосредственно перед загрузкой в буферы приводятся к табличному виду (т. е. состоящему из столбцов и строк).

Все виды операций, которые применимы к табличному представлению данных, могут применяться к данным на любом шаге конвейера обработки данных. Это означает, что один конвейер обработки данных может объединять в себе множество различных источников данных и выполнять над этими данными сколь угодно сложные операции без создания промежуточных результатов.

Архитектура конвейерной обработки данных позволяет службам интеграции одновременно принимать данные из множества источников, проводить над ними сложные множественные преобразования, а затем одновременно выгружать данные во множество приемников. За счет этого SSIS можно использовать для работы не только с большими наборами данных, но и для сложных потоков данных.

Оцените статью
Аналитик-эксперт
Добавить комментарий