Проектирование систем оперативного анализа данных
Современные системы поддержки принятия решений и информационные системы руководителей основаны на применении специализированных информационных хранилищ (ИХ) и технологий оперативного анализа данных (OLAP).
ИХ представляет собой базу обобщенной информации, формируемую из множества внешних и внутренних источников, на основе которой выполняются статистические группировки и интеллектуальный анализ данных. По сравнению с базами данных для оперативной обработки транзакций (транзакционных БД) ИХ обеспечивают более гибкое и простое формирование произвольных справочно-аналитических запросов, а также применение специализированных методов статистического и интеллектуального анализа данных.
В основе информационного хранилища лежит понятие многомерного информационного пространства или гиперкуба (рис. 9.2), в ячейках которого хранятся анализируемые числовые показатели (например, объемы оборота, издержек, инвестиций и т.д.). Измерениями (осями) гиперкуба являются признаки анализа (например, время, группа продукции, регион, тип процесса, тип клиента и др.). При хранении признаки анализа отделяются от фактических данных, образуя так называемую инвертированную организацию хранения данных или структуру данных типа «звезда».

Рис. 9.2. Многомерная организация информационного хранилища
К особенностям хранимой информации в ИХ относятся:
· интеграция или обобщение данных в ИХ из транзакционных баз данных по всем бизнес-процессам и структурным подразделениям предприятия в виде единого многомерного информационного пространства. Например, организуется хранение показателей объемов производства, сбыта, сервиса и т.д. в продуктовом, территориальном, отраслевом, временном и других разрезах;
· произвольность агрегации данных на основе отделения от фактических данных независимых и равноправных измерений информационного пространства (признаков анализа информации, разрезов) в виде иерархий агрегации. Например, региональный признак анализа представляется в виде иерархии агрегации: «область - район - город - село», временной признак «год - квартал - месяц - день» и т.д.;
· обязательное хранение временного признака в данных, дающего возможность отслеживать динамику изменения показателей в течение длительного периода времени;
· непротиворечивость данных во всех используемых источниках в течение определенного периода времени (например, дня), которая позволяет обеспечить единую точку зрения всех пользователей на экономическую систему;
· обеспечение множества представлений структуры информационного хранилища для различных категорий пользователей: руководителей, аналитиков, менеджеров направлений деятельности. Отбор набора показателей и признаков анализа определяет предметную ориентированность информационного хранилища или организацию витрин данных.
С технологической точки зрения к архитектуре ИХ предъявляются общие требования:
· Единообразно определенная структура многомерных данных с равноправными измерениями информационного пространства.
· Пользователь не должен знать о том, где хранятся данные, как они организованы и как обрабатываются.
· Поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер».
· Легкая адаптация к новым информационным потребностям путем добавления новых показателей и измерений.
· Автоматическое обновление информации из оперативных баз данных.
· Выполнение запросов без ограничений на количество измерений и уровней их агрегации примерно с одинаковым временем реакции на запрос.
· Удобный, «интуитивный» интерфейс пользователя, обеспечивающий простоту манипулирования данными.
Архитектура системы оперативного анализа данных представлена на рис. 9.3.

Рис. 9.3. Архитектура информационного хранилища
Многомерное хранилище данных может быть организовано в виде одной из следующих структур:
· физической структуры, называемой MOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов-источников, принадлежащих базам оперативных данных (например, один раз в день);
· виртуальной структуры, называемой ROLAP (Relational OLAP), которая динамически используется при запросах, вызывающих физическое манипулирование с файлами-источниками из реляционных баз оперативных данных (формирование ответа на запрос к ИХ «на лету»). ROLAP-система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя;
· гибридной структуры, называемой HOLAP (Hybrid OLAP), которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций.
Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархий агрегации измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.
Важнейшей функцией репозитория является представление схем отображения структуры данных файлов-источников на структуре данных ИХ, в соответствии с которой осуществляется периодическая загрузка MOLAP-хранилища или непосредственная реализация запросов «на лету» в ROLAP-хранилищах.
Подсистема загрузки ИХ создается только для MOLAP-систем. Для ROLAP-систем в процессе выполнения запросов осуществляется преобразование данных из файлов-источников. В том и другом случае требуется выполнение следующих основных функций:
· сбор данных (Data Acquisition);
· очистка данных (Data Cleaning);
· агрегирование данных (Data Consolidation).
Под витриной данных (Data Mart) понимается предметно-ориентированное хранилище, как правило, агрегированной информации, предназначенное для использования группой пользователей обычно из 10 - 15 человек в рамках конкретного вида деятельности предприятия, например маркетинга, инжиниринга, финансового менеджмента и т.д.
Как правило, витрины данных являются подмножествами общего хранилища компании, которое служит для них источником. В принципе витрины данных могут создаваться независимо друг от друга и общего хранилища, однако в этом случае возникает проблема согласования множества представлений данных. Обычно общее информационное хранилище и витрины данных разрабатываются параллельно.
Подсистема оперативного анализа, как правило, используется лицами, подготавливающими информацию для принятия решений, путем выполнения различных статистических группировок исходных данных.
В рамках пользовательского интерфейса для оперативного анализа данных используются следующие базовые операции.
· Поворот. Добавление нового признака анализа.
· Проекция. Выборка подмножества по задаваемой совокупности измерений. При этом значения в ячейках, лежащих на оси проекции, суммируются.
· Раскрытие. Осуществляется декомпозиция признака агрегации на компоненты, например, признак года разбивается на кварталы. При этом автоматически детализируются числовые показатели.
· Свертка. Операция, обратная раскрытию. При этом значения детальных показателей суммируются в агрегируемый показатель.
· Сечение. Выделение подмножества данных по конкретным значениям одного или нескольких измерений.
Подсистема интеллектуального анализа данных используется специальной категорией пользователей-аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования стратегических или тактических решений. Интеллектуальный анализ требует применения более сложных методов анализа по сравнению со статистическими группировками и выполняется путем проведения множества сеансов.
Информационная система руководителя предназначена для лиц, непосредственно принимающих решения. Поэтому интерфейс таких систем должен быть в наибольшей степени упрощенным. Обычно в качестве интерфейса руководителям предприятий предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню.
Подсистема WEB-публикации предполагает преобразование полученной из ИХ информации в HTML-вид, доступный для ее просмотра удаленными клиентами с помощью широко распространенных браузеров Интернета.
Контрольные вопросы к разделу 9
1. Что такое корпоративная (интегрированная) ЭИС
2. Что такое проблемная область
3. Три уровня модели проблемной области
4. Что понимается под клиент-серверной архитектурой? Что такое сервер и клиент?
5. Какие существуют варианты клиент-серверной архитектуры?
6. Что такое трехзвенная архитектура?
7. Почему трехзвенная архитектура позволяет повысить производительность и эффективность информационной системы?
8. Стандартные методы совместного доступа к базам и программам в сложных информационных системах (драйверы ODBC, DCOM и CORBA технологии)
9. Что такое драйверы ODBC?
10. Для чего предназначена DCOM-технология?
11. Для чего предназначена CORBA -технология?
12. Что такое репликация данных и какие существуют режимы ее осуществления?
13. Что представляет собой система оперативной обработки транзакций (OLTP-система)?
14. Каковы особенности создания систем управления рабочими потоками?
15. Каковы особенности создания Интернет-приложений?
16. Что представляет собой система оперативного анализа данных (OLAP-система)?
17. Каковы особенности организации информации в информационных хранилищах?
Date: 2016-07-25; view: 776; Нарушение авторских прав Понравилась страница? Лайкни для друзей: |
|
|