Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Принципы организации хранилища данных





Очевидно, что ключевым моментом в организации ХД являются данные, которые подразделяют на детальные, агрегированные и метаданные.

Детальными данными являются данные, переносимые непосредственно из оперативных источников данных. Они соответствуют элементарным событиям, фиксируемым в OLTP-системах. Принято разделять все данные на измерения и факты. Измерениями называются наборы данных, необходимые для описания событий (например, города, люди, товары и т. п.). Фактами называются данные, отражающие сущность события (например, количество проданного товара, результаты эксперимента и т. п.). На основании детальных данных могут быть получены агрегированные данные, которые хранятся в ХД и используются при выполнении аналитических запросов. Эти данные получают путем суммирования числовых фактических данных по определенным измерениям.

Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных). Метаданные должны отвечать на вопросы:

− что (описание объектов) – метаданные описывают объекты предметной области, информация о которых хранится в ХД. Такое описание включает атрибуты объектов, их возможные значения, соответствующие поля в информационных структурах ХД, источники информации об объектах и т. п.;

− кто (описание пользователей) – метаданные описывают категории пользователей, использующих данные, а также варианты доступных пользователям операций с данными (ввод, редактирование, загрузку, извлечение);

− где (описание места хранения) – метаданные описывают месторасположение серверов, рабочих станций, оперативных источников данных, размещенные на них программные средства и распределение между ними данных;

− как (описание действий) – метаданные описывают действия, выполняемые над данными, например, исправление ошибок, расщепление или слияние полей и т. п.;

− когда (описание времени) – метаданные описывают время выполнения операций над данными;

− почему (описание причин) – метаданные описывают причины, повлекшие выполнение операций над данными.

Так как метаданные играют важную роль в работе ХД, то к ним должен быть обеспечен удобный доступ. Для этого они сохраняются в репозитории метаданных, который является неотъемлемой частью СППР и ХД. Репозиторий метаданных СППР на основе ХД предназначен не только для профессионалов, но и для пользователей, которым он служит в качестве поддержки при формировании бизнес-запросов. Развитая система управления метаданными должна обеспечивать возможность управления бизнес-понятиями со стороны пользователей, которые могут изменять содержание метаданных и образовывать новые понятия по мере развития бизнеса. Таким образом репозиторий превращается в обязательный компонент СППР и ХД. Опыт реализации систем управления метаданными показывает, что основная трудность состоит не в программной реализации, а в определении содержания конкретных метаданных и методики работы с ними. Когда структура метаданных разработана, и система управления ими спроектирована, решается задача заполнения и обновления данных в ХД.

Данные, поступающие в хранилище и извлекаемые из него, образуют следующие информационные потоки. Входной поток образуется данными, копируемыми из оперативных источников данных (оперативных баз данных и внешних источников) в ХД. Поток обобщения формируется при агрегировании детальных данных и их сохранением в ХД. Архивный поток образуется перемещением детальных данных, обращение к которым снизилось в процессе функционирования ХД. Поток метаданных образуется потоком информации в репозиторий данных. Выходной поток – это данные, извлекаемые пользователями. Обратный поток образуется очищенными данными, которые могут записываться в оперативные базы данных после очистки. Самый мощный из информационных потоков – входной – связан с переносом данных из оперативных источников данных в ХД. В большинстве случаев информация не просто копируется, а подвергается обработке: данные очищаются, объединяются с данными из внешних источников, например, электронных таблиц текстовых файлов и т. д.

Процесс переноса данных содержит три взаимосвязанные задачи: извлечение данных, преобразование данных, загрузка д анных, и получил название ELT-процесса (E – extraction (извлечение), T – transformation (преобразование), L – loading (загрузка)). Извлечение данных – процесс, состоящий в организации передачи данных из внешних источников в ХД. Он может быть достаточно сложной процедурой, включающей сортировку, устранение противоречивости, в том числе с помощью статистических методов, и другие виды обработки массивов. Преобразование данных – процесс, включающий в себя процедуры агрегирования данных, преобразование данных в требуемый формат и с требуемой регулярностью, а также очистку данных. Под термином очистка данных обычно понимается процесс модификации данных в ходе заполнения ХД: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например, управляющих) и унификация типов данных, проверка на целостность. Загрузка данных – процесс записи преобразованных детальных и агрегированных данных, которые являются основой для проведения анализа и принятия решений.

 

Рис. 42. Обобщенная структура ХД

 

В общем виде ELT-процесс представлен на обобщенной структуре ХД (рис. 42).







Date: 2015-09-23; view: 1219; Нарушение авторских прав



mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию