Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Принципы организации хранилища данных
Очевидно, что ключевым моментом в организации ХД являются данные, которые подразделяют на детальные, агрегированные и метаданные. Детальными данными являются данные, переносимые непосредственно из оперативных источников данных. Они соответствуют элементарным событиям, фиксируемым в OLTP-системах. Принято разделять все данные на измерения и факты. Измерениями называются наборы данных, необходимые для описания событий (например, города, люди, товары и т. п.). Фактами называются данные, отражающие сущность события (например, количество проданного товара, результаты эксперимента и т. п.). На основании детальных данных могут быть получены агрегированные данные, которые хранятся в ХД и используются при выполнении аналитических запросов. Эти данные получают путем суммирования числовых фактических данных по определенным измерениям. Для удобства работы с ХД необходима информация о содержащихся в нем данных. Такая информация называется метаданными (данные о данных). Метаданные должны отвечать на вопросы: − что (описание объектов) – метаданные описывают объекты предметной области, информация о которых хранится в ХД. Такое описание включает атрибуты объектов, их возможные значения, соответствующие поля в информационных структурах ХД, источники информации об объектах и т. п.; − кто (описание пользователей) – метаданные описывают категории пользователей, использующих данные, а также варианты доступных пользователям операций с данными (ввод, редактирование, загрузку, извлечение); − где (описание места хранения) – метаданные описывают месторасположение серверов, рабочих станций, оперативных источников данных, размещенные на них программные средства и распределение между ними данных; − как (описание действий) – метаданные описывают действия, выполняемые над данными, например, исправление ошибок, расщепление или слияние полей и т. п.; − когда (описание времени) – метаданные описывают время выполнения операций над данными; − почему (описание причин) – метаданные описывают причины, повлекшие выполнение операций над данными. Так как метаданные играют важную роль в работе ХД, то к ним должен быть обеспечен удобный доступ. Для этого они сохраняются в репозитории метаданных, который является неотъемлемой частью СППР и ХД. Репозиторий метаданных СППР на основе ХД предназначен не только для профессионалов, но и для пользователей, которым он служит в качестве поддержки при формировании бизнес-запросов. Развитая система управления метаданными должна обеспечивать возможность управления бизнес-понятиями со стороны пользователей, которые могут изменять содержание метаданных и образовывать новые понятия по мере развития бизнеса. Таким образом репозиторий превращается в обязательный компонент СППР и ХД. Опыт реализации систем управления метаданными показывает, что основная трудность состоит не в программной реализации, а в определении содержания конкретных метаданных и методики работы с ними. Когда структура метаданных разработана, и система управления ими спроектирована, решается задача заполнения и обновления данных в ХД. Данные, поступающие в хранилище и извлекаемые из него, образуют следующие информационные потоки. Входной поток образуется данными, копируемыми из оперативных источников данных (оперативных баз данных и внешних источников) в ХД. Поток обобщения формируется при агрегировании детальных данных и их сохранением в ХД. Архивный поток образуется перемещением детальных данных, обращение к которым снизилось в процессе функционирования ХД. Поток метаданных образуется потоком информации в репозиторий данных. Выходной поток – это данные, извлекаемые пользователями. Обратный поток образуется очищенными данными, которые могут записываться в оперативные базы данных после очистки. Самый мощный из информационных потоков – входной – связан с переносом данных из оперативных источников данных в ХД. В большинстве случаев информация не просто копируется, а подвергается обработке: данные очищаются, объединяются с данными из внешних источников, например, электронных таблиц текстовых файлов и т. д. Процесс переноса данных содержит три взаимосвязанные задачи: извлечение данных, преобразование данных, загрузка д анных, и получил название ELT-процесса (E – extraction (извлечение), T – transformation (преобразование), L – loading (загрузка)). Извлечение данных – процесс, состоящий в организации передачи данных из внешних источников в ХД. Он может быть достаточно сложной процедурой, включающей сортировку, устранение противоречивости, в том числе с помощью статистических методов, и другие виды обработки массивов. Преобразование данных – процесс, включающий в себя процедуры агрегирования данных, преобразование данных в требуемый формат и с требуемой регулярностью, а также очистку данных. Под термином очистка данных обычно понимается процесс модификации данных в ходе заполнения ХД: исключение нежелательных дубликатов, восстановление пропущенных данных, приведение данных к единому формату, удаление нежелательных символов (например, управляющих) и унификация типов данных, проверка на целостность. Загрузка данных – процесс записи преобразованных детальных и агрегированных данных, которые являются основой для проведения анализа и принятия решений.
Рис. 42. Обобщенная структура ХД
В общем виде ELT-процесс представлен на обобщенной структуре ХД (рис. 42). Date: 2015-09-23; view: 1229; Нарушение авторских прав |