Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

KDD – трансформация данных

⇐ ПредыдущаяСтр 4 из 10Следующая ⇒

Трансформация данных – последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее.

4) KDD – Data Mining (задачи)

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других.

Рассмотрим технологию постановки задачи:

Первоначально, задача ставится следующим образом:

§ имеется достаточно крупная база данных;

§ предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Что означает «скрытые знания»? Это должны быть обязательно знания:

§ ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

§ нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

§ практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;

§ доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Рассмотрим понятие Data mining и базы данных:

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.[3]

Рассмотрим понятие Data mining и статистика:

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.

Рассмотрим понятие Data mining и искусственный интеллект:

Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают:

§ ассоциативные правила;

§ деревья решений;

§ кластеры;

§ математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта». Задачи, решаемые методами Data Mining, принято разделять на:

§ описательные (англ. descriptive);

§ предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

1. Поиск ассоциативных правил или паттернов (образцов).

2. Группировка объектов или кластеризация.

3. Построение регрессионной модели.

К предсказательным задачам относятся:

1. Классификация объектов (для заранее заданных классов).

2. Построение регрессионной модели.

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных.

Выделяется типичный ряд этапов решения задач методами Data Mining:

1. Формирование гипотезы;

2. Сбор данных;

3. Подготовка данных (фильтрация);

4. Выбор модели;

5. Подбор параметров модели и алгоритма обучения;

6. Обучение модели (автоматический поиск остальных параметров модели);

7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;

8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

Рассмотрим основные этапы подготовки данных:

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных. Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными. Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных. Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.

Задачи решаемые методами Data Mining:

· Классификация – это отнесение объектов к одному из заранее известных классов.

· Регрессия – установление зависимости непрерывных выходных переменных от входных значений.

· Кластеризация – объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры.

· Ассоциация – нахождение зависимости, что из события X следует событие Y.

· Последовательные шаблоны – установление закономерностей между связанными во времени событиями.

Можно говорить еще и о задаче анализа отклонений – выявления наиболее нехарактерных шаблонов.

Применение Data Mining в экономике:

· Классификация – отнесение клиента к определенной группе риска, оценка перспективности клиентов

· Регрессия – прогнозирование продаж, эластичность спроса

· Кластеризация – сегментация клиентской базы, анализ продуктовой линейки

· Ассоциация – кросс-продажи, стимулирование спроса

· Последовательные шаблоны – предсказание спроса, оптимизация закупок

Рассмотрим Data Mining – алгоритмы:

Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining.[4] Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining – главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒

Date: 2015-07-11; view: 3888; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (1.961 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию