Теория интеллектуального анализа данных

⇐ ПредыдущаяСтр 6 из 10Следующая ⇒

Рассмотрим основные этапы проекта интеллектуального анализа данных.

Есть несколько стандартных методологий разработки анализа в систематических DataMining. Некоторые из наиболее известными являются CRISP, промышленный стандарт, который состоит из последовательности шагов, которые обычно используются в изучении интеллектуального анализа данных. Другой метод состоит SEMMA, характерные для SAS. Этот метод списки шаги более детально. Давайте посмотрим на то, что каждый из них.

CRISP-DM (межотраслевого стандартный процесс для интеллектуального анализа данных). Модель состоит из 6 взаимосвязанных фазы циклического (с обратной связью). Понимание бизнеса: понимание бизнеса, включая ее цели, оценки текущей ситуации, постановка задач должны быть выполнены для добычи исследования данных и разработки плана проекта. На этом этапе мы определим, являющегося объектом исследования и потому что это поднимает. Например, коммивояжера портал через веб хотите проанализировать их клиентов и покупательские привычки, чтобы против этих государств и конкретные маркетинговые кампании для каждой целевой с целью увеличения продаж. Это будет отправной точкой проекта интеллектуального анализа данных. Понимание данных: После создания проекта цели, необходимо понять, данных и определения требований к информации необходимой для выполнения нашего проекта. Этот этап может включать в себя сбор данных, их описание, разведки и контроля их качества. На данном этапе мы можем использовать такие методы, как сводные статистические данные (с переменным дисплей) или выполнить кластерного анализа с целью выявления моделей или моделей в рамках данных. Важно на этом этапе четко определить, что мы хотим проанализировать в целях выявления информации, необходимой для описания процесса и анализировать ее. Тогда мы должны видеть, какая информация relavant для анализа (поскольку Есть аспекты, которые могут быть отклонена), а затем будет проверить, что определены переменные независимы друг от друга. Например, мы в проекте анализа интеллектуального анализа данных для сегментации клиентов. Из всей информации, имеющейся в нашей системе, или из внешних источников, должны быть определены которая связана с проблемой (данные о клиентах, возраста, детей, доход, месту жительства) всех таких информацией, имеющей отношение (не заинтересованы, например, вкусы клиентов) и, наконец, выбранных переменных, проверить, что Есть взаимосвязаны (уровень доходов и месту жительства не являются независимыми переменными, например). Информация, как правило, как правило, подразделяются на Демография (доход, образование, количество детей, возраст), sociographic (хобби, членство в клубах или учреждения), транзакций (продаж, расходы по кредитным картам, чеков и т.д.). Кроме того, данные могут быть количественными (измеренных данных с использованием численных значений) или качественной (информация определения категорий, используя номинальных или порядковых).Количественные данные могут быть представлены как правило, какой-то распределение вероятностей (мы будем определять, как эти данные носят разрозненный характер и кластерный). Для качественного ранее, будет кодировать их в номера, что будет описывать распределения частот. Подготовка данных: После того как данные источники определены, они должны быть выбраны, очищаются, трансформатор к желаемой формы и отформатирован. На этом этапе, для проведения процесса очистки данных и преобразования данных, необходимых для дальнейшего моделирования. На этом этапе вы можете выполнить более глубокий анализ данных, чтобы найти похожие модели в рамках данных. При использовании хранилища данных в качестве источника данных, он уже выполнил эти задачи для загрузки данных. Также может быть ситуации, необходимо общую информацию (например, построить периода продажи), можно извлечь информацию из наших DW с типичными инструментами системы бизнес-аналитики. Другой тип преобразования могут быть преобразованы в диапазоне значений определении стоимости (доход от / для определения N доходов категории), или reliza операции с данными (для определения возраста клиент использует текущую дату и дату рождения, и т.д.).Кроме того, каждый программное обеспечение интеллектуального анализа данных инструмент может иметь некоторые специфические требования, которые требуют от нас подготовки информации в формате (например, Клементина или PolyAnalyst имеют разные типы данных).[5]

Рассмотрим классификацию методов добычи данных. Методы анализа данных могут быть классифицированы как ассоциация, классификация, кластеризация и прогнозов временных рядов.

Ассоциация (ассоциация): связь между пунктом сделки и другого элемента в той же транзакции используется для прогнозирования моделей. Например, клиент приобретает компьютер (X) при покупке мыши (Y) на 60% случаев. Эта модель входит в 5,6% от покупки компьютеров. Ассоциативных правил в этой ситуации является то, что "X следует Y, где 60% доверия фактора и 5,6% поддержки фактор. Когда фактор доверия и поддержки фактор представлены лингвистических переменных высокое и низкое, ассоциации правило может быть записано в виде нечеткой логики, такие, как "когда фактор поддержки кронштейн низкий, X следует Y высока". Это было бы типичным примером интеллектуального анализа данных для изучения связи между супермаркетами продаже детских подгузников и пива (см. блоге Bifacil).Алгоритмы, используемые ассоциативных правил и деревьев решений. Модель Ассоциации в Microstrategy - Купить DVD фильмы.

Классификация (классификация) в турнирной таблице, методы, которые они намерены изучать различные особенности, которые классифицируют данные в стандартный набор классов. С учетом новых предопределенных классов, количество атрибутов и набор обучающих данных или профессиональной подготовки, методы классификации можно автоматически прогнозировать класса ранее секретных данных. Чем больше ключевых вопросов, касающихся классификации оценки ошибки классификации и прогнозирования власти. Наиболее часто используемые математические методы классификации бинарных деревьев решений, нейронные сети, линейное программирование и статистика. Использование бинарных деревьев решений, индукция модели дерева в виде Si-Нет, мы можем позиционировать данные в разных классов в зависимости от значения его атрибутов. Однако, эта классификация не может быть оптимальным, если власти прогнозирования является низким. Использование нейронных сетей, можно построить модель нейронной индукции. В этой модели, атрибуты входных слоев и классов, связанных с выходом данных слоев. Между слоями вход и выход большого числа скрытые связи, которые обеспечивают надежность классификации (как если бы они были соединений нейронов с окружающими). Нейронные модели индукции дает хорошие результаты во многих анализа интеллектуального анализа данных, когда большое количество связей усложняет реализацию метода для большого числа атрибутов. Использование линейного программирования, задачи классификации рассматривается как частный случай линейного программирования. Линейное программирование оптимизирует классификации данных, но может привести к сложные модели, которые требуют большого времени вычислений. Другие статистические методы, такие как линейная регрессия, дискриминантный или логистической регрессии также популярные и часто используемые в процессе классификации. Схема принятия решений в Microstrategy: кластеризации (сегментация): кластерного анализа данных без учета группы и с помощью автоматизированных методов делает группировку из них. Кластеризации не supevisado и не требует подготовки набора данных. Акции множество методологий с классификацией. То есть, многие из математических моделей, используемых в классификации могут быть также применены к кластерный анализ. Использование алгоритмов кластеризации и кластеризации последовательности. Прогноз (прогнозирование) / Оценка: анализ прогноза связано с регрессии методов. Основная идея интеллектуального анализа заключается в выявлении связей между зависимыми и независимыми переменными и отношений между независимыми переменными. Например, если продажи является независимой переменной, benefición может быть зависимой переменной. Временных рядов (прогноз): с использованием исторических данных вместе с методами линейной или нелинейной регрессии, мы можем произвести кривой регрессии были использованы для составления прогнозов на будущее. Алгоритмов с использованием временных рядов.

Рассмотрим несколько примеров действия теории интеллектуального анализа данных:

Пример 1. Анализ корзины (ассоциации).

Это типичный пример для объяснения области использования интеллектуального анализа данных (с ассоциацией между продажей детских подгузников и пива).В нашем случае, используя приведенные примеры по MicroStrategy в свою платформу, образовательный проект, называемый MicroStrategy учебник, мы видим пример использования методов анализа ассоциации.

В этом примере мы анализируем продажи DVD из универмага и попытаться найти связь между продажей различных фильмов. То есть, попробовать найти названия продаются вместе с целью установления содействия торговле, то эти фильмы (например, продажа пакетов, расположение кино вместе в коридорах, скидка продвижение покупке второго блока, и т.д.) с целью увеличения продаж.Для этого типа анализа, используемого анализ ассоциативных правил.

Пример 2. Сегментация клиентов (кластерный анализ).

С помощью этого анализа мы анализируем наши клиенты и их использование демографическую информацию (возраст, образование, количество детей, семейное положение или домашнего типа), сделать сегментации рынка, чтобы подготовить запуск определенных продуктов или решений рекламных предложений.

В этом случае, мы будем проводить кластерный анализ с использованием алгоритма К-средних, который является поддержкой Microstrategy.

Пример 3. Прогноз продаж в кампании (дерево решений).

В этом анализ с использованием дерева решений, чтобы определить реакцию определенной группы клиентов скидки на определенные продукты в эпоху обратно в школу. Для этого, решение использовать бинарные деревья (помните, что деревья решений могут быть использованы как для классификации и регрессионного анализа, так как в этом случае). Попробуйте определить, как они влияют такие факторы, как возраст, пол или число детей на вероятность покупки в кампании по реализации.

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Date: 2015-07-11; view: 573; Нарушение авторских прав; Помощь в написании работы --> СЮДА...

mydocx.ru - 2015-2024 year. (0.005 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию