Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
KDD – трансформация данныхТрансформация данных – последний этап перед, собственно, анализом. Дело в том, что различные алгоритмы анализа требуют специальным образом подготовленные данные, например, для прогнозирования необходимо преобразовать временной ряд при помощи скользящего окна или вычисление агрегируемых показателей. К задачам трансформации данных относятся: скользящее окно, приведение типов, выделение временных интервалов, преобразование непрерывных значений в дискретные и наоборот, сортировка, группировка и прочее. 4) KDD – Data Mining (задачи) Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Информация, найденная в процессе применения методов Data Mining, должна быть нетривиальной и ранее неизвестной, например, средние продажи не являются таковыми. Знания должны описывать новые связи между свойствами, предсказывать значения одних признаков на основе других. Рассмотрим технологию постановки задачи: Первоначально, задача ставится следующим образом: § имеется достаточно крупная база данных; § предполагается, что в базе данных находятся некие «скрытые знания». Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. Что означает «скрытые знания»? Это должны быть обязательно знания: § ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения); § нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик); § практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя; § доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области. Этими требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта. Рассмотрим понятие Data mining и базы данных: Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных. Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.[3] Рассмотрим понятие Data mining и статистика: В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы (). В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования. Рассмотрим понятие Data mining и искусственный интеллект: Знания, добываемые методами Data mining принято представлять в виде моделей. В качестве таких моделей выступают: § ассоциативные правила; § деревья решений; § кластеры; § математические функции. Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта». Задачи, решаемые методами Data Mining, принято разделять на: § описательные (англ. descriptive); § предсказательные (англ. predictive). В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет. К описательным задачам относятся: 1. Поиск ассоциативных правил или паттернов (образцов). 2. Группировка объектов или кластеризация. 3. Построение регрессионной модели. К предсказательным задачам относятся: 1. Классификация объектов (для заранее заданных классов). 2. Построение регрессионной модели. Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы. Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения. Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание уделяется аппроксимации данных. Выделяется типичный ряд этапов решения задач методами Data Mining: 1. Формирование гипотезы; 2. Сбор данных; 3. Подготовка данных (фильтрация); 4. Выбор модели; 5. Подбор параметров модели и алгоритма обучения; 6. Обучение модели (автоматический поиск остальных параметров модели); 7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4; 8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5. Рассмотрим основные этапы подготовки данных: Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных. Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными. Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных. Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей. Задачи решаемые методами Data Mining: · Классификация – это отнесение объектов к одному из заранее известных классов. · Регрессия – установление зависимости непрерывных выходных переменных от входных значений. · Кластеризация – объекты внутри кластера должны быть 'похожими' друг на друга и отличаться от объектов, вошедших в другие кластеры. · Ассоциация – нахождение зависимости, что из события X следует событие Y. · Последовательные шаблоны – установление закономерностей между связанными во времени событиями. Можно говорить еще и о задаче анализа отклонений – выявления наиболее нехарактерных шаблонов. Применение Data Mining в экономике: · Классификация – отнесение клиента к определенной группе риска, оценка перспективности клиентов · Регрессия – прогнозирование продаж, эластичность спроса · Кластеризация – сегментация клиентской базы, анализ продуктовой линейки · Ассоциация – кросс-продажи, стимулирование спроса · Последовательные шаблоны – предсказание спроса, оптимизация закупок Рассмотрим Data Mining – алгоритмы: Для решения вышеописанных задач используются различные методы и алгоритмы Data Mining.[4] Ввиду того, что Data Mining развивался и развивается на стыке таких дисциплин, как статистика, теория информации, машинное обучение, теория баз данных, вполне закономерно, что большинство алгоритмов и методов Data Mining были разработаны на основе различных методов из этих дисциплин. В общем случае, не принципиально, каким именно алгоритмом будет решаться одна из 5-ти задач Data Mining – главное иметь метод решения для каждого класса задач. На сегодня наибольшее распространение получали самообучающиеся методы и машинное обучение.
|