Полезное:

Категории:

Архитектура Астрономия Биология География Геология Информатика Искусство История Кулинария Культура Маркетинг Математика Медицина Менеджмент Охрана труда Право Производство Психология Религия Социология Спорт Техника Физика Философия Химия Экология Экономика Электроника

Понятие, этапы и условия проведения, интерпретация результатов факторного анализа

⇐ ПредыдущаяСтр 31 из 45Следующая ⇒

В основе лежит процедура объединения групп коррелирующих друг с другом переменных (≪корреляционных плеяд≫ или ≪корреляционных узлов≫) в несколько факторов. Иными словами, цель факторного анализа — сконцентрировать исходную информацию, выражая большое число рассматриваемых признаков через меньшее число более емких внутренних характеристик, которые, однако, не поддаются непосредственному измерению (и в этом смысле являются латентными).

Факторный анализ - изучаемое явление, описываемое исходной системой признаков, может быть описано посредством меньшего числа других признаков (факторов).

Фактор - гипотетическую латентную переменную, которая одновременно объединяет несколько формально измеренных признаков объекта.

Цели:

1) уменьшение размерности данных

2) выявление структуры объектов или признаков (классификация).

Модели ФА:

1. разведочный (эксплотаторный)

2. проверочный (конфирматорный)

Требования к проведению:

1. шкалы не ниже интервальной (биноминальная)

2. достаточность переменных (1 к 3)

3. мультиколлинеарность (переменные должны коррелировать)

Этапы: а) сбор данных и подготовку корреляционной матрицы; исходная таблица имеет n строк (по числу объектов) и m столбцов (по числу признаков) и преобразуется в матрицу парных коэффициентов корреляции; б) выделение первоначальных ортогональных (некоррелированных, линейно независимых) факторов; в) вращение факторной структуры и содержательную интерпретацию результатов.

Сущностью факторного анализа является процедура вращения факторов, то есть перераспределения дисперсии по определённому методу. Вращение бывает ортогональным (методы: варимакс, квартимакс, эквамакс, биквартимакс) и косоугольным (среди методов наиболее наиболее популярен облимин, схожий с эквамаксом). При первом виде вращения каждый последующий фактор определяется так, чтобы максимизировать изменчивость, оставшуюся от предыдущих, поэтому факторы оказываются независимыми, некоррелированными друг от друга (к этому типу относится МГК). Второй вид — это преобразование, при котором факторы коррелируют друг с другом. Преимущество косоугольного вращения состоит в следующем: когда в результате его выполнения получаются ортогональные факторы, можно быть уверенным, что эта ортогональность действительно им свойственна, а не привнесена искусственно. Однако если цель ортогональных вращений — определение простой структуры факторных нагрузок, то целью большинства косоугольных вращений является определение простой структуры вторичных факторов, то есть косоугольное вращение следует использовать в частных случаях. Поэтому ортогональное вращение предпочтительнее. Существует около 13 методов вращения в обоих видах, в статистической программе SPSS 10 доступны пять: три ортогональных, один косоугольный и один комбинированный, однако из всех наиболее употребителен ортогональный метод «варимакс». Метод «варимакс» максимизирует разброс квадратов нагрузок для каждого фактора, что приводит к увеличению больших и уменьшению малых значений факторных нагрузок. В результате простая структура получается для каждого фактора в отдельности.

Главной проблемой факторного анализа является выделение и интерпретация главных факторов. Не существует однозначного критерия выделения факторов, и потому здесь неизбежен субъективизм интерпретаций результатов. Критерии определения числа факторов:

Критерий Кайзера или критерий собственных чисел. Отбираются только факторы с собственными значениями равными или большими 1. Это означает, что если фактор не выделяет дисперсию, эквивалентную, по крайней мере, дисперсии одной переменной, то он опускается.

Критерий каменистой осыпи или критерий отсеивания.

Критерий значимости. Он особенно эффективен, когда модель генеральной совокупности известна и отсутствуют второстепенные факторы. Но критерий непригоден для поиска изменений в модели и реализуем только в факторном анализе по методу наименьших квадратов или максимального правдоподобия

Критерий доли воспроизводимой дисперсии.

Критерий интерпретируемости и инвариантности. Данный критерий сочетает статистическую точность с субъективными интересами. Согласно ему, главные факторы можно выделять до тех пор, пока будет возможна их ясная интерпретация.

Если вращение не произвело существенных изменений в структуре факторного пространства, это свидетельствует о его устойчивости и стабильности данных.

49. Кластерный анализ: понятие, цель, задачи кластерного анализа. Критерии выделения типов алгоритмов кластерного анализа.

Процедура, позволяющая классифицировать различные объекты. Можно разбить респондентов на группы, сходные по ряду признаков. На дендрограмме дерева признаков признаки соединяются линиями, образуя отдельные пучки. Чем короче линия, связывающая переменные, тем ближе они находятся в пространстве признаков. Перед началом анализа переменные должны быть преобразованы в биноминальные, принимающие значение 1 при наличии признака и 0 при отсутствии признака. Из анализа исключаются «затрудняюсь ответить», «другое» и т.д.

Важную роль играют меры сходства. Кластеры:

- плотность. Близость отдельных точке скопления

- дисперсия – степень рассеяния точек в пространстве относительно центра кластера

Термин кластерный анализ (впервые ввел Tryon, 1939).

Методы кластерного анализа позволяют решать следующие задачи:

• проведение классификации объектов с учетом признаков, отражающих сущность, природу объектов. Решение такой задачи, как правило, приводит к углублению знаний о совокупности классифицируемых объектов;

• проверка выдвигаемых предположений о наличии некоторой структуры в изучаемой совокупности объектов, т.е. поиск существующей структуры;

• построение новых классификаций для слабоизученных явлений, когда необходимо установить наличие связей внутри совокупности и попытаться привнести в нее структуру.

Методы кластерного анализа: одиночной, полной, средней связи; метод Уорда. Метод Уорда позволяет создавать кластеры приблизительно равных размеров. Он сначала объединяет самые близкие объекты, затем уже к образованным кластерам присоединяются сходные с ними объекты. Мера сходства – коэффициент корреляции Пирсона.

Кластерный анализ – способ группировки многомерных объектов, основанных на представлении результатов отдельных наблюдений точками с последующими выделением групп как сгустка этих точек.

Цель: выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри группы были похожи друг на друга.

Задача: выделить в пространстве и визуализировать эти естественные скопления.

2 вида исходных данных: матрица близости и объекты, представленные как точки.

Как научное направление кластерный анализ заявил о себе в середине 60-ых годов

Критерии выделения типов алгоритмов кластерного анализа.

Основания для кластерных алгоритмов:

1. характер отношения, который отыскивается как результат классификации

• разбиение с непересекающимися классами (отношение эквивалентности). Все объекты внутри класса считаются тождественными, а объекты разных классов нет

• Разбиение с пересекающимися классами.

• Иерархическое дерево.

• Отношение произвольной структуры

2. степень участия человека в процедуре выделения кластеров

• машинный способ. Программист задает параметры классификации

• чел участвует в процессе разбиения. Программа выдает не классификацию, а информацию.

3. характер априорных сведений для работы алгоритма

• сведений нет

• задано число искомых классов

• могут быть заданы пороговые значения величины близости объектов

• заданы комбинированные сведения

4. характер работы алгоритма классификации. В зависимости от порядка просмотра точек

• зависящие от порядка просмотра

• независящие

Кластерный анализ уже многие годы используется политических исследованиях. С его помощью классифицируют граждан по политическим установкам, особенностям электорального поведения.

Кластерный анализ с точки зрения алгоритма и процедуры.

Кластерный анализ – способ группировки многомерных объектов, основанных на представлении результатов отдельных наблюдений точками подходящего геометрического пространства с последующим выделением групп как «сгустков» этих точек. В самом термине содержится указание на 2 значимых элемента анализа: на классификацию и ее искусственное формирование. До конца 1950-х годов для аналогичных целей использовали другие конструкции: распознавание образа без учителя, стратификацию, таксономию, автоматическую классификацию. Как научное направление кластерный анализ заявил о себе в середине 1960-х годов. Безусловными достоинствами кластерного анализа являются относительная простота используемых алгоритмов, ясность прочтения визуализированного материала в виде дендограммы или по упорядоченной матрице расстояний, возможность контролируемого вмешательства в работу алгоритма и изменение параметров задания. Отличительная особенность кластерного анализа от других методов многомерного анализа – жесткая зависимость результатов расчетов от предварительных установок исследователя на содержательном уровне. Развитию данного вида анализа способствовали идеи немецкого биолога Ф. Гейнке, предложившего метод решения задачи группировки объектов по многим признакам. В 1923 г. польский антрополог К. Чекановский предложил идею «структурной классификации». Которая содержала узловую идею кластерного анализа (выделение компактных групп объектов), а также метод, трансформировавшийся позднее в алгоритм диагонализации матрицы связи.

В 1925 г. советский гидробиолог П. В Терентьев предложил «метод корреляционных плеяд». В 1939 г. английский ученый Р. Трион впервые использовал понятие «кластерный анализ», шутливо называя его «факторным анализом для бедняков». В начале 1950-х годов публикуются работы по иерархическим процедурам (Льюис, Фикс, Ходжес). Тогда же коллективом авторов создается алгоритм «вроцлавской таксономии».

1960-е гг. – период создания множества алгоритмов и время обобщения накопленных знаний (Болл, Холл, Уильямс, Сокал, Снит, Ланс и др.)

В 1970-е гг. происходит интенсивное развитие теории кластерного анализа (Джордайн, Эверит). Из отечественных авторов следует назвать Айвазяна, Бежаеву и др.

В 1980-е гг. среди разработчиков особенно значительна роль Жамбю и Диде, среди русских – Миркина, Ромесбурга, Манделя.

В истории развития кластерного анализа легко прослеживается 3 ключевые даты:

1). В конце 1950-х гг. анализ был обращен к наиболее естественному пути нахождения образов: задавалось точное определение образа и отыскивалось скопление точек, обладающих соответствующими свойствами. В данном случае кластер можно определить как такое скопление точек, в котором среднее межточечное растстояние меньше среднего расстояния от данных точек до остальных. Таким образом, речь шла процедуре прямой классификации.

2. В конце 1960-х гг. набирает силу оптимизационное направление, стремившееся направить кластерный анализ в традиционное математическое русло (поиск алгоритмов); в совр. Литератур описывается более 70 алгоритмов, пригодных для анализа социальных явлений.

3. В середине 1970-х гг. развивается аппроксимационное направление, требующее соблюдения следующего условия: отношения, заложенные в исходных данных необходимо наилучшим образом аппроксимировать отношением, отвечающим нашему представлению о классификации; задача заключается в поиске эквивалентности, ближайшей в исходной толерантности.

Кластерный анализ строится на статистической однородности групп наблюдений. Основная цель этого вида анализа – выделение в исходных многомерных данных таких подмножеств, чтобы объекты внутри групп были известном смысле похожи друг на друга, а объекты из разнородных отличались. «Похожесть» - близость объектов в многомерном пространстве признаков. Задача кластерного анализа – выделить в пространстве и визуализировать эти естественные скопления. Выделенные с помощью кластерного анализа изолированные группы объектов могут трактоваться как качественно различные. Если в пространстве группы значительно удалены друг от друга, то можно предположить, что в основе разделения лежит некоторый качественный, но скрытый признак, обусловливающий также четкое расслоение, как и наблюдаемая качественная переменная. Таким образом, задачей становится поиск данной переменной и ее интерпретация.

Кластерный анализ и визуализация используются для 2-ух видов исходных данных: матриц близости или расстояний между объектами и объектов, представленных как точки в многомерном пространстве. Вторые легко могут быть сведены к матрицам близости и расстояния, но не наоборот.

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

Date: 2015-08-15; view: 1375; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.186 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию