Дискриминантный анализ

⇐ ПредыдущаяСтр 38 из 45Следующая ⇒

Дискриминантный анализ — вариант многомерного статистического анализа, включающий статистические методы классификации многомерных наблюдений в ситуации, когда исследователь обладает так называемыми обучающими выборками («классификация с учителем»), Дискриминантный анализ выполняет задачу и классификации. В определенном смысле дискриминантный анализ направлен на решение задач, обратных целям кластерного анализа, поскольку в данном случае критерии классификации объектов задаются изначально, а задача заключается в том, чтобы определить, насколько эти подобранные правила классификации являются удовлетворительными. Он направлен на решение задачи, когда известно о существовании определенного числа (больше или равно 2) непересекающихся групп и требуется построить основанное на имеющихся выборках наилучшее (в определенном смысле) классифицирующее правило, позволяющее приписать некоторый новый элемент (многомерное наблюдение X) к своей подгруппе в ситуации, когда исследователю заранее неизвестно, к какой из совокупностей этот элемент принадлежит. Обычно под классифицирующим правилом понимается последовательность действий: по вычислению некоторой функции от исследуемых показателей, по упорядоченности самих показателей, по вычислению соответствующих вероятностей ошибочной классификации. При этом допускается, что есть объекты, не относящиеся ни к одной из классифицируемых групп. Кроме того, в ходе анализа определяется «вес» каждой переменной, использованной для классификации объектов по группам. Иными словами, с помощью дискриминантного анализа отбираются переменные, наилучшим образом подходящие для достоверного предсказания. Таким образом, дискриминантный анализ можно отнести к методам прогнозирования, основанным на принципе экстраполяции — перенесении в будущее обнаруженны закономерностей.

Дискриминантный анализ решает две основные задачи.

Во-первых, его использование позволяет понять, насколько точно можно различать классы исследуемых объектов.

Во-вторых, можно подобрать признаки, с помощью которых будет выполнено это различение.

Дискриминантный анализ позволяет строить функции измеряемых характеристик, значения которых и объясняют разбиение объектов на группы. Желательно, чтобы этих функций (дискриминирующих признаков) было немного. Наиболее простым в исполнении является линейный дискриминантный анализ, в котором классифицирующие признаки выбираются как линейные функции от первичных признаков. Особенностью дискриминантного анализа является то, что непараметрические методы дискриминации не требуют знаний о точном функциональном виде распределений и позволяют решить задачи дискриминации на основе незначительной априорно информации о совокупностях, что особенно ценно для решения практических задач. Фактически речь идет о том, что в дискриминантный анализ можно включать переменные, измеренные на основе номинальных шкал. Оптимальным считается выполненный анализ, в котором объекты классифицируются точно в соответствии с заданными условиями с вероятностью не меньше 74%, а все уровни значимости, которые определяются в ходе выполнения дискриминантного анализа, оказываются < 0,001.

Предположим, мы имеем совокупность объектов, разбитую на несколько групп (т.е. относительно каждого объекта мы можем сказать, к какой группе он относится), например, активные избиратели — те, кто участвовал в голосовании на двух выборах федерального уровня. Пусть

для каждого объекта имеются измерения нескольких количественных характеристик. Мы хотим узнать, можно ли на основании выделенных нами характеристик узнать группу, к которой относится объект. Это позволит нам и для новых объектов из той же совокупности предсказывать группы, к которым они относятся.

Summary из готовых билетов. Цель: определить, к какому классу относятся объекты с помощью определенных признаков.

Нужно создать классифицирующее правило, позволяющее приписать новый элемент к своей подгруппе в ситуации, когда исследователю неизвестно, в какой совокупности он принадлежит.

Использование линейной функции и прямая связь.

Из большого числа выбираются те переменные, которые лучше влияют на итог классификации.

1. на каждом шаге смотрят все переменные и находят ту, которая вносит наибольший вклад в различия. И ее включают в следующий шаг

2. исключение переменных. Все включают. Исключают ту, которая вносит наименьший вклад в различия.

Y = a + b1x1 + b2x2 + … + bnxn

B – коэффициент регрессии переменной. Чем больше В, тем больше вклад.

Последовательность:

1. вычисление функций от исследуемых показателей

2. упорядочение самих показателей

3. вычисление вероятности ошибочной классификации

удачная модель: вероятность распределения по группам не меньше 72-75 %.

59. Статистический прогноз: возможности, процедуры, проблемы, ограничения.

Используется для краткосрочных прогнозов до одного года. Огромное число факторов, которые нужно учесть.

3 этапа моделирования:

1. логико-интуитивный анализ. Опираясь на интуиции, логику и т.д. исслеователь создает теоретическую модель

2. формализация данных. Трансформация статистической модели в динамическую.

3. квантификация данных. Создание образа искусственной реальности.

4. полученные модели содержат указание на объект исследования, структуру его связей с другими политическими субъектами, интересы, ресурсы влияния и т.д.

Тенденция – направление развития социального процесса (прогресс/регресс).

Тренд – описание фактической усредненной для периода упреждения тенденции изучаемого социального процесса во времени

Интервал циклов – повторяемость показателей, зависящих от времени.

Временной лаг – зазор между событием и реакцией на него.

Секулярные тренды – долговременные тенденции к увеличению или уменьшению.

Циклические отклонения – сезонность.

Случайные отклонения – всплеск в связи с изменением какого-либо фонового показателя. На исход голосования оказали влияние дождь/снег.

Перед прогнозированием проверяют гипотезу о наличии тренда. Метод разности средних уровней. Объект исследования разбивается на 2 группы. Сравнить разницу ответов. Если разница большая, то есть тренд.

Прогнозирование исходов выборов. Необходимо оценить уровень электоральной активности на выборах. Должно быть проведено не менее 6 мониторинговых опросов. 3 модели:

1. колеблющиеся (не решившие, будут ли участвовать в выборах) будут сомневаться до последнего и автоматически попадут в группу неучаствовавших на выборах

2. колеблющиеся распределятся по той же пропорции, что и определившиеся с выбором

3. необходимо, чтобы респондентам помимо прямого вопроса о намерении голосовать были заданы и уточняющие вопросы, позволяющие выяснить количество людей, принявших окончательное решение и вероятный характер принятия решения об участии в голосовании для колеблющихся. Имеет ограничение по интервалу упреждения. 7 месяцев.

Метод скользящих средних (метод сглаживания динамического ряда). Не менее 12 замеров. Переход от начальных значений ряда к их средним значениям на интервале времени. Помогает определить тенденцию развития процесса

⇐ Предыдущая 33 34 35 36 373839 40 41 42 Следующая ⇒

Date: 2015-08-15; view: 1250; Нарушение авторских прав

mydocx.ru - 2015-2026 year. (0.991 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию