Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Методы снижения размерности.





В многомерном статистическом анализе каждый объект описывается вектором, размерность которого произвольна, но одна и та же для всех объектов. Однако человек может воспринимать лишь числовые данные или точки на плоскости. Анализировать скопления точек в трехмерном пространстве уже гораздо труднее. Непосредственное восприятие данных более высокой размерности уже не возможно. Поэтому вполне естественно перейти от многомерной выборки к данным небольшой размерности. Кроме стремления к наглядности, есть и другие мотивы снижения размерности. Те факторы, от которых интересующая исследователя переменная не зависит, лишь мешают статистическому анализу, во- первых, на сбор информации о них расходуются ресурсы, во – вторых их включение в анализ ухудшает свойства статистических процедур, поэтому желательно избавиться от этих факторов.

1.Метод главных компонент.

пусть выборка состоит из векторов, одинаково распределенных с вектором X=(x(1),x(2),….,x(n)). Рассмотрим линейные комбинации

Y(l(1),l(2),…,l(n))=l(1)x(1)+l(2)x(2)+….+l(n)x(n),

где l2(1)+l2(2)+….+l2(n)=1.

Здесь вектор l=(l(1),l(2),…,l(n)) лежит на единичной сфере в n- мерном пространстве. Далее находят направление максимального разброса, т.е. такое l, при котором достигает максимума дисперсия СВ Y(l)=Y(l(1),l(2),…,l(n)). Тогда вектор l задает первую главную компоненту, а величина Y(l) является проекцией случайного вектора X на ось первой главной компоненты. Затем рассматривают гиперплоскость в n – мерном пространстве, перпендикулярную первой главной компоненте, и проектируют на эту гиперплоскость все элементы выборки. Размерность гиперплоскости на 1 меньше, чем размерность исходного пространства. В рассматриваемой гиперплоскости процедура повторяется. Другими словами, речь идет о построении нового базиса в n – мерном пространстве, ортами которого служат главные компоненты. Дисперсия, соответствующая каждой новой главной компоненте, меньше, чем для предыдущей. если отобрано k главных компонент, то это означает, что от n- мерного пространства удалость перейти к k- мерному.

Метод главных компонент является одним из методов факторного анализа. Различные алгоритмы факторного анализа объединены тем, что во всех них происходит переход к новому базису. Важным является понятие «нагрузка фактора».

Новая идея состоит в том, что на основе нагрузок происходит разбиение факторов на группы. В одну группу объединяются факторы, имеющие сходное влияние на элементы нового базиса. Затем из каждой группы рекомендуется оставить одного представителя. Иногда вместо этого формируется новый фактор, являющийся центральным для рассматриваемой группы. Снижение размерности происходит при переходе к системе факторов, являющихся представителями групп.

для разбиения признаков на группы можно применять различные алгоритмы кластер- анализа. Достаточно ввести расстояние между признаками. Пусть X и Y – два признака. Различие d(X,Y) между ними можно измерять с помощью коэффициентов корреляции:

d1(X,Y)=1-rn(X,Y), d2(X,Y)=1- rn(X,Y),

где rn(X,Y)- выборочный линейный коэффициент корреляции Пирсона, rn(X,Y) – выборочный коэффициент ранговой корреляции Спирмена.

 

2.На использовании расстояний d(X,Y) между признаками X и Y основан обширный класс методов многомерного шкалирования.

 

 

Кластерный анализ.

Существует множество методов построения классификации многомерных объектов с помощью ЭВМ, при этом традиционно выделяют две группы методов: методы распознавания образов и методы автоматической классификации (кластерного анализа таксономии, распознавания образов без учителя).На примере кластерного анализа рассмотрим основные этапы построения многомерной классификации.

Будем считать, что все m признаков измерены в количественной шкале. Тогда каждый из n объектов может быть представлен точкой в m-мерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.

О сходстве объектов можно судить по расстоянию между соответствующми точками

¾¾¾¾¾¾

ç m

dij=Ö S(xit-xjt)2, i,j=1,2…..n.

t=1

Где dij- евклидово расстояние между i-м и j-м объектами, xit-значение t-го показателя для i- го объекта. Вычислив расстояние между каждой парой объектов, получим квадратную матрицу D, имеющие размеры n´n. Существуют различные способы определения расстояния между группами объектов (различающие методы кластерного анализа). Далее можно анализировать с помощью какого- либо метода автоматической классификации.

Другой способ разбиения на кластеры в последующем анализе связан стем, что у нас может возникнуть желание провести отдельный анализ, например регрессий, внутри каждого кластера. если свойства объектов из разных кластеров действительно различны, то вполне возможно, что при переходе от одного кластера к другому коэффициенты регрессии могут изменяться в широких пределах, и поэтому такой способ описания данных был бы гораздо более приемлемым.

Другая схема классификации методов кластер- анализа связана со статистической моделью, на которой данный метод основан. В подходе к кластер- анализу порой отсутствует как явная, так и неявная модель. Одна из моделей состоит из дерева, все терминальные узлы которого обычно находятся на первом уровне шкалы, расположенной вдоль вертикальной оси. Каждому узлу приписано значение шкалы, и эти значения монотонно изменяются воль дерева. Здесь расстояние на дереве задается с помощью dij- значения шкалы для самого нижнего узла, из которого доступны объекты i и j. Эта статистическая модель используется в случае данных типа значений близости, где значения близости есть значения различий dij. Модель определяется уравнением dij =dij+ошибка. Эта модель часто используеся описанию родословных видов или же языков.

3.

Date: 2016-08-31; view: 247; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.007 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию