Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






II. Практическое применение критерия согласия





 

Все рассмотренные до сих пор критерии принято относить к группе так называемых параметрических критериев. Применение этих критериев требует знания типа распределения наблюдаемых случайных величин (нормальное, биномиальное, пуассоновское, двумерное нормальное или какое-либо иное) и проверяемая гипотеза касается параметров данных распределений. Прежде чем применять параметрические методы, необходимо убедиться в том, что мы действительно имеем дело с распределением требуемого типа.

Предположение о виде распределения случайной величины – это статистическая гипотеза, которую можно проверить с помощью экспериментальных данных. Критерии, позволяющие решать такого рода задачи, называются критериями согласия – согласия выборочных данных некоторому наперед заданному теоретическому распределению.

При проверке гипотезы о нормальности распределения с неизвестными средним и дисперсией критерий Колмогорова-Смирнова является более мощным, чем критерий .

При проведении данных исследований, в которых реализован ряд критериев проверки согласия эмпирического распределения с теоретической моделью: Пирсона, отношения правдоподобия, Колмогорова, Смирнова, и Мизеса, Никулина. Здесь и ниже, когда мы употребляем словосочетание “хорошее согласие”, то подразумеваем, что по всем критериям достигнутый уровень значимости, определяемый соотношением

 

 


где - значение статистики критерия, вычисленное по наблюдаемой выборке, - плотность предельного распределения статистики соответствующего критерия при справедливости гипотезы , был очень высок:

 

0,6-0,9

 

Например, на (Приложения рис.2) представлены результаты моделирования распределения статистики при вычислении оптимальных L-оценок [5] двух параметров нормального распределения при числе интервалов . На рисунке приведены построенная в результате моделирования эмпирическая функция распределения статистики , функция теоретического -распределения и значения достигнутого уровня значимости при проверке согласия по каждому из используемых критериев.

Если же оценки параметров искать по точечным выборкам (по исходным негруппированным наблюдениям), то предельные распределения статистики не являются -распределениями. Более того, распределения статистики становятся зависящими от того, как разбивается область определения случайной величины на интервалы [5]. Как выглядят распределения статистики при использовании ОМП по точечным выборкам по сравнению с -распределениями иллюстрирует (Приложения рис. 3), на котором приведены распределения при асимптотически оптимальном группировании (АОГ) и при разбиении на интервалы равной вероятности (РВГ) в случае проверки согласия с нормальным распределением с оцениванием двух его параметров и числе интервалов . При оценивании параметров нормального закона по группированной выборке статистика подчинялась бы в данном случае -распределению. Как подчеркивает (Приложения рис. 3), распределения статистики и очень существенно отличаются от -распределения. Игнорирование этого факта на практике часто приводит к неоправданному отклонению проверяемой гипотезы, к увеличению вероятности ошибок первого рода.

Зная предельные распределения и статистики , для любого заданного уровня значимости можно оценить мощность соответствующего критерия, рассматривая её как функцию от числа интервалов при заданном объеме выборки . Было проведено исследование мощности критериев Пирсона и Никулина как функции от и аналитически и методами статистического моделирования. Причем результаты аналитических вычислений оказались полностью подтвержденными оценками мощности, полученными на основании моделирования.

Величина мощности для критериев типа может быть вычислена в соответствии с выражением:

 

 

где - параметр нецентральности, представляет собой - процентную точку -распределения с степенями свободы ( - заданная вероятность ошибки первого рода, - вероятность ошибки второго рода). Все приводимые ниже функции мощности строились при уровне значимости .

На (Приложение рис. 4) в зависимости от числа интервалов при равновероятном и асимптотически оптимальном группировании для объема выборок , равного 500 и 5000, представлены функции мощности критерия Пирсона при проверке простой гипотезы о согласии с экспоненциальным законом ( : при ; против : при ). И в том, и в другом случае с ростом мощность падает, но в случае асимптотически оптимального группирования она выше, чем при равновероятном.

Аналогично, на (Приложения рис. 5) приведены функции мощности критерия Пирсона как функции числа интервалов для , равного 300 и 2000, при проверке простой гипотезы относительно нормального закона

 

( :

 

при , ; против : нормальный закон при , ).

На рис. 5 приведены функции мощности критерия Пирсона при проверке сложной гипотезы о согласии с распределением Вейбулла. Рассматривались гипотеза

 

:

 

при , и близкая альтернатива – распределение Накагами

 

:

при , ,

 

Рис. 7 иллюстрирует поведение функции мощности критерия типа Никулина при использовании равновероятного группирования и проверке сложной гипотезы о согласии с нормальным законом

 

:

 

когда в качестве альтернативы рассматривается близкий ему логистический закон

 

:

при значениях параметров , .

 

Если для конкретной выборки мы отклоняем гипотезу о нормальности, и, следовательно, не имеем права пользоваться методами, основанными на нормальности, то для получения статистических выводов можно поступать разными способами. Например, если объем выборки достаточно велик, можно предпочесть использовать параметрические критерии как приближенные. Другой путь состоит в подборе замены переменной, приводящей к нормальному распределению[9]. Третий путь - применение непараметрических критериев.

Пример. Пусть получена следующая выборка 50 значений случайной величины с неизвестным распределением: (см. Таблица 1)

Проверим гипотезу о том, что эта случайная величина имеет нормальное распределение. После разбиения области изменения выборочных значений на 5 равных интервалов получаем следующие наблюденные и гипотетические частоты:(см. Приложения Таблица 2)

Гипотетические частоты вычислялись для нормального распределения


 

с параметрами, оцененными по выборке - соответственно, число степеней свободы статистики критерия равно 5-1-2=2. Выборочное значение статистики равно , что не выходит за критический 5%-ный предел, равный . Следовательно, у нас нет оснований отвергнуть гипотезу о нормальности.

В действительности, выборка была получена с помощью датчика случайных чисел, равномерно распределенных на отрезке [0, 100]. Т.е. мы видим, что при данном числе наблюдений (в общем-то, конечно, небольшом для проверки гипотезы о типе распределения) критерий не обнаруживает отклонения от нормальности в направлении равномерности.

Величина статистики одновыборочного критерия Колмогорова - Смирнова равна D=0.11, что также не выходит за 5%-ный предел этого критерия в предположении, что гипотетические средние равны выборочным. Однако в случае неизвестных параметров гипотетического нормального распределения лучше пользоваться модификацией критерия Колмогорова - Смирнова, предложенной Cтефенсом (Лиллифорсом). Но в этом случае значение

 

 

т.е. нет оснований отвергнуть гипотезу и по этому критерию.

Пример. Расчеты, аналогичные предыдущим, проведенные для выборки объема 150 значений случайной величины, равномерно распределенной на отрезке [0, 100], дали значение , что позволило отвергнуть гипотезу о нормальности на уровне значимости 5%. По критерию Колмогорова - Смирнова гипотеза отвергалась лишь на уровне 10%, а по критерию Лиллифорса - на уровне 1%, что показывает неправомочность применения критерия Колмогорова - Смирнова в данной ситуации.

Пример. Расчеты статистик критериев согласия для данных таблицы 1, содержащей 50 выборочных значений длины лепестка ириса разноцветного, приводят к значению статистики равному 2.1, и значению статистики , равному 0.117. В этом случае гипотеза о нормальности не отвергается ни критерием , ни критерием Колмогорова - Смирнова - Лиллифорса.

Пример. В некоторых классических экспериментах с селекцией гороха Мендель наблюдал частоты различных видов семян, получаемых при скрещивании растений с круглыми желтыми семенами и растений с морщинистыми зелеными семенами. Они приводятся ниже вместе с теоретическими вероятностями, вычисленными в соответствии с теорией наследственности Менделя. (см. Приложения Таблица 3)

В этом случае теоретическое распределение дискретно и известно полностью. Для проверки согласия экспериментальных данных теоретическому распределению используем критерий для простой гипотезы. Значение статистики, вычисленное по выборке равно

 

 

что меньше 5%-ного критического значения

 

 

Следовательно, теория наследственности Менделя не противоречит полученным экспериментальным данным.

Наряду с количественными статистическими критериями для определения типа распределения по выборочным данным используются графические методы.

Простейший способ – построение по имеющейся выборке гистограммы относительных частот и на том же графике и в том же масштабе, - кривой плотности нормального распределения с выборочным средним и выборочной дисперсией в качестве параметров. Значительные отклонения от нормальности (сильная асимметрия, бимодальность) легко обнаруживаются на графике.

Пример: Применим этот прием к рассмотренной выше модельной выборке объема n=50, извлеченной из равномерного распределения. На рис. 7 приведена гистограмма и кривая нормальной плотности. Можно сказать, что визуально отклонение от нормальности в пользу равномерности заметно (хотя, как мы видели, статистически значимо при таком числе наблюдений оно не подтверждается).

С точки зрения визуального обнаружения отклонений от нормальности сравнение эмпирической и гипотетической функций распределения гораздо менее наглядно, чем сравнение гистограммы с графиком плотности. Однако обычно сравнивают на сами функции распределения, а обратные нормальные преобразования от них, так называемые пробит-графики. Пробит-график от теоретической нормальной функции распределения представляет собой прямую, а пробит-график эмпирической функции распределения тем ближе к прямой, чем ближе она к нормальной. Этот прием позволяет на первом этапе анализа данных выявить их особенности, выдвинуть гипотезы о характере распределения, решить вопрос о целесообразности замены переменной. (см. Приложения Рис.1 Пример сравнения гистограммы и кривой нормальной плотности.)

 


Заключение.

Критерии согласия основаны на использовании различных мер расстояния между анализируемым эмпирическим распределением и функцией распределения признака в генеральной совокупности. Критериями согласия называют статистические критерии, предназначенные для проверки согласия опытных данных и теоретической модели.

Существует несколько критерий согласия: критерий согласия Колмогорова и омега-квадрат, χ2 Пирсона, χ2 Фишера и другие. Состоятельность критериев Колмогорова и омега-квадрат означает, что любое отличие распределения выборки от теоретического будет с их помощью обнаружено, если наблюдения будут продолжаться достаточно долго. Практическую значимость свойства состоятельности не велика, так как трудно рассчитывать на получение большого числа наблюдений в неизменных условиях, а теоретическое представление о законе распределения, которому должна подчиняться выборка, всегда приближённое. Поэтому точность статистических проверок не должна превышать точность выбранной модели.


Приложения

 

Таблица 1

                   
                   
                   
                   
                   

 

Таблица 2

Интервал (20, 40] (40, 60] (60, 80]
Наблюденная частота, nI          
Гипотетическая Частота, npi   6.1   9.7   13.4   11.6   9.2

 

Таблица 3

Семена Наблюденная численность Ожидаемая численность
Круглые и желтые  
Морщинистые и желтые  
Круглые и зеленые  
Морщинистые и зеленые  
Всего    

 


Рис. 1. Пример сравнения гистограммы и кривой нормальной плотности

 

Рис. 2

 


Рис. 3

 

Рис. 4

 


Рис. 5

 

Рис. 6

 


Рис. 7

 


Список литературы.

1. Тюрин Ю.Н., Макаров А.А. Анализ данных на компьютере /Под ред. В. Э. Фигурнова. – 3-е изд., перераб. и доп. – М.:ИНФРА – М. 2003. – 544 с., ил.

2. Кремер Н.Ш. Теория вероятностей и математическая статистика. – М.: Юнити, 2000. – 543 с

3. Савилов Е.Д., Мамонтова Л.М. и др. применение статистических методов в эпидемиологическом анализе. – «МЕД пресс-информ» 2004.

4. Лукьянов Е.А.Медицинская статистика,-М: Изд.РУДН, 2002.

5. Жижин К.С. Медицинская статистика. -Высшая школа. Феникс.2007

6. Банержи А. Медицинская статистика понятным языком.2007

7. Медик В.А.Токмачев М.СФишман Б.Б.Статистика в медицине и биологии. Медицина,2000

 

 

Ссылки.

1. http://www.basegroup.ru/glossary/definitions/chi_square_test/

2. http://www.exponenta.ru/educat/systemat/shelomovsky/lab/lab14.asp

Date: 2015-11-14; view: 573; Нарушение авторских прав; Помощь в написании работы --> СЮДА...



mydocx.ru - 2015-2024 year. (0.006 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию