Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Описательная статистика





Я провёл исследование описательной статистики по выборке. В результате я получил следующую таблицу, содержащую в себе данные по среднему значению, медиане, максимуму, минимуму, стандартному отклонению, коэффициенту асимметрии, коэффициенту эксцесса, статистике Харке-Бера, вероятности и количеству наблюдений.

Рис. 11 – таблица описательной статистики

Рассмотрим самые интересные для нас величины и наблюдения:

1) Медиана ни в одном из случаев сильно не отличается от среднего значения (в случае же с переменной commando эти измерения вовсе нерелевантны из-за бинарности переменной). Однако при учёте минимального и максимального значения переменных становятся заметны отклонения. Так, уровень заболеваемости ВИЧ/СПИД имеет не сильно отличающиеся медиану и среднее значение (16,75 и 14,18 соответственно), но при этом они очень близки к максимальному значению (17,9) и очень далеки от минимального (3,1), что свидетельствует о резком росте заболеваемости и высоком уровне на протяжении большей части периода 1994-2013 гг. Чем-то схожая картина наблюдается и в случае с уровнем национального дохода на душу населения, но здесь смещение идёт, напротив, в сторону минимума, что говорит о том, что большую часть периода значения НД были далеки от максимума (о том же говорит и разница между средним значением и медианой почти в 1000 долларов в пользу среднего значения).

2) Стандартное отклонение при нормальном распределении должно соответствовать «правилу трёх сигм», согласно которому около 99% наблюдений должны лежать в рамках +/- 3σ от среднего значения. Я провёл подсчёты в программе Microsoft Excel (исключив бинарную переменную commando) и сравнил минимальные и максимальные значения выборки с вычислениями «среднее значение плюс/минус три стандартных отклонения».

Рис. 12 – сравнение минимальных и максимальных значений со значениями по правилу трёх сигм

Как видно из таблицы, практически во всех случаях разница между реальными и ожидаемыми при нормальном распределении значениями весьма велика (более-менее близкие значения получились только в случае с безработицей, хотя и там наблюдаемый максимум отличается от ожидаемого более чем на 4 пункта – 27,2 против 31,3 при среднем значении переменной в 23,8). Во всех случаях «правило трёх сигм» завышает максимум и занижает минимум (порой уводя его в отрицательные значения, что при данных переменных вообще едва ли возможно). Это говорит о том, что мои данные в целом распределены ненормально.

3) Коэффициент асимметрии (Skewness) отражает то, насколько асимметрично распределены значения относительно математического ожидания (т.е. среднего значения). Отрицательные значения встречаются у переменных туберкулёза, СПИДа и безработицы – там, где левый хвост распределения длиннее правого (среднее значение ближе к максимуму, чем к минимуму). Положительные – у переменных процентной ставки, уровня убийств, уровня НД на душу населения и охвата образования, т.е. там, где правый хвост распределения длиннее левого (среднее значение ближе к минимуму, чем к максимуму). Это говорит о том, что у первой группы переменных большую часть периода 1994-2013 гг. значения были ниже среднего, а у второй – выше. Наиболее несимметричное распределение – у переменной заболеваемости СПИД (-1,21). Для бинарной переменной commando данный показатель бессмыслен.

4) Коэффициент эксцесса (Kurtosis) отражает меру остроты пика распределения случайной величины. У всех переменных данный коэффициент положителен, что говорит об остроте пиков распределения всех этих величин. Наибольшие значения – у безработицы и вновь у заболеваемости ВИЧ/СПИД (4,2 и 3,01 соответственно), что говорит о наибольшем перепаде значений в районе пика у этих величин и, следовательно, о наибольшем возрастании и убывании (впрочем, это верно только для уровня безработицы – заболеваемость СПИД является непрерывно возрастающей величиной и имеет наибольшую величину коэффициента эксцесса лишь по техническим причинам).

5) Тест Харке-Бера – это статистический тест, проверяющий ошибки наблюдений на нормальность их распределения посредством сверки их третьего момента (асимметрия) и четвёртого момента (эксцесс) с моментами нормального распределения, у которого S=0, K=3. Чем ближе распределение ошибок к нормальному, тем меньше статистика Харке—Бера отличается от нуля. Как видно из таблицы 11, показатели статистики Харке-Бера говорят о ненормальном распределении остатков всех переменных (наименьшее, то есть наиболее близкое к нормальному значение – у переменной охвата образования (0,91), наибольшее – у переменной уровня безработицы (5,11)). Впрочем, тест Харке-Бера предназначен для больших выборок, в моей же насчитывается только 20 наблюдений каждой переменной.

 







Date: 2015-07-17; view: 882; Нарушение авторских прав



mydocx.ru - 2015-2024 year. (0.006 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию