Главная Случайная страница


Полезное:

Как сделать разговор полезным и приятным Как сделать объемную звезду своими руками Как сделать то, что делать не хочется? Как сделать погремушку Как сделать так чтобы женщины сами знакомились с вами Как сделать идею коммерческой Как сделать хорошую растяжку ног? Как сделать наш разум здоровым? Как сделать, чтобы люди обманывали меньше Вопрос 4. Как сделать так, чтобы вас уважали и ценили? Как сделать лучше себе и другим людям Как сделать свидание интересным?


Категории:

АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника






Задание № 3





Для регрессионных моделей, полученных в задании 2:

1. Найти среднюю ошибку аппроксимации.

2. Найти индекс корреляции и с доверительной вероятностью 0,95 проверить его значимость.

3. Найти индекс детерминации и проверить модель на значимость на уровне значимости 0,05.

4. Построить график линии регрессии с нанесением на него опытных данных (для каждой модели отдельно).

5. По полученным результатам выбрать наиболее качественную модель.

 

Экспоненциальная модель

y = e3.63437484e0.2488x = 37.87817e0.2488x

 

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Параметры уравнения регрессии.

Выборочные средние.

 

Выборочные дисперсии:

 

 

Среднеквадратическое отклонение

 

 

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

 

Коэффициент эластичности.

Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

Коэффициент эластичности находится по формуле:

 

E = 0.55(0.25) = 0.14

Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

 

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 97.8% среднеквадратичного отклонения Sy.

Ошибка аппроксимации.

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

 

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

 

В среднем, расчетные значения отклоняются от фактических на 1.16%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

 

 

где

 

Индекс корреляции.

Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

 

 

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

 

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

Индекс детерминации.

Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации.

Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.

 

 

т.е. в 95.81 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.19 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).


Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x y y(x) (yi-ycp)2 (y-y(x))2 |y - yx|:y
0.1 39.5 38.83 16.4 0.45 0.0169
0.2 40.3 39.81 10.56 0.24 0.0121
0.3 40.7 40.81 8.12 0.0129 0.00279
0.4 40.8 41.84 7.56 1.09 0.0255
0.5 43.1 42.9 0.2 0.0417 0.00474
0.6 42.7 43.98 0.72 1.63 0.0299
0.7 45.3 45.08 3.06 0.0465 0.00476
0.8 46.2 46.22 7.02 0.000409 0.000438
0.9 47.4 47.38 14.82 0.000237 0.000324
  49.5 48.58 35.4 0.85 0.0186
5.5 435.5 435.44 103.88 4.35 0.12

Оценка параметров уравнения регрессии.

Значимость коэффициента корреляции.

Выдвигаем гипотезы:

H0: rxy = 0, нет линейной взаимосвязи между переменными;

H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)

 

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.

 

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

где m = 1 - количество объясняющих переменных.

Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).

Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
2.306 13.19

В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для коэффициента корреляции (доверительный интервал).

 

Доверительный интервал для коэффициента корреляции.

 

r(0.807;1)

Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

 

 

S2 = 0.544 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

 

S = 0.74 - стандартная ошибка оценки (стандартная ошибка регрессии).

Sa - стандартное отклонение случайной величины a.

 

 

Sb - стандартное отклонение случайной величины b.

 

 

Индивидуальные доверительные интервалы для Y при данном значении X.


(a + bxi ± ε)

где

 

 

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

xi y = 3.63 + 0.25xi εi ymin = y - εi ymax = y + εi
0.1 38.83 1.97 36.86 40.81
0.2 39.81 1.9 37.91 41.71
0.3 40.81 1.84 38.97 42.66
0.4 41.84 1.81 40.04 43.65
0.5 42.9 1.79 41.11 44.68
0.6 43.98 1.79 42.19 45.76
0.7 45.08 1.81 43.28 46.89
0.8 46.22 1.84 44.38 48.06
0.9 47.38 1.9 45.48 49.28

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.


Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

 

 

Отметим значения на числовой оси.

Отклонение H0, принятие H1 Принятие H0 Отклонение H0, принятие H1
2.5% 95% 2.5%
  -2.306 0.30642488 2.306  

Поскольку 0.31 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

 

 

Поскольку 7.21 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

(b - tкрит Sb; b + tкрит Sb)

(0.25 - 2.306 • 0.81; 0.25 + 2.306 • 0.81)

(-1.624;2.121)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима.

(a - tкрит Sa; a + tкрит Sa)

(3.634 - 2.306 • 0.5; 3.634 + 2.306 • 0.5)

(2.473;4.796)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистика. Критерий Фишера.

Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

 

где m – число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

2. Далее определяют фактическое значение F-критерия:

 

 

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
5.32  

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

 

Показатели качества уравнения регрессии.

Показатель Значение
Коэффициент детерминации 0.96
Средний коэффициент эластичности 0.14
Средняя ошибка аппроксимации 1.16

 

Показательное уравнение регрессии имеет вид y = a bx

y = e3.63437484*e0.2488x = 37.87817*1.28249x

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

1. Параметры уравнения регрессии.

Выборочные средние.

 

Выборочные дисперсии:

 

 

Среднеквадратическое отклонение

 

 

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

 

Коэффициент эластичности.

Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

Коэффициент эластичности находится по формуле:

 

E = b = 0.25

Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

Бета – коэффициент

Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

 

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 97.8% среднеквадратичного отклонения Sy.

Ошибка аппроксимации.

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

 

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

 

В среднем, расчетные значения отклоняются от фактических на 1.16%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

 

 

где

 

Индекс корреляции.

Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

 

 

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

 

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

Индекс детерминации.

Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации.

Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.

 

 

т.е. в 95.81 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.19 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x y y(x) (yi-ycp)2 (y-y(x))2 |y - yx|:y
0.1 39.5 38.83 16.4 0.45 0.0169
0.2 40.3 39.81 10.56 0.24 0.0121
0.3 40.7 40.81 8.12 0.0129 0.00279
0.4 40.8 41.84 7.56 1.09 0.0255
0.5 43.1 42.9 0.2 0.0417 0.00474
0.6 42.7 43.98 0.72 1.63 0.0299
0.7 45.3 45.08 3.06 0.0465 0.00476
0.8 46.2 46.22 7.02 0.000409 0.000438
0.9 47.4 47.38 14.82 0.000237 0.000324
  49.5 48.58 35.4 0.85 0.0186
5.5 435.5 435.44 103.88 4.35 0.12

Оценка параметров уравнения регрессии.

Значимость коэффициента корреляции.

Выдвигаем гипотезы:

H0: rxy = 0, нет линейной взаимосвязи между переменными;

H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)

 

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.

 

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

где m = 1 - количество объясняющих переменных.

Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).

Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
2.306 13.19

В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для коэффициента корреляции (доверительный интервал).

 

Доверительный интервал для коэффициента корреляции.

 

r(0.807;1)

Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

 

 

S2 = 0.544 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

 

S = 0.74 - стандартная ошибка оценки (стандартная ошибка регрессии).

Sa - стандартное отклонение случайной величины a.

 

 

Sb - стандартное отклонение случайной величины b.

 

 

Индивидуальные доверительные интервалы для Y при данном значении X.

(a + bxi ± ε)

где

 

 

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

 

 

xi y = 3.63 + 0.25xi εi ymin = y - εi ymax = y + εi
0.1 38.83 1.97 36.86 40.81
0.2 39.81 1.9 37.91 41.71
0.3 40.81 1.84 38.97 42.66
0.4 41.84 1.81 40.04 43.65
0.5 42.9 1.79 41.11 44.68
0.6 43.98 1.79 42.19 45.76
0.7 45.08 1.81 43.28 46.89
0.8 46.22 1.84 44.38 48.06
0.9 47.38 1.9 45.48 49.28

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

 

 

Отметим значения на числовой оси.

Отклонение H0, принятие H1 Принятие H0 Отклонение H0, принятие H1
2.5% 95% 2.5%
  -2.306 0.30642488 2.306  

Поскольку 0.31 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

 

 

Поскольку 7.21 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

(b - tкрит Sb; b + tкрит Sb)

(0.25 - 2.306 • 0.81; 0.25 + 2.306 • 0.81)

(-1.624;2.121)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима.

(a - tкрит Sa; a + tкрит Sa)

(3.634 - 2.306 • 0.5; 3.634 + 2.306 • 0.5)

(2.473;4.796)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистика. Критерий Фишера.

Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

 

где m – число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

2. Далее определяют фактическое значение F-критерия:

 

 

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32

Отметим значения на числовой оси.

 

 

Принятие H0 Отклонение H0, принятие H1
95% 5%
5.32  

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

 

Показатели качества уравнения регрессии.

Показатель Значение
Коэффициент детерминации 0.96
Средний коэффициент эластичности 0.25
Средняя ошибка аппроксимации 1.16

 

Гиперболическое уравнение регрессии имеет вид y = b/x + a

y = -0.8585 / x + 46.0647

 

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Параметры уравнения регрессии.

Выборочные средние.

 

Выборочные дисперсии:

 

 

Среднеквадратическое отклонение

 

 

Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:

 

1.3. Коэффициент эластичности.

Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

Коэффициент эластичности находится по формуле:

 

 

Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

Бета – коэффициент

Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

 

Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к уменьшению среднего значения Y на 70.1% среднеквадратичного отклонения Sy.

Ошибка аппроксимации.

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

 

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

 

В среднем, расчетные значения отклоняются от фактических на 4.71%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

 

 

где

 

Индекс корреляции.

Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.

 

 

Полученная величина свидетельствует о том, что фактор x существенно влияет на y

Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:

 

Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy.

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

1.6. Индекс детерминации.

Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации.

Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.

 

 

т.е. в 49.09 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 50.91 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации).

Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)

x y y(x) (yi-ycp)2 (y-y(x))2 |y - yx|:y
0.1 39.5 37.48 16.4 4.08 0.0512
0.2 40.3 41.77 10.56 2.17 0.0365
0.3 40.7 43.2 8.12 6.26 0.0615
0.4 40.8 43.92 7.56 9.72 0.0764
0.5 43.1 44.35 0.2 1.56 0.0289
0.6 42.7 44.63 0.72 3.74 0.0453
0.7 45.3 44.84 3.06 0.21 0.0102
0.8 46.2 44.99 7.02 1.46 0.0262
0.9 47.4 45.11 14.82 5.24 0.0483
  49.5 45.21 35.4 18.44 0.0867
5.5 435.5 435.5 103.88 52.89 0.47

Оценка параметров уравнения регрессии.

Значимость коэффициента корреляции.

Выдвигаем гипотезы:

H0: rxy = 0, нет линейной взаимосвязи между переменными;

H1: rxy ≠ 0, есть линейная взаимосвязь между переменными;

Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)

 

и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.

 

По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит:

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

где m = 1 - количество объясняющих переменных.

Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).

Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
2.306 2.78

В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для коэффициента корреляции (доверительный интервал).

 

Доверительный интервал для коэффициента корреляции.

 

r(-1;-0.119)

Анализ точности определения оценок коэффициентов регрессии.

Несмещенной оценкой дисперсии возмущений является величина:

 

 

S2 = 6.611 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).

 

S = 2.57 - стандартная ошибка оценки (стандартная ошибка регрессии).

Sa - стандартное отклонение случайной величины a.

 

 

Sb - стандартное отклонение случайной величины b.

 

 

Индивидуальные доверительные интервалы для Y при данном значении X.

(a + bxi ± ε)

где

 

 

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

xi y = 46.06 -0.86xi εi ymin = y - εi ymax = y + εi
0.1 37.48 19.49 17.99 56.96
0.2 41.77 18.87 22.9 60.64
0.3 43.2 18.25 24.95 61.46
0.4 43.92 17.64 26.28 61.56
0.5 44.35 17.03 27.32 61.38
0.6 44.63 16.43 28.21 61.06
0.7 44.84 15.82 29.02 60.66
0.8 44.99 15.23 29.77 60.22
0.9 45.11 14.63 30.48 59.74

С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов.

Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности;

H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (8;0.025) = 2.306

 

 

Отметим значения на числовой оси.

Отклонение H0, принятие H1 Принятие H0 Отклонение H0, принятие H1
2.5% 95% 2.5%
-2.78 -2.306 2.306  

Поскольку 2.78 > 2.306, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

 

 

Поскольку 37.86 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

(b - tкрит Sb; b + tкрит Sb)

(-0.86 - 2.306 • 0.31; -0.86 + 2.306 • 0.31)

(-1.571;-0.146)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

(a - tкрит Sa; a + tкрит Sa)

(46.065 - 2.306 • 1.22; 46.065 + 2.306 • 1.22)

(43.259;48.871)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистика. Критерий Фишера.

Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

 

где m – число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

2. Далее определяют фактическое значение F-критерия:

 

 

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32

Отметим значения на числовой оси.

Принятие H0 Отклонение H0, принятие H1
95% 5%
5.32 7.71

Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

 

Показатели качества уравнения регрессии.

Показатель Значение
Коэффициент детерминации 0.49
Средний коэффициент эластичности 0.0064
Средняя ошибка аппроксимации 4.71

Уравнение регрессии имеет вид y = a2x2 + a1x + a0

1. Находим параметры уравнения методом наименьших квадратов.

Система уравнений МНК:

 

a0n + a1∑x + a2∑x2 = ∑y

a0∑x + a1∑x2 + a2∑x3 = ∑yx

a0∑x2 + a1∑x3 + a2∑x4 = ∑yx2

 

x y x2 y2 x y x3 x4 x2 y
0.1 39.5 0.01 1560.25 3.95 0.001 0.0001 0.4
0.2 40.3 0.04 1624.09 8.06 0.008 0.0016 1.61
0.3 40.7 0.09 1656.49 12.21 0.027 0.0081 3.66
0.4 40.8 0.16 1664.64 16.32 0.064 0.0256 6.53
0.5 43.1 0.25 1857.61 21.55 0.13 0.0625 10.78
0.6 42.7 0.36 1823.29 25.62 0.22 0.13 15.37
0.7 45.3 0.49 2052.09 31.71 0.34 0.24 22.2
0.8 46.2 0.64 2134.44 36.96 0.51 0.41 29.57
0.9 47.4 0.81 2246.76 42.66 0.73 0.66 38.39
  49.5   2450.25 49.5     49.5
5.5 435.5 3.85 19069.91 248.54 3.03 2.53  

 

Для наших данных система уравнений имеет вид

10a0 + 5.5a1 + 3.85a2 = 435.5

5.5a0 + 3.85a1 + 3.03a2 = 248.54

3.85a0 + 3.03a1 + 2.53a2 = 178

 

 

Получаем a2 = 7.955, a1 = 2.177, a0 = 39.29

Уравнение регрессии:

y = 7.955x2+2.177x+39.29

 

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Ошибка аппроксимации.

Оценим качество уравнения регрессии с помощью средней относительной ошибки аппроксимации.

 

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

 

Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Однофакторный дисперсионный анализ.

Средние значения

 

Дисперсия

 

 

Среднеквадратическое отклонение

 

 

Коэффициент эластичности.

Коэффициент эластичности представляет собой показатель силы связи фактора t с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%.

 

 

Коэффициент эластичности меньше 1. Следовательно, при изменении x на 1%, Y изменится менее чем на 1%. Другими словами - влияние x на Y не существенно.

Эмпирическое корреляционное отношение.

Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].

 

где

 

В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1].

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < η < 0.3: слабая;

0.3 < η < 0.5: умеренная;

0.5 < η < 0.7: заметная;

0.7 < η < 0.9: высокая;

0.9 < η < 1: весьма высокая;

Полученная величина свидетельствует о том, что изменение x существенно влияет на y.

Индекс детерминации.

 

 

т.е. в 98.04% случаев влияет на изменение данных. Другими словами - точность подбора уравнения регрессии - высокая.

Для оценки качества параметров уравнения построим расчетную таблицу (табл. 2)

 

 

x y y(x) (y-ycp)2 (y-y(x))2 (y-y(x)): y
0.1 39.5 39.59 16.4 0.00762 0.00221
0.2 40.3 40.04 10.56 0.0657 0.00636
0.3 40.7 40.66 8.12 0.00167 0.00101
0.4 40.8 41.43 7.56 0.4 0.0155
0.5 43.1 42.37 0.2 0.54 0.017
0.6 42.7 43.46 0.72 0.58 0.0178
0.7 45.3 44.71 3.06 0.35 0.013
0.8 46.2 46.12 7.02 0.00597 0.00167
0.9 47.4 47.69 14.82 0.0857 0.00618
  49.5 49.42 35.4 0.00611 0.00158
    435.5 103.89 2.03 0.0823

 

 

2. Анализ точности определения оценок параметров уравнения регрессии.

Стандартная ошибка уравнения.

 

где m = 2 - количество влияющих факторов в модели регрессии.

 

 

3. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

 

 

Статистическая значимость коэффициента b подтверждается

 

 

Статистическая значимость коэффициента a подтверждается

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

(b - tнабл Sb; b + tнабл Sb)

(7.955 - 2.365•0.59; 7.955 + 2.365•0.59)

(6.55;9.36)

(a - tнабл Sa; a + tнабл Sa)

(2.177 - 2.365•0.37; 2.177 + 2.365•0.37)

(1.31;3.05)

2) F-статистика. Критерий Фишера.

Коэффициент детерминации.

 

 

Находим из таблицы Fkp(1;7;0.05) = 5.59

где m - количество факторов в уравнении регрессии (m=2).

Поскольку F > Fkp, то коэффициент детерминации (и в целом уравнение регрессии) статистически значим

 








Date: 2015-09-22; view: 3695; Нарушение авторских прав



mydocx.ru - 2015-2024 year. (0.277 sec.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав - Пожаловаться на публикацию