Полезное:
Как сделать разговор полезным и приятным
Как сделать объемную звезду своими руками
Как сделать то, что делать не хочется?
Как сделать погремушку
Как сделать так чтобы женщины сами знакомились с вами
Как сделать идею коммерческой
Как сделать хорошую растяжку ног?
Как сделать наш разум здоровым?
Как сделать, чтобы люди обманывали меньше
Вопрос 4. Как сделать так, чтобы вас уважали и ценили?
Как сделать лучше себе и другим людям
Как сделать свидание интересным?
Категории:
АрхитектураАстрономияБиологияГеографияГеологияИнформатикаИскусствоИсторияКулинарияКультураМаркетингМатематикаМедицинаМенеджментОхрана трудаПравоПроизводствоПсихологияРелигияСоциологияСпортТехникаФизикаФилософияХимияЭкологияЭкономикаЭлектроника
|
Задание № 3
Для регрессионных моделей, полученных в задании 2: 1. Найти среднюю ошибку аппроксимации. 2. Найти индекс корреляции и с доверительной вероятностью 0,95 проверить его значимость. 3. Найти индекс детерминации и проверить модель на значимость на уровне значимости 0,05. 4. Построить график линии регрессии с нанесением на него опытных данных (для каждой модели отдельно). 5. По полученным результатам выбрать наиболее качественную модель.
Экспоненциальная модель y = e3.63437484e0.2488x = 37.87817e0.2488x
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Параметры уравнения регрессии. Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Коэффициент эластичности. Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения. Коэффициент эластичности находится по формуле:
E = 0.55(0.25) = 0.14 Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно. Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 97.8% среднеквадратичного отклонения Sy. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
В среднем, расчетные значения отклоняются от фактических на 1.16%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1]. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < η < 0.3: слабая; 0.3 < η < 0.5: умеренная; 0.5 < η < 0.7: заметная; 0.7 < η < 0.9: высокая; 0.9 < η < 1: весьма высокая;
где
Индекс корреляции. Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy. В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. Индекс детерминации. Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации. Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.
т.е. в 95.81 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.19 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
Оценка параметров уравнения регрессии. Значимость коэффициента корреляции. Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными; Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит: tкрит (n-m-1;α/2) = (8;0.025) = 2.306 где m = 1 - количество объясняющих переменных. Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Отметим значения на числовой оси.
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции.
r(0.807;1) Анализ точности определения оценок коэффициентов регрессии. Несмещенной оценкой дисперсии возмущений является величина:
S2 = 0.544 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 0.74 - стандартная ошибка оценки (стандартная ошибка регрессии). Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
Индивидуальные доверительные интервалы для Y при данном значении X. (a + bxi ± ε) где
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05. H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности; H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α. tкрит (n-m-1;α/2) = (8;0.025) = 2.306
Отметим значения на числовой оси.
Поскольку 0.31 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 7.21 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tкрит Sb; b + tкрит Sb) (0.25 - 2.306 • 0.81; 0.25 + 2.306 • 0.81) (-1.624;2.121) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима. (a - tкрит Sa; a + tкрит Sa) (3.634 - 2.306 • 0.5; 3.634 + 2.306 • 0.5) (2.473;4.796) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. 2) F-статистика. Критерий Фишера. Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом. Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели. Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α. 2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии. 3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01. 4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32 Отметим значения на числовой оси.
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна). Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
Показатели качества уравнения регрессии.
Показательное уравнение регрессии имеет вид y = a bx y = e3.63437484*e0.2488x = 37.87817*1.28249x Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. 1. Параметры уравнения регрессии. Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
Коэффициент эластичности. Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения. Коэффициент эластичности находится по формуле:
E = b = 0.25 Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно. Бета – коэффициент Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к увеличению среднего значения Y на 97.8% среднеквадратичного отклонения Sy. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
В среднем, расчетные значения отклоняются от фактических на 1.16%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1]. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < η < 0.3: слабая; 0.3 < η < 0.5: умеренная; 0.5 < η < 0.7: заметная; 0.7 < η < 0.9: высокая; 0.9 < η < 1: весьма высокая;
где
Индекс корреляции. Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy. В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. Индекс детерминации. Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации. Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.
т.е. в 95.81 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая. Остальные 4.19 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
Оценка параметров уравнения регрессии. Значимость коэффициента корреляции. Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными; Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит: tкрит (n-m-1;α/2) = (8;0.025) = 2.306 где m = 1 - количество объясняющих переменных. Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Отметим значения на числовой оси.
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции.
r(0.807;1) Анализ точности определения оценок коэффициентов регрессии. Несмещенной оценкой дисперсии возмущений является величина:
S2 = 0.544 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 0.74 - стандартная ошибка оценки (стандартная ошибка регрессии). Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
Индивидуальные доверительные интервалы для Y при данном значении X. (a + bxi ± ε) где
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05. H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности; H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α. tкрит (n-m-1;α/2) = (8;0.025) = 2.306
Отметим значения на числовой оси.
Поскольку 0.31 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 7.21 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tкрит Sb; b + tкрит Sb) (0.25 - 2.306 • 0.81; 0.25 + 2.306 • 0.81) (-1.624;2.121) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима. (a - tкрит Sa; a + tкрит Sa) (3.634 - 2.306 • 0.5; 3.634 + 2.306 • 0.5) (2.473;4.796) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. 2) F-статистика. Критерий Фишера. Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом. Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели. Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α. 2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии. 3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01. 4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32 Отметим значения на числовой оси.
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна). Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
Показатели качества уравнения регрессии.
Гиперболическое уравнение регрессии имеет вид y = b/x + a y = -0.8585 / x + 46.0647
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Параметры уравнения регрессии. Выборочные средние.
Выборочные дисперсии:
Среднеквадратическое отклонение
Коэффициент корреляции b можно находить по формуле, не решая систему непосредственно:
1.3. Коэффициент эластичности. Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х. Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты. Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения. Коэффициент эластичности находится по формуле:
Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно. Бета – коэффициент Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:
Т.е. увеличение x на величину среднеквадратического отклонения Sx приведет к уменьшению среднего значения Y на 70.1% среднеквадратичного отклонения Sy. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
В среднем, расчетные значения отклоняются от фактических на 4.71%. Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1]. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < η < 0.3: слабая; 0.3 < η < 0.5: умеренная; 0.5 < η < 0.7: заметная; 0.7 < η < 0.9: высокая; 0.9 < η < 1: весьма высокая;
где
Индекс корреляции. Величина индекса корреляции R находится в границах от 0 до 1. Чем ближе она к единице, тем теснее связь рассматриваемых признаков, тем более надежно уравнение регрессии.
Полученная величина свидетельствует о том, что фактор x существенно влияет на y Для любой формы зависимости теснота связи определяется с помощью множественного коэффициента корреляции:
Данный коэффициент является универсальным, так как отражает тесноту связи и точность модели, а также может использоваться при любой форме связи переменных. При построении однофакторной корреляционной модели коэффициент множественной корреляции равен коэффициенту парной корреляции rxy. В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. 1.6. Индекс детерминации. Величину R2 (равную отношению объясненной уравнением регрессии дисперсии результата у к общей дисперсии у) для нелинейных связей называют индексом детерминации. Чаще всего, давая интерпретацию индекса детерминации, его выражают в процентах.
т.е. в 49.09 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - средняя. Остальные 50.91 % изменения Y объясняются факторами, не учтенными в модели (а также ошибками спецификации). Для оценки качества параметров регрессии построим расчетную таблицу (табл. 2)
Оценка параметров уравнения регрессии. Значимость коэффициента корреляции. Выдвигаем гипотезы: H0: rxy = 0, нет линейной взаимосвязи между переменными; H1: rxy ≠ 0, есть линейная взаимосвязь между переменными; Для того чтобы при уровне значимости α проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции нормальной двумерной случайной величины при конкурирующей гипотезе H1 ≠ 0, надо вычислить наблюдаемое значение критерия (величина случайной ошибки)
и по таблице критических точек распределения Стьюдента, по заданному уровню значимости α и числу степеней свободы k = n - 2 найти критическую точку tкрит двусторонней критической области. Если tнабл < tкрит оснований отвергнуть нулевую гипотезу. Если |tнабл| > tкрит — нулевую гипотезу отвергают.
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=8 находим tкрит: tкрит (n-m-1;α/2) = (8;0.025) = 2.306 где m = 1 - количество объясняющих переменных. Если |tнабл| > tкритич, то полученное значение коэффициента корреляции признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). Поскольку |tнабл| > tкрит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим Отметим значения на числовой оси.
В парной линейной регрессии t2r = t2b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии. Интервальная оценка для коэффициента корреляции (доверительный интервал).
Доверительный интервал для коэффициента корреляции.
r(-1;-0.119) Анализ точности определения оценок коэффициентов регрессии. Несмещенной оценкой дисперсии возмущений является величина:
S2 = 6.611 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
S = 2.57 - стандартная ошибка оценки (стандартная ошибка регрессии). Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
Индивидуальные доверительные интервалы для Y при данном значении X. (a + bxi ± ε) где
tкрит (n-m-1;α/2) = (8;0.025) = 2.306
С вероятностью 95% можно гарантировать, что значения Y при неограниченно большом числе наблюдений не выйдет за пределы найденных интервалов. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента. С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y). Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез. В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности. Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05. H0: b = 0, то есть между переменными x и y отсутствует линейная взаимосвязь в генеральной совокупности; H1: b ≠ 0, то есть между переменными x и y есть линейная взаимосвязь в генеральной совокупности. В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента. Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике). Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений. Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля. Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α. tкрит (n-m-1;α/2) = (8;0.025) = 2.306
Отметим значения на числовой оси.
Поскольку 2.78 > 2.306, то статистическая значимость коэффициента регрессии b подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).
Поскольку 37.86 > 2.306, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента). Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tкрит Sb; b + tкрит Sb) (-0.86 - 2.306 • 0.31; -0.86 + 2.306 • 0.31) (-1.571;-0.146) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. (a - tкрит Sa; a + tкрит Sa) (46.065 - 2.306 • 1.22; 46.065 + 2.306 • 1.22) (43.259;48.871) С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале. 2) F-статистика. Критерий Фишера. Индекс детерминации R2 используется для проверки существенности уравнения нелинейной регрессии в целом. Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели. Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.
где m – число факторов в модели. Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму: 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α. 2. Далее определяют фактическое значение F-критерия:
где m=1 для парной регрессии. 3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2. Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01. 4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу. В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом. Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32 Отметим значения на числовой оси.
Поскольку фактическое значение F > Fтабл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна). Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:
Показатели качества уравнения регрессии.
Уравнение регрессии имеет вид y = a2x2 + a1x + a0 1. Находим параметры уравнения методом наименьших квадратов. Система уравнений МНК:
a0n + a1∑x + a2∑x2 = ∑y a0∑x + a1∑x2 + a2∑x3 = ∑yx a0∑x2 + a1∑x3 + a2∑x4 = ∑yx2
Для наших данных система уравнений имеет вид 10a0 + 5.5a1 + 3.85a2 = 435.5 5.5a0 + 3.85a1 + 3.03a2 = 248.54 3.85a0 + 3.03a1 + 2.53a2 = 178
Получаем a2 = 7.955, a1 = 2.177, a0 = 39.29 Уравнение регрессии: y = 7.955x2+2.177x+39.29
Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных. Ошибка аппроксимации. Оценим качество уравнения регрессии с помощью средней относительной ошибки аппроксимации.
Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.
Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии. Однофакторный дисперсионный анализ. Средние значения
Дисперсия
Среднеквадратическое отклонение
Коэффициент эластичности. Коэффициент эластичности представляет собой показатель силы связи фактора t с результатом у, показывающий, на сколько процентов изменится значение у при изменении значения фактора на 1%.
Коэффициент эластичности меньше 1. Следовательно, при изменении x на 1%, Y изменится менее чем на 1%. Другими словами - влияние x на Y не существенно. Эмпирическое корреляционное отношение. Эмпирическое корреляционное отношение вычисляется для всех форм связи и служит для измерение тесноты зависимости. Изменяется в пределах [0;1].
где
В отличие от линейного коэффициента корреляции он характеризует тесноту нелинейной связи и не характеризует ее направление. Изменяется в пределах [0;1]. Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока: 0.1 < η < 0.3: слабая; 0.3 < η < 0.5: умеренная; 0.5 < η < 0.7: заметная; 0.7 < η < 0.9: высокая; 0.9 < η < 1: весьма высокая; Полученная величина свидетельствует о том, что изменение x существенно влияет на y. Индекс детерминации.
т.е. в 98.04% случаев влияет на изменение данных. Другими словами - точность подбора уравнения регрессии - высокая. Для оценки качества параметров уравнения построим расчетную таблицу (табл. 2)
2. Анализ точности определения оценок параметров уравнения регрессии. Стандартная ошибка уравнения.
где m = 2 - количество влияющих факторов в модели регрессии.
3. Проверка гипотез относительно коэффициентов линейного уравнения регрессии. 1) t-статистика. Критерий Стьюдента.
Статистическая значимость коэффициента b подтверждается
Статистическая значимость коэффициента a подтверждается Доверительный интервал для коэффициентов уравнения регрессии. Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими: (b - tнабл Sb; b + tнабл Sb) (7.955 - 2.365•0.59; 7.955 + 2.365•0.59) (6.55;9.36) (a - tнабл Sa; a + tнабл Sa) (2.177 - 2.365•0.37; 2.177 + 2.365•0.37) (1.31;3.05) 2) F-статистика. Критерий Фишера. Коэффициент детерминации.
Находим из таблицы Fkp(1;7;0.05) = 5.59 где m - количество факторов в уравнении регрессии (m=2). Поскольку F > Fkp, то коэффициент детерминации (и в целом уравнение регрессии) статистически значим
Date: 2015-09-22; view: 3695; Нарушение авторских прав |